DSS in LHCb Training for piquet 16 8000 general overview of the system example of equipment connected matrix construction and events types others piquets involved, who receive what role of the LHCb DSS piquet access to supervision remotely how inhibit an alarm conclusion Laurent Roy 18 June 2015
DSU1 DSU1 [surface: behind control room] / only 1 crate / CPU 0 - 2 Gateway PCs 2U: permanent access to the supervision even if power cut, network lost,… - UPS APC Num 2, châssis distri spare, space for 2nd crate (LS2?) DSU1 SURFACE DSU2 UX85 CPU #0 PB Slave#2 CPU #1 PB Slave#3,4 SYNCHRO CPU FO 100m Puits PZ REDUNDANT PROFIBUS FO
DSU2 DSU2 [D2 barrak: 1st floor] / 2 crates / CPU 1 Baraque D3 - PC available with DSS supervision (network LHCb but powered by DSS) Rack ‘extension’: Crate Upper + water leak detection DSU3 Baraque D3 DSU2 Baraque D2 CPU #1 PB Slave#3 15m 3m SYNCHRO CPU FO REDUNDANT PROFIBUS FO PB Slave #5,6 PB Slave#4
DSU3-DSU4 DSU3 2 crates [barrack D3A: 2nd floor] DSU4 1 crate Baraque D3 DSU4 DSU3 PB Slave #7 PB Slave #5,6 3m 15m DSU2
Fonctionnement redondance Tests 9 Mars 2015: Exemple UPS2 (EOD6) – Off PS CPU droite – Off PS 24V droite – Off OLM-Profibus droite – Off Alim crate ET droite – Off DSS fatal error mais continu un fonctionnement normal Rq: bobine en auto-maintient 230V pour arrêt d’urgence réarmement manuel nécessaire après une coupure UPS
UPS en caverne pour DSS et MSS EBD905/85X ESD206/85X 3 departs pour les 3 DSU: entrees ‘UPS2’ 3 departs pour les 3 DSU: entrees ‘UPS2’ EBS5 ESS6 EOD5 EOD6
Particularités: DSU2 Crate Upper déporté dans le rack à coté de DSU2 1 Module per ‘branch’ give a relay contact Crate Upper déporté dans le rack à coté de DSU2 dédié aux capteurs venant de UXA-B (coté Détecteur) + Fuite d’eau Detecting Probe Central de detection Probe for: Calo racks Muon racks TT Service Boxes below the Balcony UXA-C (Cooling Plants) barrack false floors PS/SPD in the groove (bunker)
Emergency Panel in Control room DSS PLC Other Safety Systems (evacuation, com. with fire brigade… Emergency Panel Cables transmission Cables transmission Cables transmission Velo Interlock box Magnet Safety System DSS PLC Water valves Electrical Control PLC Breaker DSS PLC Electrical Power to sub detectors Breaker Hardware Interfaces Breaker
Emergency Panel Evacuation cavern button DSS buzzer+flash Velo Interlock box Magnet Status Magnet Stop ramp up Magnet interlock Intercom: 2 buttons Fire brigade – CCC Test all Leds Evacuation cavern button Stop Electrical power + Close water valves Electrical Status Stop power / sub detectors individually Emergency button downstairs status 400V from transformer status
Hi-Fog Baraque - extincteurs CO2 ‘Hi-Fog’ System - only for D1 and D2 barracks inject N2+water fog through nozzles on the ceilings manual triggering CO2 bottles for the ‘electronic’ racks 1 per rack in cavern, 1 for 2 racks in CH Gas nozzle in the air flow pyrotechnic triggering ~ 60 bottles in total Automatically triggers by DSS (TS+smoke)
Rack électrovannes 13 ‘Mixed Water’ + 1 ‘Chilled Water’ circuits
Turbine Thermo switch – Détection fumée often daisy chained (ex: 3 connectors on the same cable in the counting houses) ~ 80 TS connected to DSS 80 détecteurs de fumée connectés a la central en D3 – reliée au DSU3
Détections Fumée Niveau3 ‘Centrale Incendie’ - detect smoke in the cavern or barracks Level3 Alarm fire brigade 7 contacts (one per region) go to DSS Sniffer System - detect smoke in or around the sub-detectors Level3 Alarm fire brigade 9 contacts (±one per sub-detector) go to DSS
Mesures de Température – Humidité – Point de rosé ~ 30 Pt100, 20 Humidity , 2 Point de rosé - Humidity sensor ( with 2 channels 4/20mA, temperature and relative humidity) Temperature sensor : PT100, 4 wires Dew point sensor: 2 channels 4/20mA Humidity sensor Temperature sensor
Patch panel entre ‘détecteur’ et DSUs 18 Patch Panels installed in the sub-detector racks in the cavern + 1 in SG8 Pt100 Thermo switch chain Water leak probe Ex: fire extinguisher system (CO2 bottle) Electro Valve
Emplacement Patch Panels
Matrix construction, FE and BE Capteurs: 3 types: Digital Inputs / Pt100 / Analogues Sensor (en général 4-20mA) Connectés sur des entrées ‘hardware’ de la PLC. Peuvent générer un Warning , une Alarme Pt100/Analogues: Réglages de 4 seuils (warning haut, bas, alarme haut ,bas) Pour tous: Réglages de la persistance pour le déclenchement d’alarme (Rq: si persistance < 120s aucun Warning de généré) Alarmes Purement ‘software’ dans le programme de la PLC. Dépend d’un ou plusieurs capteurs. Va déclencher une ou plusieurs actions (après un délais réglable). Actions Sorties ‘hardware’ (relais) commandés par la PLC. DSS - deux parties: Le Front-End est complètement autonome, fonctionne même sans réseau informatique ou électricité (UPS mini 1h alimenté par Diesel). La PLC (2 CPUs) lie en permanence les entrées et prend les actions en fonction de la matrice programmée. Le Back-End (supervision par soft PVSS, fonctionne sur un gateway PC) permet de lire les infos du Front-End, de faire l’acquittement des Alarmes, de modifier le programme de la PLC, d’envoyer des mails et SMS, de publier sur DIP... Laurent Roy 17
‘Normal’ Alarms Equipements liés à DSS Responsabilité Exemple Action Détecteurs de l’Expérience Chaque groupe de ‘sous détecteur’ Température Pt100 Rich2 , TS Trigger Tracker service box Slimos ou ‘On-Call LHCb’ contacte le service concerné Services (électricité, refroidissement, ventilation, gaz, …) EN/EL EN/CV EN/CV- detector PH/DT-Gas Mixed water FS baraque D2 PLC système de gaz OT Systèmes de sécurité ‘standard Cern’ (Incendie, Sniffer, AUG, Détection H2,…) GS/ASE Détection incendie D3A Sniffer Muon Autres équipements de sécurité (Hi-Fog, Water Leak, CO2, Turbines,…) LHCb Détection de fuite d’eau TS Turbine d’un rack LHCb Infrastructure pendre en charge
Matrix construction and Event types program PLC Delays Thresholds Functions Actions Delays Sensors WinCC supervision 4 event types send by DSS which must be taken in account: information send by: automatic SMS (sent by supervision) + détails (nom du capteur, de l’alarme…) - pas 100% fiable. Ne fonctionne pas si perte du réseau informatique ou GSM Email automatiques (envoyés par la supervision) + Relativement fiable, pratique pour garder une trace dans un deuxième temps. - pratique seulement pendant les heures de travail. Pas envoyé immédiatement si perte du réseau informatique. Appel automatique envoyés via CCC (Mobicall) + câblé, appel de la CCC au bout de ~15min-> Très Fiable. – alarme generique ‘DSS LHCb’ :pas les détails de l’alarmes. Flash+Buzzer en salle de contrôle + câblé depuis le Front-End -> Très Fiable. – utile seulement si présence de Slimos (Run). « Warning » Sensor Alarm Normal running of DSS Front End Error FATAL Error DSS internal problem
TASK DURING WORKING HOURS TASK OUTSIDE WORKING HOURS 2 Alarms to CCC-Ti 2 channels connected to CCC PH/DT Piquet 16.20.82 Line1 CCC FATAL Error Alarme LHCb People 16.8000 Line2 CCC Front End Error Extrait de la déclaration ‘Modesti’ pour la CCC: MoDESTI GENERAL ALARMS ALARM HELP EDMS Doc No. Line No DESCRIPTION ATTRIBUTE PRIORITY ANS CAUSES CONSEQUENCES TASK DURING WORKING HOURS TASK OUTSIDE WORKING HOURS 870044 1 ERREUR FATALE SUR DSS LHCB ERREUR_FATALE 2 X Problème matériel important dans l'un des 3 racks DSU Le fonctionnement normal du systeme n'est plus garanti Appeller le LHCb On-call :163051 Appeller le Piquet CES (DT1) :162082 ALARME SUR DSS LHCB ALARME_DECLENCHEE Le systeme DSS a declenche une alarme. Actions pour la sécurité des équipement: coupures électriques, arrêts de cooling, declenchement de CO2 dans les racks ... Appeller le LHCb On-call :168000 3 Février 2012 Reunion Piquet PH-DT
Câblage ALARM1 directement câblé sur optocoupleur DIO ‘FATAL ERROR’ DSU3 Lower Slot1 Ch8 ALARM2: DOUT : Relais DSU3 Upper Slot7 Ch32 Action ‘déclarée dans chaque Alarme mis en série avec DIO ‘FE ERROR’ DSU3 Lower Slot1 Ch7
WHO receives WHAT and HOW ? To act during ‘RUN period’ Buzzer in Ctrl room SLIMOS « Warning » sur un capteur To act during ‘working hours’ LHCb DSS (Laurent Roy) SMS (WinCC) SMS (WinCC) Alarme For information GLIMOS (Eric Thomas) ANS1 CCC To act 24h/24 except if ‘LHCb DSS’ present who take care SMS (WinCC) Front End Error LHCb DSS On Call 16.8000 To act 24h/24 except if ‘LHCb DSS’ present who take care SMS (WinCC) pour info PH/DT Piquet 16.20.82 ANS2 CCC FATAL Error
Piquets involved Magnet+DSS Piquet x4 Experiments Xavier Pons (organisation, documents) Sylvain Ravat (PLC, WinCC Magnet) 16.20.82 Nicolas Bourgeois (LHCb+CMS Magnet) Pascal Blanc (Alice DSS, Alice Magnet) Laurent Deront (Atlas Magnet) Alain Meynet (DSS CMS) Xavier Pons (Atlas+Alice Magnet) Cedric Sorde (DSS Atlas) Laurent Roy (DSS LHCb) ‘DSS-Infrastructure’ LHCb On-Call 16.8000 Rolf Lindner (Technical Coordinator) Eric Thomas (Glimos) Gloria Corti (RSO) Heinrich Schindler Matthias Karacson Christophe Frei Laurent Roy EN-ICE Piquet via 72201 Jeronimo Ortola Vidal Do their best to help but not 100% guaranty (only 2/8 people know well DSS) EN-ICE Experts working hours - Giulio Morpurgo (Back End) - Jeronimo Ortola Vidal (Front End)
responsibilities Maintenance Upgrade EN-ICE LHCb Experiment Capteurs Actionneurs DSS Software Siemens Step7 WinCC DSS Hardware PLC UPS relais optocoupleur Alarmes Maintenance Upgrade EN-ICE LHCb Experiment LHCb On-Call Slimos Piquet PH-DT Piquet EN-ICE (if needed) or On-Call LHCb (in fonction of the failure) Emergency repair
Rôle du 16 8000 Piquet pour DSS: Connexion a distance (serveur lbdss) pour comprendre le problème ‘normale alarme’: En absence de Slimos: diagnostiquer la cause, éventuellement avertir les piquets - Electrique / Cooling et Ventillation / Cooling Détecteur par le 7.22.01 (CCC-Ti) Gas: 16.25.16 Sous détecteur concernés Forcer/inhiber une alarme si besoin En ‘Run’: c’est le Slimos qui gère les alarmes mais il faut tout de même l’appeler pour l’aider dans la compréhension de l’alarme et des actions a prendre (appel piquets…). Frond End Erreur: vérifier si c’est un capteur analogique sorti du Range,…si besoin d’aide, appel du piquet PH/DT. SMS Fatal Error: piquet PH/DT aura reçu l’alarme, vérifier avec lui le problème. Laurent Roy 25
Supervision: 2 nouveaux Gateway PCs A distance: Remote desktop sur cerntsnew (avec Nice), puis lbdss (avec LHCb) Depuis DSU1: Login sur Windows server 2008 avec Nice Lancer DSS UI Login sur projet DSS WinCC (Nice)
Inhibit Alarm In case of a sensor failure in certain case an inhibit must be done to be able to acknowledge the alarm, then the actions (LV, HV switch off…) But -> Inhibit can be done ONLY with the GLIMOS or Technical Coordinator agreement Right clic ‘show’ on the sensor, right clic ‘show’ on the alarm (to open the panels) Test Value to force the sensor ‘false’ for Digital sensor or with a value below the threshold for Analog sensor Alarm can be then acknowledge, 4) then inhibit 5) not need but Disable action can also be done 6) Inhibit the sensor , possibility to tick for a long term (will appear in green instead of orange in the inhibit list) 7) Reset Test Flag 7) 2) 5) 3) 6) 4)
Activate a clear screen ‘clear screen’ in case of alarm triggered but nothing on the screen (happen few days ago) try to refresh with the tool below:
DSS cost money but we can already say it has been profitable Examples of major problems detected and treated by automatic DSS actions: Water cooling problem (temperature, circulation stop,…) Chilled water problem Detector Cooling Stop (C6F14, Demi water,…) Detector Gas stopped Water Leak detection (chiller in D4, Racks in Barracks, Velo alcove, Muon…) PS/SPD tests 'On' without cooling--> overheat detected IT Beam contact when Magnet ramp up Muon1 electronic overheat (during air cooling tests) TT electronic overheat: DSS TS (electronic 'On' without cooling alarm requested inhibit for tests) UPS Fire in PZ alcove (after a batteries maintenance) Cavern air ventilation stop, wrong temperature or humidity. And No any Data lost due to DSS during RUN 1 !! (in the 4 Experiments) few major failures happen but not during the ‘Physics’… It runs 365/365d, very useful during TS or LS (maintenance not easy) Possible improvements for a new system identified Discussions on going about the ageing of components… New DSS for LS3 ?
Challenge for the 16 8000 piquet: 1) To identify the problems by distinguishing -the 99% of ‘normal alarms’ which need only to contact the persons and the other 1% ‘normal alarm’ but which need more attention -> intervention on site (water leak, smoke detection, overheat…) -from the sensors hardware problem -> Infrastructure Team -and from the internal DSS hardware problem -> piquet PH/DT 2) To help slimos, solve the problems, restart everything as soon as possible (particularly in RUN: ‘lost data’) -can takes minutes to few hours in 99.9% of cases -several hours and more (worst scenario: DSS crash+Experts not reachable) in 0.1% …