La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Fonctionnement des sites (1 er trim.09) Frédérique Chollet Fabio Hernandez Fairouz Malek Forum trimestriel LCG-France Lyon, 6 avril 2009.

Présentations similaires


Présentation au sujet: "Fonctionnement des sites (1 er trim.09) Frédérique Chollet Fabio Hernandez Fairouz Malek Forum trimestriel LCG-France Lyon, 6 avril 2009."— Transcription de la présentation:

1 Fonctionnement des sites (1 er trim.09) Frédérique Chollet Fabio Hernandez Fairouz Malek Forum trimestriel LCG-France Lyon, 6 avril 2009

2 2 Contents Fonctionnement des sites au 1 er trimestre 09  Utilisation CPU / Objectifs LCG-France ○Accounting EGEE - WLCG  Capacités installées / pledges 2009 ○informations collectées auprès des sites pour le moment  Utilisation CPU / pledges ○Rapports WLCG  Disponibilité des sites ○Rapports WLCG et Gridview (OPS) ○Dashboard VOs  Métriques GGUS Aperçu des travaux en cours  au Tier-1  dans le cadre du groupe technique T2-T3

3 3 Contribution by LCG-France 44 countries contributed CPU resources to the LHC experiments Source: EGEE Accounting PortalEGEE Accounting Portal 3 France : 12 % in 2008

4 4 Contribution by LCG-France CC-IN2P3 : 8 % in 2008 Source: EGEE Accounting PortalEGEE Accounting Portal 4

5 5 T2 contribution : 12 % in 2008 Contribution by LCG-France Source: EGEE Accounting PortalEGEE Accounting Portal

6 6 Contribution by LCG-France Source: EGEE Accounting PortalEGEE Accounting Portal T1 contribution : 30 % T2 contribution : 65 % included IN2P3-CC-T2 T3 contribution : 5 % 45 % outside CC-IN2P3 T1 contribution : 30 % T2 contribution : 65 % included IN2P3-CC-T2 T3 contribution : 5 % 45 % outside CC-IN2P3

7 7 Installed capacities in Tier-2s [% 2009 pledges] Source LGC-France : EDMS I-012421EDMS I-012421 CPU DISK Next upgrade (apr.09) In 2008, none of the Tier-2 sites was able to purchase in advance to honor the pledges due in April 09

8 8 WLCG Tier-2 Accounting monthly reports Tier-2 used CPU [% 2008 pledge] by LHC VOs April. 08-Mar.09 Sites not equally used Source : EGEE accounting portal WLCG Tier-2 reportsEGEE accounting portal WLCG Tier-2 reports Pledges fully used inc. 60% efficiency

9 9 Tier-1 Reliability & Availability for OPS (jan. – fev.09) Source: Reliability of WLCG Tier-1 Sites + CERNReliability of WLCG Tier-1 Sites + CERN Target 97% since jan.09 9 Target 95% since jan.09 Jan. 09 Fiabilité : Jan’09 : 97 % Fev’09 : 99 % Fiabilité : Jan’09 : 97 % Fev’09 : 99 % Disponibilité : Jan’09 : 97 % Fev’09 : 98 % Disponibilité : Jan’09 : 97 % Fev’09 : 98 % Fev. 09 Source: http://gridview.cern.chhttp://gridview.cern.ch

10 10 Tier-1 Reliability & Availability for OPS (jan. – fev.09) 10 Oct. – Dec. 08 Amélioration de stabilité de SRM/ dcache Jan-Mars. 09 Source: http://gridview.cern.chhttp://gridview.cern.ch

11 11 Site Availability for OPS (jan. 09) Source: WLCG Availability and Reliability ReportsWLCG Availability and Reliability Reports IPHC : 95% GRIF : 99 % CC-T2 : 96 % SUBATECH : 99 % LPC : 94 % LAPP : 94 % Source: GridviewGridview LPSC IPNL CPPM Power cut Network maintenance T3s as good as T2s Source: http://gridview.cern.chhttp://gridview.cern.ch

12 12 Site availability for OPS (feb. 09) IPHC : 96 % GRIF : 100 % CC-T2 : 97 % SUBATECH : 96 % LPC : 93 % LAPP : 100 % LPSC IPNL CPPM

13 13 Site availability for OPS (mar. 09) IPHC GRIF CC-T2 SUBATECH LPC LAPP LPSC IPNL CPPM Cooling pb schedule downtime

14 14 Disponibilité des sites Alice http://dashb-alice-sam.cern.ch/dashboard/

15 15 Disponibilité des sites ATLAS http://dashb-alice-sam.cern.ch/dashboard/

16 16 Disponibilité des sites CMS http://dashb-cms-sam.cern.ch/dashboard/

17 17 Disponibilité des sites LHCb http://dashb-lhcb-sam.cern.ch/dashboard/

18 18 Métriques GGUS Suivi des aspects opérationnels Janvier 2009 – 60/ROCFR (1 alarm test) Par qui le ticket est-il généré ? A qui est-il destiné ? Courtesy : Hélène Cordier OTHER : vo=none, vo=void, nonlhc VOs

19 19 Métriques GGUS Courtesy : Hélène Cordier Février 2009 – 42/ROCFR (1 alarm test) Mars 2009 – 55/ROCFR (4 alarm tests) OTHER : vo=none, vo=void, nonlhc VOs

20 20 Métriques GGUS Suivi des aspects opérationnels %Team+ LHCT1/T2 January2467 February5771 March5386 AVG4575

21 21 Interaction avec les expériences  Réunions de coordination avec CMS, ATLAS et Alice ce trimestre Migration HPSS  Évolution majeure version HPSS (chgt mécanisme d’authentification)  Initialement prévue pour le 1er avril Amélioration du staging bande disque  Ordonnanceur des requêtes passées à HPSS par dCache  Concept validé – Mesure du gain reste à faire, prévu prochainement avec des données ATLAS Déploiement d’un prototype de ferme d’analyse interactif basé sur PROOF  Cf présentation de Dominique Séparation claire des données T1 / T2 Chantiers en cours au Tier-1 (1 er trim.09)

22 22 Alice : contact établi via l’Alice Task Force Déploiement d’une instance WMS dédiée à Alice au GRIF  Demande initiale (1 instance associée à chaque T1)  Choix stratégique du CC-IN2P3 de ne pas se disperser Réponse française ( déploiement au GRIF) acceptée par Alice  Service assez complexe à maintenir – Période de stabilisation  Des problèmes hard., de stabilité, de tenue en charge (aplication d’un “mega patch”)  Exigence de réactivité de la part d’Alice Déploiement pilote d’un CREAM CE à Subatech Travaux en cours (1 er trim.09) Interaction sites – expériences

23 23 ATLAS : contact via meeting T2-T3 Jan. 09 : Analyse détaillée des erreurs des jobs de production par site survenue en 2008  Objectif améliorer l’efficacité des sites et du nuage  Pistes évoquées à poursuivre  Suivi top 4 des erreurs les plus fréquentes  Fail-over à prévoir en cas d’arrêt dcache au CC > 1 jour Analyse – Démarrage tests fonctionnels réguliers sur l’ensemble du nuage FR  Processus d’optimisation complexe de part et d’autre  Limitation LAN, charge infrastructure de stockage observés – Travaux d’upgrade en cours  Comparaison de différents modes d’accès et protocoles  Sugestion CPPM : reprise des tests d’accès en lecture via xrootd / DPM Travaux en cours (1 er trim.09) Interaction sites – expériences

24 24 CMS : contacts dans les sites CMS Utilisation GGUS (problèmes grille) et savannah (problèmes CMS)  difficulté exprimée par les sites CMS quant à l’utilisation d’un outil spécifique qui ne gère pas l’envoi d’alertes à une adresse mail générique Pas de problème particulier évoqué Suivi possible via les rapports journaliers CMS  pbs de file transfert pour l’essentiel…  https://twiki.cern.ch/twiki/bin/view/CMS/FacOps_WLCGdailyreports https://twiki.cern.ch/twiki/bin/view/CMS/FacOps_WLCGdailyreports  Pb Savannah  forked a GGUS ticket Interrogation quant aux performances d’accès aux données via rfio de la part de l’IPNL dans le cas de job CMS  Intérêt d’une mise en commun des évaluations ATLAS et CMS dans le cas de l’analyse Travaux en cours (1 er trim.09) Interaction sites – expériences

25 25 LHCb : contact via relais auprès d’Andrei Bannissement site sur échec SAM test spécifique  LAPP : ‘set-up software’ timeout – accès à la zone software servie par gpfs – problème résolu grâce à l’optimisation de la configuration du système de fichier (mécanisme spécifique et sophistiqué lié à gpfs)  LPC : Pb de jobs stalled - site banni depuis plusieurs mois En attente décision LHCb : Evaluation de l’utilisation de certains T2s pour l’analyse de données ?  GRIF et CPPM prêts Travaux en cours (1 er trim.09) Interaction sites – expériences

26 26 Nouvelle unité de normalisation de la capacité CPU  Transition HEP-SPEC06 annoncée pour le RRB d’avril  https://twiki.cern.ch/twiki/bin/view/FIOgroup/TsiBenchHEPSPEC https://twiki.cern.ch/twiki/bin/view/FIOgroup/TsiBenchHEPSPEC  Facteur de conversion simple HEP-SPEC06 = 4 * kSI2K  Licence SPEC06 achetée par le CC disponible pour les sites Groupe Accounting animé par C.Barbier (LAPP)  Elaboration, diffusion, archivage de données statistiques comprenant les informations nominatives véhiculées par le certificat de l’utilisateur)  Rédaction d’un document de synthèse transmis à la DSI via le resp. sécurité IN2P3 et IdG Groupe Monitoring animé par C.Leroy (Irfu)  Atelier Nagios en janvier, réunion de travail trimestrielle  Poursuite des travaux de régionalisation et de mise en commun Travaux en cours (1 er trim.09)

27 27 A venir… Collecte automatique des capacités installées via le système d’information Evolution probable vers xrootd  Sujet chaud pour tous les sites  pour toutes les expériences ?  Même xrootd ? (natif, plug-in DPM…) Migration SL5 Transition vers la NGI française Evolution connexion WAN du LAPP What else ?


Télécharger ppt "Fonctionnement des sites (1 er trim.09) Frédérique Chollet Fabio Hernandez Fairouz Malek Forum trimestriel LCG-France Lyon, 6 avril 2009."

Présentations similaires


Annonces Google