Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER

Slides:



Advertisements
Présentations similaires
LCG-France: Tier-1 au CC-IN2P3 Bilan 2005 et perspectives 2006 Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3
Advertisements

Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.
Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.
Production DC2 ATLAS David Bouvet LHC Calcul 22 juillet 2004.
Fonctionnement des sites (1 er trim.09) Frédérique Chollet Fabio Hernandez Fairouz Malek Forum trimestriel LCG-France Lyon, 6 avril 2009.
Fabio Hernandez Lyon, 9 novembre 2006 LCG-France Tier-1 Réunion de Coordination.
CAF-11/10/2010Luc1 Squad Report T1 Période 13/09-11/10 Irena, Sabine, Emmanuel.
20-mars-2008Eric Lançon1 Activités ATLAS sur le nuage Français Emprunts a K. Bernardet, C. Biscarat, S. Jezequel, G. Rahal.
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
CALCUL ATLAS LCG France (CC IN2P3 Lyon) 30 Avril SOMMAIRE Data Challenge 2 (DC2) d’ATLAS Utilisation du CC IN2P3.
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Nombre de job slot par machine Server_priv/node. Node1 np=2 Règle de 1 core = 1 job slot = 2 Go. Sur un bi-processeur bi-core on annonce alors np=4 Pas.
Le projet MUST Méso infrastructure de calcul et de stockage ouverte sur la grille européenne LCG/EGEE Colloque Grille Rhône-Alpes 10 janvier 2008.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
État de la production LHC et statut de BQS Suzanne Poulat – groupe production.
1 Stéphane JEZEQUEL JI06 Modèle de calcul d'ATLAS et Exercices en vraie grandeur de la grille WLCG par l'expérience ATLAS S. Jézéquel Journées Informatiques.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR-T2T3, Annecy Mai 2009Jean-Michel BARBET Subatech 1 /18 IN2P3-SUBATECH :
LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL.
ALICE February/March exercise summary Latchezar Betev WLCG Collaboration Workshop 22 April 2008.
C. Charlot, Calcul CMS, LCG-DIR, fév 2007 Calcul CMS 2006 TDR de Physique CMS Physics TDR, Volume 1, CERN-LHCC , feb. 2006, 548pp CMS Physics TDR,
LCG-France Tier-1 & AF Réunion mensuelle de coordination
Passage de Main SYSGRID Réunion 1
Le nœud de grille de calcul de l'IPHC dans CMS
Réunion Analyse D0 France au CCIN2P3 19 janvier 2004
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
Un instrument informatique de pointe au service de la recherche
Planification budgétaire Tier2s & Tier-3s Etat d’avancement
Etat des services grid de production
12 mars 2004, Lyon Reunion CAF F.Chollet 1
Organisation Tiers CMS-France
Surveillance des services grille par NAGIOS
Status des problèmes d’accès à la software area de LHCb
Pierre Girard LCG-France Tier
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Consolidation des services FTS et LFC
LCG-France Tier-1 & AF Réunion mensuelle de coordination
Activités présentes et à venir
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
Configuration FTS pour CMS
Les opérations régionales en France au quotidien après le 20 Avril
Réunion coordination WLCG Lyon, le 13 mars 2008
Etat actuel et perspectives des CEs
Intégration des services grid à l'exploitation
Consolidation des services de grille de production
LCG-France Tier-1 & AF Réunion mensuelle de coordination
David Bouvet LCG France T2 T3 – LPNHE
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 11 Juin- 10 Septembre Hélène CORDIER.
Jobs ATLAS sur la grille
Suzanne Poulat - Philippe Olivero
L’exploitation des données du collisionneur LHC: un défi pour le calcul scientifique un enjeu pour le LAPP S. Jézéquel.
Synthèse problèmes rencontrés par les expériences LHC au CC-IN2P3
CREAM-CE et SGE.
ON Call Service. Service de Piquet.
TreqS TReqS 1.0.
Atelier régulation de la production dans un contexte grille
Résumé de la réunion PAF-CAF 12/04/2010
Bilan reprocessing données cosmiques Atlas
Organisation LCG-France Lien avec le computing LHC
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 10 Septembre – 21 Octobre Hélène CORDIER.
Infrastructure Opérationnelle d’EGEE
Introduction à GENIUS et GILDA
Infrastructure Opérationnelle d’EGEE2
DC04 CMS Objectif Status Planning
Efficacité des jobs CMS en 2010
LCG – France et ALICE Bilan 2006 Planning fevrier 2007
Résumé des Actions Suite aux Réunions CB et MB
Michel Jouvin LAL/Orsay
Workshop dCache.
Transcription de la présentation:

Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER LCG –France Tier2 & AF Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER

Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Sommaire Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Outil Bilan au 12/04/09 Suivi indicateurs Métriques GGUS Jeudi 16 Avril 2009

Bilan de des problèmes récurrents En cours ( 1) Atlas installation Athena http://cctools2/elog/problemes-VO/54 Fermés depuis le 12 Mars (2) Cms srmv2-lcg based plugin http://cctools2/elog/problemes-VO/55 Cms pinning http://cctools2/elog/problemes-VO/56 Atlas exécuteur – CE job manager http://cctools2/elog/problemes-VO/43 Atlas performances FTS http://cctools2/elog/problemes-VO/45 A surveiller (1) et à clôturer à la prochaine réunion Lhcb srm-bring-on-line http://cctools2/elog/problemes-VO/58 Jeudi 16 Avril 2009

Post-Mortem et Améliorations Suivi du nombre de jobs en queue (total et par utilisateur) : http://cctools2/elog/problemes-VO/33 Suivi du nombre de slow jobs avec accès concurrents à un même fichier Catégorisation du stockage de fichiers par file size lié au type de fichiers RECO/RAW dans HPSS http://cctools2/elog/problemes-VO/50 Améliorations Cms http://cctools2/elog/problemes-VO/41 proxy expiration http://cctools2/elog/problemes-VO/51 mapping sur pool http://cctools2/elog/problemes-VO/57 Atlas Implémentation des shares et amelioration des passes de scheduling de BQS : http://cctools2/elog/problemes-VO/21 Atlas, Cms prestaging et tape families Ordonnanceur des requêtes dcache / implementation de HPSS6.2: http://cctools2/elog/problemes-VO/50 Jeudi 16 Avril 2009

Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Sommaire Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Outil Bilan au 12/04/09 Suivi indicateurs Métriques GGUS Jeudi 16 Avril 2009

Surveillance de l’exploitation sur - Alice/Atlas - Suivi d’indicateur par/pour l’exploitation avec Suzanne Poulat/ Nadia Lajili Surveillance de l’exploitation sur - Alice/Atlas - Efficacité des jobs grille Nb de pilotes job grille Caractérisation des jobs : Mémoire/CPU requis/consommé A venir : Role/Disque (RAM/CPU) Status2 /deleted vs ended job Jeudi 16 Avril 2009

Efficacité des jobs grille 2009 Total jobs Janvier Fevrier Mars Alice 1 Atlas 0,96 0,95 Source : http://cc.in2p3.fr/doc/intranet/production/stats/2009/mars/page.html Jeudi 16 Avril 2009

Jobs pilotes grille 2009 31/07/2018 Jeudi 16 Avril 2009 %total job ATLAS ALICE (aligrid) Janvier 43 66 Fevrier 49 73 Mars 59 75 Source : qselect -g atlas jobname -ended -p 02/01/2009-02/31/2009 | grep lcg | wc -l Jeudi 16 Avril 2009

Mémoire requise/ consommée  classe T Alice mem_req job(%) 0 et <=512 >512 et <=1272 >1272 et <=2400 >2400 1,52 0,84 97,64 79,63 2,86 15,15 mem_req Alice OK [%] NOK [%] 0 et <=512 100 >512 et <=1272 >1272 et <=2400 16 84 mem_req Atlas OK [%] NOK [%] 0 et <=512 91 9 >512 et <=1272 21 79 >1272 et <=2400 23 77 Atlas mem_req job(%) 0 et <=512 >512 et <=1272 >1272 et <=2400 >2400 1,77 1,61 0,16 19,75 15,18 4,23 0,34 78,48 53 6,84 18,24 0,4 /afs/in2p3.fr/throng/ccin2p3/exploitation/scripts/profiljobs_2009 Jeudi 16 Avril 2009

CPU requis/ consommé  classe T job(%) 0 et <=12000 >12000 et <=600000 >600000 et <=3801600 >3801600 1,51 1,16 0,35 0,84 0,65 0,19 97,64 81,75 1,25 14,64 Alice cpu_req Alice OK NOK 0 et <=12000 77 23 >12000 et <=600000 >600000 et <=3801600 15 85 cpu_req Atlas OK NOK 0 et <=12000 60 39 >12000 et <=600000 40 >600000 et <=3801600 3 97 Atlas cpu_req job(%) 0 et <=12000 >12000 et <=600000 >600000 et <=3801600 >3801600 0,92 0,55 0,36 19,75 11,92 7,82 0,01 79,33 55,24 19,71 2,07 2,3 /afs/in2p3.fr/throng/ccin2p3/exploitation/scripts/profiljobs_2009 Jeudi 16 Avril 2009

Suivi d’indicateur par/pour l’exploitation Surveillance de l’exploitation sur Efficacité des jobs grille Nb de pilotes job grille Caractérisation des jobs : Mémoire/CPU requis/consommé A venir - Pistes Rôle/Disque (RAM/CPU) Status2 /Deleted vs. ended job Autres VOs Jeudi 16 Avril 2009

Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Sommaire Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Outil Bilan au 12/04/09 Suivi indicateurs Métriques GGUS Jeudi 16 Avril 2009

Métriques : ROC-FR et GGUS 1/4 Janvier 2009 – 60/ROCFR (1 alarm test) Février 2009 – 42/ROCFR (1 alarm test) OTHER : vo=none, vo=void, nonlhc VOs Jeudi 16 Avril 2009

Métriques : ROC-FR et GGUS 2/4 Mars 2009 – 55/ROCFR (4 alarm tests) OTHER : vo=none, vo=void, nonlhc VOs Tous les tickets alarmes sont des tests Jeudi 16 Avril 2009

Métriques : ROC-FR et GGUS 3/4 % Team+ LHC T1/T2 January 24 67 February 57 71 March 53 86 AVG 45 75 Jeudi 16 Avril 2009

Métriques : ROC-FR et GGUS 4/4 # [h] Classement janv-09 1 SWE 134 2 RUSSIA 156 3 ITALY 162 4 France 224 5 UKI 259 6 NORTH 322 7 SE 325 8 CE 348 9 AP 442 10 AVG 478 11 CERN 527 12 DECH 2357 # [h] Classement fev 2009 1 SWE 133 2 UKI 199 3 ITALY 205 4 AP 207 5 France 208 6 RUSSIA 212 7 DECH 237 8 AVG 248 9 SE 252 10 NORTH 273 11 CERN 392 12 CE 414 #[h] Classement mars-09 1 CE 76 2 DECH 96 3 NORTH 115 4 SE 139 5 RUSSIA 150 6 AVG 176 7 UKI 184 8 ITALY 196 9 France 206 10 AP 245 11 SWE 254 12 CERN 276 source : https://gus.fzk.de/pages/metrics/download_metrics_reports_ggus.php Jeudi 16 Avril 2009

Questions/Suggestions ? Jeudi 16 Avril 2009