Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER LCG –France Tier2 & AF Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER
Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Sommaire Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Outil Bilan au 12/04/09 Suivi indicateurs Métriques GGUS Jeudi 16 Avril 2009
Bilan de des problèmes récurrents En cours ( 1) Atlas installation Athena http://cctools2/elog/problemes-VO/54 Fermés depuis le 12 Mars (2) Cms srmv2-lcg based plugin http://cctools2/elog/problemes-VO/55 Cms pinning http://cctools2/elog/problemes-VO/56 Atlas exécuteur – CE job manager http://cctools2/elog/problemes-VO/43 Atlas performances FTS http://cctools2/elog/problemes-VO/45 A surveiller (1) et à clôturer à la prochaine réunion Lhcb srm-bring-on-line http://cctools2/elog/problemes-VO/58 Jeudi 16 Avril 2009
Post-Mortem et Améliorations Suivi du nombre de jobs en queue (total et par utilisateur) : http://cctools2/elog/problemes-VO/33 Suivi du nombre de slow jobs avec accès concurrents à un même fichier Catégorisation du stockage de fichiers par file size lié au type de fichiers RECO/RAW dans HPSS http://cctools2/elog/problemes-VO/50 Améliorations Cms http://cctools2/elog/problemes-VO/41 proxy expiration http://cctools2/elog/problemes-VO/51 mapping sur pool http://cctools2/elog/problemes-VO/57 Atlas Implémentation des shares et amelioration des passes de scheduling de BQS : http://cctools2/elog/problemes-VO/21 Atlas, Cms prestaging et tape families Ordonnanceur des requêtes dcache / implementation de HPSS6.2: http://cctools2/elog/problemes-VO/50 Jeudi 16 Avril 2009
Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Sommaire Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Outil Bilan au 12/04/09 Suivi indicateurs Métriques GGUS Jeudi 16 Avril 2009
Surveillance de l’exploitation sur - Alice/Atlas - Suivi d’indicateur par/pour l’exploitation avec Suzanne Poulat/ Nadia Lajili Surveillance de l’exploitation sur - Alice/Atlas - Efficacité des jobs grille Nb de pilotes job grille Caractérisation des jobs : Mémoire/CPU requis/consommé A venir : Role/Disque (RAM/CPU) Status2 /deleted vs ended job Jeudi 16 Avril 2009
Efficacité des jobs grille 2009 Total jobs Janvier Fevrier Mars Alice 1 Atlas 0,96 0,95 Source : http://cc.in2p3.fr/doc/intranet/production/stats/2009/mars/page.html Jeudi 16 Avril 2009
Jobs pilotes grille 2009 31/07/2018 Jeudi 16 Avril 2009 %total job ATLAS ALICE (aligrid) Janvier 43 66 Fevrier 49 73 Mars 59 75 Source : qselect -g atlas jobname -ended -p 02/01/2009-02/31/2009 | grep lcg | wc -l Jeudi 16 Avril 2009
Mémoire requise/ consommée classe T Alice mem_req job(%) 0 et <=512 >512 et <=1272 >1272 et <=2400 >2400 1,52 0,84 97,64 79,63 2,86 15,15 mem_req Alice OK [%] NOK [%] 0 et <=512 100 >512 et <=1272 >1272 et <=2400 16 84 mem_req Atlas OK [%] NOK [%] 0 et <=512 91 9 >512 et <=1272 21 79 >1272 et <=2400 23 77 Atlas mem_req job(%) 0 et <=512 >512 et <=1272 >1272 et <=2400 >2400 1,77 1,61 0,16 19,75 15,18 4,23 0,34 78,48 53 6,84 18,24 0,4 /afs/in2p3.fr/throng/ccin2p3/exploitation/scripts/profiljobs_2009 Jeudi 16 Avril 2009
CPU requis/ consommé classe T job(%) 0 et <=12000 >12000 et <=600000 >600000 et <=3801600 >3801600 1,51 1,16 0,35 0,84 0,65 0,19 97,64 81,75 1,25 14,64 Alice cpu_req Alice OK NOK 0 et <=12000 77 23 >12000 et <=600000 >600000 et <=3801600 15 85 cpu_req Atlas OK NOK 0 et <=12000 60 39 >12000 et <=600000 40 >600000 et <=3801600 3 97 Atlas cpu_req job(%) 0 et <=12000 >12000 et <=600000 >600000 et <=3801600 >3801600 0,92 0,55 0,36 19,75 11,92 7,82 0,01 79,33 55,24 19,71 2,07 2,3 /afs/in2p3.fr/throng/ccin2p3/exploitation/scripts/profiljobs_2009 Jeudi 16 Avril 2009
Suivi d’indicateur par/pour l’exploitation Surveillance de l’exploitation sur Efficacité des jobs grille Nb de pilotes job grille Caractérisation des jobs : Mémoire/CPU requis/consommé A venir - Pistes Rôle/Disque (RAM/CPU) Status2 /Deleted vs. ended job Autres VOs Jeudi 16 Avril 2009
Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Sommaire Point sur les problèmes récurrents des VOs LHC au CC – Jan-Mars. 2009 Outil Bilan au 12/04/09 Suivi indicateurs Métriques GGUS Jeudi 16 Avril 2009
Métriques : ROC-FR et GGUS 1/4 Janvier 2009 – 60/ROCFR (1 alarm test) Février 2009 – 42/ROCFR (1 alarm test) OTHER : vo=none, vo=void, nonlhc VOs Jeudi 16 Avril 2009
Métriques : ROC-FR et GGUS 2/4 Mars 2009 – 55/ROCFR (4 alarm tests) OTHER : vo=none, vo=void, nonlhc VOs Tous les tickets alarmes sont des tests Jeudi 16 Avril 2009
Métriques : ROC-FR et GGUS 3/4 % Team+ LHC T1/T2 January 24 67 February 57 71 March 53 86 AVG 45 75 Jeudi 16 Avril 2009
Métriques : ROC-FR et GGUS 4/4 # [h] Classement janv-09 1 SWE 134 2 RUSSIA 156 3 ITALY 162 4 France 224 5 UKI 259 6 NORTH 322 7 SE 325 8 CE 348 9 AP 442 10 AVG 478 11 CERN 527 12 DECH 2357 # [h] Classement fev 2009 1 SWE 133 2 UKI 199 3 ITALY 205 4 AP 207 5 France 208 6 RUSSIA 212 7 DECH 237 8 AVG 248 9 SE 252 10 NORTH 273 11 CERN 392 12 CE 414 #[h] Classement mars-09 1 CE 76 2 DECH 96 3 NORTH 115 4 SE 139 5 RUSSIA 150 6 AVG 176 7 UKI 184 8 ITALY 196 9 France 206 10 AP 245 11 SWE 254 12 CERN 276 source : https://gus.fzk.de/pages/metrics/download_metrics_reports_ggus.php Jeudi 16 Avril 2009
Questions/Suggestions ? Jeudi 16 Avril 2009