LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL
LCG-FRANCE_19/05/09L. Poggioli2 Production MC Tous les nuages en #jobs depuis 1 an FR
LCG-FRANCE_19/05/09L. Poggioli3 Jobs par Nuages 01/01-17/05 FR 16%; Période Jan-Nov08 14% 10.5 Mjobs total
LCG-FRANCE_19/05/09L. Poggioli4 Efficacités Nuages 01/01-17/05 FR : Efficacité 85% Cf. période Jan-Nov08 : 70%
LCG-FRANCE_19/05/09L. Poggioli5 Lyon/année ATLAS : 28% total Gradient >0
LCG-FRANCE_19/05/09L. Poggioli6 Jobs Lyon Gradient >0 sur l’année 28-29% des jobs 62% des objectifs au Q1 2009
LCG-FRANCE_19/05/09L. Poggioli7 FR Cloud : Jobs/Site 01/01-17/05 Période Jan-Nov08 : T1 (39%), GRIF (22%), Tokyo (19%), CC-T2 (5%) On « rentre » plus de jobs à Lyon : Nouveau bqs manager
LCG-FRANCE_19/05/09L. Poggioli8 FR Cloud : Efficacité/Site 01/01-17/05 ~Tous les sites > 80% (Période Jan-Nov08 ~75%) Gros progrès pour Lyon T1 (85%/71%) et T2 (86%/75%)
LCG-FRANCE_19/05/09L. Poggioli9 Nuage FR : Erreurs 01/01-17/05 Configuration Stockage Athena 1.Lost Heartbeat Pb /afs & dépassement de mémoire 2.DQ2put,get,stagein Pb srm, lfc,… 3.SIGTERM Jobs tués par Condor (trop de jobs à gérer) L’installation des releases doit être automatisée au plus T1
LCG-FRANCE_19/05/09L. Poggioli10 Reprocessing (1) Total Done Finished Failed December RAW->ESD ESD->DPD,AOD Ntup merging Spring RAW->ESD ESD->DPD,AOD Ntup merging Hist merging Tag merging *One task = all jobs from one stream for one run period *Clearly better software since December 2140 tasks P. Nevski 7/05
LCG-FRANCE_19/05/09L. Poggioli11 Reprocessing (2) tier CA CERN DE ES FR IT ND NL UK US sum jobs done % Aborted % Lyon : jobs Efficacité 99.7% !!! NB: Inputs sur disque et pas sur HPSS P. Nevski 7/05
LCG-FRANCE_19/05/09L. Poggioli12 Transfert de données dans FR S. Jézéquel
LCG-FRANCE_19/05/09L. Poggioli13 Analyse sur FR (1) Tous les nuages en #jobs depuis 1 an FR Aussi users non-FR
LCG-FRANCE_19/05/09L. Poggioli14 Analyse sur FR (2) Queues d’analyse sur T2 et T3 (pas seulement T1) Investir sur FR plutôt que de tourner à BNL
LCG-FRANCE_19/05/09L. Poggioli15 Hammercloud: Distributed Stress Test Analysis –Activité démarrée fin 2008 –De 50 à 300 jobs d’analyse «+ ou - standard» (1 seul type, , DS r5) exécutés régulièrement sur les Tier-2s à partir de même DS répliqués sur le nuage –Framework Ganga – backend LCG –Permet plutôt de tester l’infrastructure (réseau – stockage) des sites et les performances pour l’analyse (CPU et I/O) –Détails et Résumé des épisodes précédents : cf. Backup slides F. Chollet Equivalent des Functional tests pour la production
LCG-FRANCE_19/05/09L. Poggioli16 Suivi des tests Globalement l’efficacité du nuage en termes d’exécution des jobs est correcte –Taux « completed jobs» > 80 % en règle générale pas suffisant … –Le test s’est exécuté, les sites sont globalement fonctionnels Métriques essentielles à suivre pour aborder les vrais problèmes d’optimisation –Plots disponibles pour le nuage et par site Ratio CPU/Walltime ( > 50%) Taux evt/s –Objectif : ~15 Hz –FR Cloud : plutôt globalement autour de 10 Hz dans le meilleur des cas… F. Chollet
LCG-FRANCE_19/05/09L. Poggioli17 Next : STEP09 15-mai-2009 Eric Lançon 17 G. Stewart
LCG-FRANCE_19/05/09L. Poggioli18 STEP09 : Détails (1) DDM functional tests –T0->tape, T0->T1(disk), T0->T1(tape),T1- >T1(disk), T1->T2(disk) Monte-Carlo –G4 Hits Production dans T2 et Upload dans T1 15,000 jobs/jours –Reconstruction Seulement sur T1 Redistribution ->T1’s & T2s
LCG-FRANCE_19/05/09L. Poggioli19 STEP09 : Détails (2) Reprocessing cosmiques –Prestaging des RAW depuis Tape (a priori pas à Lyon) –Distribution merged AOD&ESD ->T1’s & T2s Analyse –Hammercloud sur tous les nuages –Seulement T2s –Share MC (50%), Analyse Panda (25%), Ganga (25%) Load sur CPU & Disk
LCG-FRANCE_19/05/09L. Poggioli20 STEP09 : Pour FR Nombre de copies AOD+DPD -> T2s –3 Vérifier l’espace disque sur T2s –Stéphane(backup slides) Définir les T2s participant à User Analysis –Tokyo, LAPP, Lyon Trouver 1 contact FR –D’ici mercredi
LCG-FRANCE_19/05/09L. Poggioli21 Au quotidien Suivi Activités sur FR –Eric Lançon, F. Chandez, LP (côté user) Suivi 7j/7 > 14-16h par jour –C. Biscarat, G. Rahal (côté CC) Soutien côté CC T1 & T2 Logistique : Vobox, Condor, cron, ressources dcache, … –En plus (niveau ATLAS) Shifts ADCos 24h/24 Plus –Partie DDM (S. Jézéquel) –Hammercloud (F. Chollet)
LCG-FRANCE_19/05/09L. Poggioli22 Actions S’assurer du bon fonctionnement du nuage FR –Prod MC (T2), Reprocessing (T1), Analyse –Les taches arrivent bien sur FR S’assurer du bon envoi des pilotes –Factory running, # pilotes à fine-tuner Monitorer le fonctionnement des sites –Sureviller les transferts –Check efficacité (prod) –Identifier les causes d’erreurs Informer/Réagir si problèmes détectés –Informer les sites / mettre site offline –ATLAS (tickets ELOG & GGUS)
LCG-FRANCE_19/05/09L. Poggioli23 Outils Depuis la vobox –Régulation des pilotes Sites de monitoring Erreurs Listées/site -Par type - Avec fréquence
LCG-FRANCE_19/05/09L. Poggioli24 Bilan (1) Globalement Q positif –Efficacité des sites –Montée en puissance Prod MC Analyse –Reprocessing : un succès (mais input sur disk) –Stress tests opérationnels Côté T2/T3 –Personnes identifiées pour Stress Tests –Réunion formation production le 4/05 avec T2/T3 Personnes supplémentaires se manifestent
LCG-FRANCE_19/05/09L. Poggioli25 Bilan (2) Côté T1 –Charge/Efficacité en net progrès depuis fin 08 Pb de l’automatisation des releases à régler –Interactivité et réactivité bien meilleure Meeting CAF mensuels avec personnes du CC Ex pb de proxy/extension de ports (P. Girard) Ex gestion exemplaire de la panne du 03/05 (Catherine) Ex Tests de charge du cluster Oracle (Catherine) –Souhaitable pour ATLAS pour la prise de données 1 ingénieur au courant de tous les pbs (dcache, afs, bqs) à 100% 1 « interface-user » (Cf. C. Biscarat) à 100% A confirmer pour STEP09
LCG-FRANCE_19/05/09L. Poggioli26 BACKUP
LCG-FRANCE_19/05/09L. Poggioli27
LCG-FRANCE_19/05/09L. Poggioli28
LCG-FRANCE_19/05/09L. Poggioli29
LCG-FRANCE_19/05/09L. Poggioli30
LCG-FRANCE_19/05/09L. Poggioli31