La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL.

Présentations similaires


Présentation au sujet: "LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL."— Transcription de la présentation:

1 LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL

2 LCG-FRANCE_19/05/09L. Poggioli2 Production MC Tous les nuages en #jobs depuis 1 an FR

3 LCG-FRANCE_19/05/09L. Poggioli3 Jobs par Nuages 01/01-17/05 FR 16%; Période Jan-Nov08 14% 10.5 Mjobs total

4 LCG-FRANCE_19/05/09L. Poggioli4 Efficacités Nuages 01/01-17/05 FR : Efficacité 85% Cf. période Jan-Nov08 : 70%

5 LCG-FRANCE_19/05/09L. Poggioli5 Jobs @ Lyon/année ATLAS : 28% total Gradient >0

6 LCG-FRANCE_19/05/09L. Poggioli6 Jobs ATLAS @ Lyon Gradient >0 sur l’année 28-29% des jobs 62% des objectifs au Q1 2009

7 LCG-FRANCE_19/05/09L. Poggioli7 FR Cloud : Jobs/Site 01/01-17/05 Période Jan-Nov08 : T1 (39%), GRIF (22%), Tokyo (19%), CC-T2 (5%) On « rentre » plus de jobs à Lyon : Nouveau bqs manager

8 LCG-FRANCE_19/05/09L. Poggioli8 FR Cloud : Efficacité/Site 01/01-17/05 ~Tous les sites > 80% (Période Jan-Nov08 ~75%) Gros progrès pour Lyon T1 (85%/71%) et T2 (86%/75%)

9 LCG-FRANCE_19/05/09L. Poggioli9 Nuage FR : Erreurs 01/01-17/05 Configuration Stockage Athena 1.Lost Heartbeat Pb /afs & dépassement de mémoire 2.DQ2put,get,stagein Pb srm, lfc,… 3.SIGTERM Jobs tués par Condor (trop de jobs à gérer) L’installation des releases doit être automatisée au plus vite @ T1

10 LCG-FRANCE_19/05/09L. Poggioli10 Reprocessing (1) Total Done Finished Failed December RAW->ESD 2060 1492 566 1 ESD->DPD,AOD 2059 1497 305 257 Ntup merging 630 630 0 0 Spring RAW->ESD 2140 1872 268 0 ESD->DPD,AOD 2140 2108 29 3 Ntup merging 1254 1252 2 0 Hist merging 2140 2140 0 0 Tag merging 2140 2140 0 0 *One task = all jobs from one stream for one run period *Clearly better software since December 2140 tasks P. Nevski 7/05

11 LCG-FRANCE_19/05/09L. Poggioli11 Reprocessing (2) tier CA CERN DE ES FR IT ND NL UK US sum ------------------------------------------------------------------------ jobs 17997 6947 20965 10550 47270 14018 14031 32140 54038 116250 334206 done 17896 6942 20913 10518 47103 13952 14002 32088 53817 115942 333173 % 99.5 99.9 99.8 99.7 99.7 99.6 99.8 99.9 99.6 99.8 99.7 ------------------------------------------------------------------------ Aborted 101 5 52 32 167 66 29 52 221 308 1033 % 0.6 0.1 0.3 0.3 0.4 0.5 0.2 0.2 0.4 0.3 0.3 Lyon : 47270 jobs Efficacité 99.7% !!! NB: Inputs sur disque et pas sur HPSS P. Nevski 7/05

12 LCG-FRANCE_19/05/09L. Poggioli12 Transfert de données dans FR S. Jézéquel

13 LCG-FRANCE_19/05/09L. Poggioli13 Analyse sur FR (1) Tous les nuages en #jobs depuis 1 an FR Aussi users non-FR

14 LCG-FRANCE_19/05/09L. Poggioli14 Analyse sur FR (2) Queues d’analyse sur T2 et T3 (pas seulement T1) Investir sur FR plutôt que de tourner à BNL

15 LCG-FRANCE_19/05/09L. Poggioli15 Hammercloud: Distributed Stress Test Analysis –Activité démarrée fin 2008 –De 50 à 300 jobs d’analyse «+ ou - standard» (1 seul type, 14.2.20, DS r5) exécutés régulièrement sur les Tier-2s à partir de même DS répliqués sur le nuage –Framework Ganga – backend LCG –Permet plutôt de tester l’infrastructure (réseau – stockage) des sites et les performances pour l’analyse (CPU et I/O) –Détails et Résumé des épisodes précédents : cf. Backup slides F. Chollet Equivalent des Functional tests pour la production

16 LCG-FRANCE_19/05/09L. Poggioli16 Suivi des tests Globalement l’efficacité du nuage en termes d’exécution des jobs est correcte –Taux « completed jobs» > 80 % en règle générale pas suffisant … –Le test s’est exécuté, les sites sont globalement fonctionnels Métriques essentielles à suivre pour aborder les vrais problèmes d’optimisation –Plots disponibles pour le nuage et par site Ratio CPU/Walltime ( > 50%) Taux evt/s –Objectif : ~15 Hz –FR Cloud : plutôt globalement autour de 10 Hz dans le meilleur des cas… http://gangarobot.cern.ch/st/test_176/ F. Chollet

17 LCG-FRANCE_19/05/09L. Poggioli17 Next : STEP09 15-mai-2009 Eric Lançon 17 G. Stewart

18 LCG-FRANCE_19/05/09L. Poggioli18 STEP09 : Détails (1) DDM functional tests –T0->tape, T0->T1(disk), T0->T1(tape),T1- >T1(disk), T1->T2(disk) Monte-Carlo –G4 Hits Production dans T2 et Upload dans T1 15,000 jobs/jours –Reconstruction Seulement sur T1 Redistribution ->T1’s & T2s

19 LCG-FRANCE_19/05/09L. Poggioli19 STEP09 : Détails (2) Reprocessing cosmiques –Prestaging des RAW depuis Tape (a priori pas à Lyon) –Distribution merged AOD&ESD ->T1’s & T2s Analyse –Hammercloud sur tous les nuages –Seulement T2s –Share MC (50%), Analyse Panda (25%), Ganga (25%) Load sur CPU & Disk

20 LCG-FRANCE_19/05/09L. Poggioli20 STEP09 : Pour FR Nombre de copies AOD+DPD -> T2s –3 Vérifier l’espace disque sur T2s –Stéphane(backup slides) Définir les T2s participant à User Analysis –Tokyo, LAPP, Lyon Trouver 1 contact FR –D’ici mercredi

21 LCG-FRANCE_19/05/09L. Poggioli21 Au quotidien Suivi Activités sur FR –Eric Lançon, F. Chandez, LP (côté user) Suivi 7j/7 > 14-16h par jour –C. Biscarat, G. Rahal (côté CC) Soutien côté CC T1 & T2 Logistique : Vobox, Condor, cron, ressources dcache, … –En plus (niveau ATLAS) Shifts ADCos 24h/24 Plus –Partie DDM (S. Jézéquel) –Hammercloud (F. Chollet)

22 LCG-FRANCE_19/05/09L. Poggioli22 Actions S’assurer du bon fonctionnement du nuage FR –Prod MC (T2), Reprocessing (T1), Analyse –Les taches arrivent bien sur FR S’assurer du bon envoi des pilotes –Factory running, # pilotes à fine-tuner Monitorer le fonctionnement des sites –Sureviller les transferts –Check efficacité (prod) –Identifier les causes d’erreurs Informer/Réagir si problèmes détectés –Informer les sites / mettre site offline –ATLAS (tickets ELOG & GGUS)

23 LCG-FRANCE_19/05/09L. Poggioli23 Outils Depuis la vobox –Régulation des pilotes Sites de monitoring Erreurs Listées/site -Par type - Avec fréquence

24 LCG-FRANCE_19/05/09L. Poggioli24 Bilan (1) Globalement Q1 2009 positif –Efficacité des sites –Montée en puissance Prod MC Analyse –Reprocessing : un succès (mais input sur disk) –Stress tests opérationnels Côté T2/T3 –Personnes identifiées pour Stress Tests –Réunion formation production le 4/05 avec T2/T3 Personnes supplémentaires se manifestent

25 LCG-FRANCE_19/05/09L. Poggioli25 Bilan (2) Côté T1 –Charge/Efficacité en net progrès depuis fin 08 Pb de l’automatisation des releases à régler –Interactivité et réactivité bien meilleure Meeting CAF mensuels avec personnes du CC Ex pb de proxy/extension de ports (P. Girard) Ex gestion exemplaire de la panne du 03/05 (Catherine) Ex Tests de charge du cluster Oracle (Catherine) –Souhaitable pour ATLAS pour la prise de données 1 ingénieur au courant de tous les pbs (dcache, afs, bqs) à 100% 1 « interface-user » (Cf. C. Biscarat) à 100% A confirmer pour STEP09

26 LCG-FRANCE_19/05/09L. Poggioli26 BACKUP

27 LCG-FRANCE_19/05/09L. Poggioli27

28 LCG-FRANCE_19/05/09L. Poggioli28

29 LCG-FRANCE_19/05/09L. Poggioli29

30 LCG-FRANCE_19/05/09L. Poggioli30

31 LCG-FRANCE_19/05/09L. Poggioli31


Télécharger ppt "LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL."

Présentations similaires


Annonces Google