LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL.

Slides:



Advertisements
Présentations similaires
Calcul CMS: bilan 2008 C. Charlot / LLR LCG-DIR mars 2009.
Advertisements

2-mars-2009Eric Lançon1 Nouvelles d’ATLAS Reunion LCG 2 mars 2009 Lyon.
Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.
CAF-13/09/2010Luc1 Squad Report T2 Période 19/06-11/09 Irena, Sabine, Emmanuel.
Service Challenge 4 – Tests de Débit Bilan pour le Tier-1 LCG-France Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3
ATLAS Ghita Rahal CC-IN2P3 Novembre 9, /6/2006Réunion CAF2 Activités Création et externalisation d’outils de monitoring de l’état du T1 (CPU,
Eric Lançon1 Calcul ATLAS en France Le CAF au PAF * CAF : Calcul Atlas France *Célèbre contrepèterie.
1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo.
11/9/07-PAFL.Poggioli/LAL1/25 Gestion des données : DDM Distributed Data Management Préambule Le modèle ATLAS DDM –Principe, Tests, Suivi, Problèmes Next.
CAF-11/10/2010Luc1 Squad Report T1 Période 13/09-11/10 Irena, Sabine, Emmanuel.
20-mars-2008Eric Lançon1 Activités ATLAS sur le nuage Français Emprunts a K. Bernardet, C. Biscarat, S. Jezequel, G. Rahal.
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Evènements Opérations Octobre : Vision, Buts, Logistique, Participation et Cibles H. Cordier.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
1 Stéphane JEZEQUEL JI06 Modèle de calcul d'ATLAS et Exercices en vraie grandeur de la grille WLCG par l'expérience ATLAS S. Jézéquel Journées Informatiques.
1 Stéphane JEZEQUEL 23 Juin 2008 Analyse des données LHC dans ATLAS S. Jézéquel.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR-T2T3, Annecy Mai 2009Jean-Michel BARBET Subatech 1 /18 IN2P3-SUBATECH :
Yannick Patois 1 Utilisation LCG-France Les Technical Evolution Groups et LCG-France.
ALICE February/March exercise summary Latchezar Betev WLCG Collaboration Workshop 22 April 2008.
C. Charlot, Calcul CMS, LCG-DIR, fév 2007 Calcul CMS 2006 TDR de Physique CMS Physics TDR, Volume 1, CERN-LHCC , feb. 2006, 548pp CMS Physics TDR,
DBStation Date 06/12/16 Rédacteurs Hervé FAUVET et Bruno GUEDJ.
Chantier 6 : Système d’animation locale
Gestion des données : DDM Distributed Data Management
La Grille de Calcul du LHC La Grille de Calcul du LHC
Utilisation de PostgreSQL
SmarTeam-Coord : mandat, composition, activités
Patrice lebrun - D0-France Lyon
Passage de Main SYSGRID Réunion 1
Modèle opérationnel de la grille
Compte rendu HEPIX et CHEP2015 Stockage et gestion des données
Réunion Analyse D0 France au CCIN2P3 19 janvier 2004
Les nouveautés dans les modèles de Calcul au LHC
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
GRIF : Grille pour la Recherche en
Etat des services grid de production
ATLAS Computing model et utilisation de LCG
12 mars 2004, Lyon Reunion CAF F.Chollet 1
Status des problèmes d’accès à la software area de LHCb
Intégration de BQS dans CREAM
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Consolidation des services FTS et LFC
Activités présentes et à venir
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
Projet de participation CMS au GRIF
Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER
Intégration des services grid à l'exploitation
Consolidation des services de grille de production
APS 2008 Conférence de l’APS avril St Louis
LCG-France Tier-1 & AF Réunion mensuelle de coordination
David Bouvet LCG France T2 T3 – LPNHE
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 11 Juin- 10 Septembre Hélène CORDIER.
Jobs ATLAS sur la grille
Suzanne Poulat - Philippe Olivero
Utilisation effective de la Grille par ATLAS S. Jézéquel (LAPP)
L’exploitation des données du collisionneur LHC: un défi pour le calcul scientifique un enjeu pour le LAPP S. Jézéquel.
Synthèse problèmes rencontrés par les expériences LHC au CC-IN2P3
TreqS TReqS 1.0.
Les centres d’analyse: introduction
Atelier régulation de la production dans un contexte grille
Résumé de la réunion PAF-CAF 12/04/2010
Bilan reprocessing données cosmiques Atlas
Organisation LCG-France Lien avec le computing LHC
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 10 Septembre – 21 Octobre Hélène CORDIER.
DC04 CMS Objectif Status Planning
Comité Scientifique GRIF
Efficacité des jobs CMS en 2010
LCG – France et ALICE Bilan 2006 Planning fevrier 2007
Résumé des Actions Suite aux Réunions CB et MB
Transcription de la présentation:

LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL

LCG-FRANCE_19/05/09L. Poggioli2 Production MC Tous les nuages en #jobs depuis 1 an FR

LCG-FRANCE_19/05/09L. Poggioli3 Jobs par Nuages 01/01-17/05 FR 16%; Période Jan-Nov08 14% 10.5 Mjobs total

LCG-FRANCE_19/05/09L. Poggioli4 Efficacités Nuages 01/01-17/05 FR : Efficacité 85% Cf. période Jan-Nov08 : 70%

LCG-FRANCE_19/05/09L. Poggioli5 Lyon/année ATLAS : 28% total Gradient >0

LCG-FRANCE_19/05/09L. Poggioli6 Jobs Lyon Gradient >0 sur l’année 28-29% des jobs 62% des objectifs au Q1 2009

LCG-FRANCE_19/05/09L. Poggioli7 FR Cloud : Jobs/Site 01/01-17/05 Période Jan-Nov08 : T1 (39%), GRIF (22%), Tokyo (19%), CC-T2 (5%) On « rentre » plus de jobs à Lyon : Nouveau bqs manager

LCG-FRANCE_19/05/09L. Poggioli8 FR Cloud : Efficacité/Site 01/01-17/05 ~Tous les sites > 80% (Période Jan-Nov08 ~75%) Gros progrès pour Lyon T1 (85%/71%) et T2 (86%/75%)

LCG-FRANCE_19/05/09L. Poggioli9 Nuage FR : Erreurs 01/01-17/05 Configuration Stockage Athena 1.Lost Heartbeat Pb /afs & dépassement de mémoire 2.DQ2put,get,stagein Pb srm, lfc,… 3.SIGTERM Jobs tués par Condor (trop de jobs à gérer) L’installation des releases doit être automatisée au plus T1

LCG-FRANCE_19/05/09L. Poggioli10 Reprocessing (1) Total Done Finished Failed December RAW->ESD ESD->DPD,AOD Ntup merging Spring RAW->ESD ESD->DPD,AOD Ntup merging Hist merging Tag merging *One task = all jobs from one stream for one run period *Clearly better software since December 2140 tasks P. Nevski 7/05

LCG-FRANCE_19/05/09L. Poggioli11 Reprocessing (2) tier CA CERN DE ES FR IT ND NL UK US sum jobs done % Aborted % Lyon : jobs Efficacité 99.7% !!! NB: Inputs sur disque et pas sur HPSS P. Nevski 7/05

LCG-FRANCE_19/05/09L. Poggioli12 Transfert de données dans FR S. Jézéquel

LCG-FRANCE_19/05/09L. Poggioli13 Analyse sur FR (1) Tous les nuages en #jobs depuis 1 an FR Aussi users non-FR

LCG-FRANCE_19/05/09L. Poggioli14 Analyse sur FR (2) Queues d’analyse sur T2 et T3 (pas seulement T1) Investir sur FR plutôt que de tourner à BNL

LCG-FRANCE_19/05/09L. Poggioli15 Hammercloud: Distributed Stress Test Analysis –Activité démarrée fin 2008 –De 50 à 300 jobs d’analyse «+ ou - standard» (1 seul type, , DS r5) exécutés régulièrement sur les Tier-2s à partir de même DS répliqués sur le nuage –Framework Ganga – backend LCG –Permet plutôt de tester l’infrastructure (réseau – stockage) des sites et les performances pour l’analyse (CPU et I/O) –Détails et Résumé des épisodes précédents : cf. Backup slides F. Chollet Equivalent des Functional tests pour la production

LCG-FRANCE_19/05/09L. Poggioli16 Suivi des tests Globalement l’efficacité du nuage en termes d’exécution des jobs est correcte –Taux « completed jobs» > 80 % en règle générale pas suffisant … –Le test s’est exécuté, les sites sont globalement fonctionnels Métriques essentielles à suivre pour aborder les vrais problèmes d’optimisation –Plots disponibles pour le nuage et par site Ratio CPU/Walltime ( > 50%) Taux evt/s –Objectif : ~15 Hz –FR Cloud : plutôt globalement autour de 10 Hz dans le meilleur des cas… F. Chollet

LCG-FRANCE_19/05/09L. Poggioli17 Next : STEP09 15-mai-2009 Eric Lançon 17 G. Stewart

LCG-FRANCE_19/05/09L. Poggioli18 STEP09 : Détails (1) DDM functional tests –T0->tape, T0->T1(disk), T0->T1(tape),T1- >T1(disk), T1->T2(disk) Monte-Carlo –G4 Hits Production dans T2 et Upload dans T1 15,000 jobs/jours –Reconstruction Seulement sur T1 Redistribution ->T1’s & T2s

LCG-FRANCE_19/05/09L. Poggioli19 STEP09 : Détails (2) Reprocessing cosmiques –Prestaging des RAW depuis Tape (a priori pas à Lyon) –Distribution merged AOD&ESD ->T1’s & T2s Analyse –Hammercloud sur tous les nuages –Seulement T2s –Share MC (50%), Analyse Panda (25%), Ganga (25%) Load sur CPU & Disk

LCG-FRANCE_19/05/09L. Poggioli20 STEP09 : Pour FR Nombre de copies AOD+DPD -> T2s –3 Vérifier l’espace disque sur T2s –Stéphane(backup slides) Définir les T2s participant à User Analysis –Tokyo, LAPP, Lyon Trouver 1 contact FR –D’ici mercredi

LCG-FRANCE_19/05/09L. Poggioli21 Au quotidien Suivi Activités sur FR –Eric Lançon, F. Chandez, LP (côté user) Suivi 7j/7 > 14-16h par jour –C. Biscarat, G. Rahal (côté CC) Soutien côté CC T1 & T2 Logistique : Vobox, Condor, cron, ressources dcache, … –En plus (niveau ATLAS) Shifts ADCos 24h/24 Plus –Partie DDM (S. Jézéquel) –Hammercloud (F. Chollet)

LCG-FRANCE_19/05/09L. Poggioli22 Actions S’assurer du bon fonctionnement du nuage FR –Prod MC (T2), Reprocessing (T1), Analyse –Les taches arrivent bien sur FR S’assurer du bon envoi des pilotes –Factory running, # pilotes à fine-tuner Monitorer le fonctionnement des sites –Sureviller les transferts –Check efficacité (prod) –Identifier les causes d’erreurs Informer/Réagir si problèmes détectés –Informer les sites / mettre site offline –ATLAS (tickets ELOG & GGUS)

LCG-FRANCE_19/05/09L. Poggioli23 Outils Depuis la vobox –Régulation des pilotes Sites de monitoring Erreurs Listées/site -Par type - Avec fréquence

LCG-FRANCE_19/05/09L. Poggioli24 Bilan (1) Globalement Q positif –Efficacité des sites –Montée en puissance Prod MC Analyse –Reprocessing : un succès (mais input sur disk) –Stress tests opérationnels Côté T2/T3 –Personnes identifiées pour Stress Tests –Réunion formation production le 4/05 avec T2/T3 Personnes supplémentaires se manifestent

LCG-FRANCE_19/05/09L. Poggioli25 Bilan (2) Côté T1 –Charge/Efficacité en net progrès depuis fin 08 Pb de l’automatisation des releases à régler –Interactivité et réactivité bien meilleure Meeting CAF mensuels avec personnes du CC Ex pb de proxy/extension de ports (P. Girard) Ex gestion exemplaire de la panne du 03/05 (Catherine) Ex Tests de charge du cluster Oracle (Catherine) –Souhaitable pour ATLAS pour la prise de données 1 ingénieur au courant de tous les pbs (dcache, afs, bqs) à 100% 1 « interface-user » (Cf. C. Biscarat) à 100% A confirmer pour STEP09

LCG-FRANCE_19/05/09L. Poggioli26 BACKUP

LCG-FRANCE_19/05/09L. Poggioli27

LCG-FRANCE_19/05/09L. Poggioli28

LCG-FRANCE_19/05/09L. Poggioli29

LCG-FRANCE_19/05/09L. Poggioli30

LCG-FRANCE_19/05/09L. Poggioli31