ATLAS Computing model et utilisation de LCG 14-mars-2007 Eric Lançon
14-mars-2007 Eric Lançon
ATLAS : Grid organisation - I CERN LYON NG BNL FZK RAL CNAF PIC TRIUMF SARA ASGC Original Processing T0 T1 Raw data Mass Storage at CERN Raw data Tier 1 centers complete dataset distributed among T1s ESD Tier 1 centers 2 copies of ESD distributed worldwide AOD Each Tier 1 center 1 full set per T1 T1 VO box, dedicated computer to run DDM services 14-mars-2007 Eric Lançon
ATLAS : Grid organisation - II NG Reprocessing T1 T1 PIC RAL CNAF SARA ASGC LYON TRIUMF FZK BNL Each T1 reconstructs its own RAW Produces new ESD, AOD Ships : T1 VO box, dedicated computer to run DDM services ESD to associated T1 AOD to all other T1s 14-mars-2007 Eric Lançon
ATLAS : Grid organisation - III Tier-2 NG PIC Monte Carlo production (ESD,AOD) Ships RAW,ESD,AOD to associated T1 Physics Analysis Gets (ESD) AOD from associated T1 RAL CNAF SARA GRIF ASGC LYON TRIUMF FZK LPC BNL T1 T2 VO box, dedicated computer to run DDM services 14-mars-2007 Eric Lançon
ATLAS : Grid organisation - IV A l'intérieur d'un nuage T1: 10 % RAW, 20 % ESD, 100% AOD ST2 : 100 % AOD, petite fraction ESD,RAW “Tier Cloud Model” Unit : 1 T1 + n T2/T3 NG PIC RAL CNAF SARA TWT2 T3 GRIF CERN ASGC Cloud LYON Cloud ASGC LYON Melbourne Tokyo Pékin TRIUMF FZK LPC Romania BNL BNL Cloud All Tier-1s have predefined (software) channel with CERN and with each other Tier-1. Tier-2s are associated with one Tier-1 and form the cloud Tier-2s have predefined channel with the parent Tier-1 only. GLT2 T1-T1 and T1-T2 associations according to GP ATLAS Tiers associations. NET2 MWT2 T1 WT2 T2 T3 VO box, dedicated computer to run DDM services SWT2 14-mars-2007 Eric Lançon
T1 de BNL associé à Lyon & FZK Tier-1 associations 14-mars-2007 Eric Lançon
Nuage Français ATLAS Tier-2: GRIF Tier-3: LAPP Tier-2: LPC CEA/DAPNIA LAL LLR LPNHE IPNO Pekin Tokyo Roumanie Strasbourg Ile de France Nantes Tier-3: LAPP Tier-2: LPC Clermont-Ferrand AF: CC-IN2P3 Annecy Lyon Tier-1: CC-IN2P3 Marseille Tier-3: CPPM 14-mars-2007 Eric Lançon
Data Distribution Management FTS Server T1 FTS Server T0 LFC: local within ‘cloud’ All SEs SRM Demande au catalogue central : liste des datasets a répliquer Gestion transfert Enregistrement informations dans catalogues locaux et centraux T0 VO box LFC T1 T1 VO box VO box LFC …. Catalogues généraux centralisés (LFC): Contenus des datasets Localisation des datasets dans les T0-T1-T2 Liste des requêtes de transferts des datasets Catalogues locaux (LFC) Localisation dans le centre des fichiers de chaque dataset T2 T2 14-mars-2007 Eric Lançon
Ressources pour 2007-2010 Eté 2006 : Révision du planning du LHC 7-7 TeV data en 2008 Révision des besoins par les expériences Toutes les expériences utilisent les mêmes hypothèses (Luminosité, efficacité machine, etc…) ATLAS en profite pour réviser ses estimations ESD size 0.5 MB > 1 MB Simulation time 100 KSI2k 400 KSI2k Rapport MC/Data 20% 30% 14-mars-2007 Eric Lançon
Différence par rapport au TDR Tier-1 2008 : baisse des besoins de ~20% Tier-2 2008 : baisse des besoins de ~10% 14-mars-2007 Eric Lançon
Réalisations 2006 Mise en place du T1 Production MC Transferts T0 T1 Au CC-Lyon Dans les T2/T3 du nuage FR 14-mars-2007 Eric Lançon
ATLAS Tier-1 Data Flow (2008) Real data storage, reprocessing and distribution only! Tape RAW ESD2 AODm2 RAW 1.6 GB/file 0.02 Hz 1.7K f/day 32 MB/s 2.7 TB/day 0.044 Hz 3.74K f/day 44 MB/s 3.66 TB/day Tier-0 disk buffer AODm1 500 MB/file 0.04 Hz 3.4K f/day 20 MB/s 1.6 TB/day AODm2 500 MB/file 0.04 Hz 3.4K f/day 20 MB/s 1.6 TB/day ESD1 0.5 GB/file 0.02 Hz 1.7K f/day 10 MB/s 0.8 TB/day AODm1 500 MB/file 0.04 Hz 3.4K f/day 20 MB/s 1.6 TB/day ESD2 0.5 GB/file 0.02 Hz 1.7K f/day 10 MB/s 0.8 TB/day AOD2 10 MB/file 0.2 Hz 17K f/day 2 MB/s 0.16 TB/day AODm2 500 MB/file 0.004 Hz 0.34K f/day 2 MB/s 0.16 TB/day RAW 1.6 GB/file 0.02 Hz 1.7K f/day 32 MB/s 2.7 TB/day T1 Tier-2s CPU farm ESD2 0.5 GB/file 0.02 Hz 1.7K f/day 10 MB/s 0.8 TB/day AODm2 500 MB/file 0.036 Hz 3.1K f/day 18 MB/s 1.44 TB/day AODm2 500 MB/file 0.004 Hz 0.34K f/day 2 MB/s 0.16 TB/day ESD2 0.5 GB/file 0.02 Hz 1.7K f/day 10 MB/s 0.8 TB/day Data access for analysis: ESDm, AODm ESD2 0.5 GB/file 0.02 Hz 1.7K f/day 10 MB/s 0.8 TB/day AODm2 500 MB/file 0.036 Hz 3.1K f/day 18 MB/s 1.44 TB/day T1 Other Tier-1s disk storage T1 Other Tier-1s 14-mars-2007 Eric Lançon
Tier-0 Tier-1 Target : ~70 MB/s for CERN Lyon July 2006 NG BNL FZK RAL CNAF PIC TRIUMF SARA ASGC October 2006 Tokyo Target : ~70 MB/s for CERN Lyon 14-mars-2007 Eric Lançon
Tier-1 Tier-2 July 2006 Tokyo LAL LPHNE SACLAY BEIJING LPC LAPP 14-mars-2007 Eric Lançon
BAD OK 14-mars-2007 Eric Lançon
Quelques leçons Beaucoup d'améliorations au fil de l'année, cependant .. Pas encore ‘stable running’ : Problèmes récurrents ou momentanés dans les sites Problèmes FTS VO Box sous dimensionnées dans certains sites Problèmes avec le software DDM Impossibilité de fournir un output constant au départ du CERN : Castor Monitoring: Manque d’alarmes automatisées Décryptages des erreurs engendrées par les sites á améliorer Manque de personnel, outils ‘rustiques’ Malgré tout, l'année 2006 a été un succès et le nuage FR a été très (ré)actif au cours des différent tests. 14-mars-2007 Eric Lançon
Monte-Carlo Production in Lyon Autumn 2006: executor installed at Lyon to distribute production jobs within FR-Cloud. Production shift organization Setup priorities to boost production jobs based on role in the certificate Production, all jobs, production % 14-mars-2007 Eric Lançon
2006 Monte-Carlo Production FR sites : 16% of LCG for 2006 14-mars-2007 Eric Lançon
Répartition entre sites français - I 14-mars-2007 Eric Lançon
Répartition entre sites français - II 14-mars-2007 Eric Lançon
Job & Wall-time efficiencies 20% of wasted CPU, ~ independent of sites <>=80% <>=39% 60% of jobs do not finish, large variations with sites 14-mars-2007 Eric Lançon
Efficacité par site vs mois Problèmes du CC en octobre semblent affecter tous les sites Cependant aucun site n’est stable… 14-mars-2007 Eric Lançon
Conclusion provisoire Le T1 influence l'efficacité des T2 mais pas toujours Chaque T2 a des problèmes spécifiques Il y a encore des progrès a faire : Trop de jobs se terminent avant exécution (sic.) : problèmes de configuration du site, du middleware… Pas de perte de CPU. Problèmes en fin de job : enregistrement, srm, etc.. Perte de CPU A améliorer : Le monitoring, Plus de checks systématiques, L’implication des sites, Les relations entre les sites 14-mars-2007 Eric Lançon
Analysis computing model Text by R. Jones Group analysis : Scheduled central production of augmented AOD, tuples & TAG collections from ESD Characterised by access to full ESD Resource intensive Must be a scheduled activity agreed by physics and detector groups Derived files moved to other T1s and to T2s On-demand user analysis of augmented AOD streams, tuples, new selections etc… ALL Tier 2s are for ATLAS-wide usage Can specialise some Tier 2s for some groups Role and group based quotas are essential Quotas to be determined per group not per user What data? Root Trees AODs Modest job traffic between T2s Format des données de bas niveau pas encore définitif! L’analyse interactive n’entre pas dans ce modèle Elle se fait dans les T3 14-mars-2007 Eric Lançon
ATLAS au CC en 2007 Le T1 va progressivement passer d’un état (T1,T2) á un état purement T2 (pas de production MC). Mise en place au CC : Tier-2 : production MC Ferme d’analyse réservée au groupes français Filtrage á partir du group /atlas/fr du certificat Définition d’une composante pour la physique interactive ATLAS France 218 utilisateurs au CC ~70 dans /atlas/fr 14-mars-2007 Eric Lançon
Conclusions Beaucoup de progrès en 2006 A faire en 2007 : Transferts T0 T1 T2 Production MC distribuée T2 T1 T1 A faire en 2007 : Reprocessing (HPPS Disque) Mise en place de LCG3D (constantes de calibrations, etc..) tout ou presque est a faire Finalisation du modèle d’analyse Group-Analysis ~ bien défini User-Analysis plus flou… Amélioration des efficacités, outils de diagnostique Final Dress Rehearsal : du T0 jusqu’a l’analyse dans les T2 Composante française active dans ATLAS, cependant il faudrait : Plus d’implication encore Des liens plus étroits entre les sites 14-mars-2007 Eric Lançon