CMS CCRC08 phase 2 C. Charlot / LLR LCG-DIR juin 2008
Réunion LCG-France, 02/06/2008 C.Charlot Objectifs g é n é raux Test complet du système de calcul En vraie grandeur De façon concomitente avec les autres expériences Transferts et processing workflows simultanément
Réunion LCG-France, 02/06/2008 C.Charlot Objectifs: transferts T0->T1: Démontrer la capacité d’export vers les T1s des données produites au CERN Simultanément aux 7 T1s Taux nominal 2008 : > 600MB/s aggrégé Évaluation du taux d’ingestion / latence aux T1s T1->T1: Test réplication AODSIM Chaque T1 évalué tour à tour, taille échatillon 1-15TB suivants sites Export vers chacun des autres T1s Mesure latence, cible = latence < 4 j T1->T2: Test transferts régionaux et non régionaux Liens ayant passé le commissioning DDT Chaque T1 évalué tout à tour Mesure de latence, participation (nbre de T2s, T2s régionnaux), débit T2->T1: en cours
Réunion LCG-France, 02/06/2008 C.Charlot Objectifs: processing T1 workflows Skimming et reprocessing de données à grande échelle En même temps que les transferts Évaluation outils de production/soumission Évaluation outils de monitoring T2 workflows Phase 1: exercice « physics group » Soumission centralisée (quelques soumetteurs) Jobs d’analyse de 3-4h avec placement de l’output sur un SE remote Phase 2: soumission chaotique Placement de l’ouput sur la UI de soumission Phase 3: mesure temps soumission/récupération output/analyse en cours CAF workflows Données MC à 10TeV et conditions initiales d’alignement et de calibration
Réunion LCG-France, 02/06/2008 C.Charlot Transferts: T0->T1 week 1 week 2 week 3 official start of CCRC’08 Phase2 issues with issues with
Réunion LCG-France, 02/06/2008 C.Charlot Transferts: T0->T1 credential pb Objectif : >600MB/s pendant 4 jours consécutifs => atteint Max >1TB/s
Réunion LCG-France, 02/06/2008 C.Charlot Transferts: T0->T1 Rate Prod+Debug week 1 week 2 issues with - credential problem at IN2P3 - migration agent problem Quality Prod+Debug Target rate achieved in week 2 and in week 3. Target rate achieved in week 2 and in week 3.
Réunion LCG-France, 02/06/2008 C.Charlot Transferts T1-T1 Objectif: répliquer les AODs après re-reco en 4 jours Taille totale sample: 28.6TB Équivalente a 3 jours au taux nominal ~250M AOD events Tous les sites on passés la métrique Y inclu l’émission/réception du sample 14TB Graphe Temps entre le premier et le denier transfert pour le dataset Autre test prévu Envoyé un échantillon re-RECO et AOD depuis T1 envoyés vers le CERN
Réunion LCG-France, 02/06/2008 C.Charlot Transferts T1-T2 T1->T2: Test transferts régionaux et non régionaux Liens ayant passé le commissioning DDT Chaque T1 évalué tout à tour Mesure de latence, participation (nbre de T2s, T2s régionnaux), débit Chaque T1 testé tour à tour ASGC->Group A, CERN->Group B CNAF->Group C, FNAL->Group D, FZK->Group E, IN2P3->Group F, PIC->Group G, RAL->Group H Chaque groupe inclu tous les T2s régionaux plus une sélection de T2s non régionaux Liens testés 178/193 (15 liens non testés sur la matrice complète de connection) Débit cibles relativement modestes
Réunion LCG-France, 02/06/2008 C.Charlot Transferts T1-T2 Bon résultats pour les T2s français et régionaux T2s participants Cycle 1 Cycle 2 T2s participants Pb FTS transferts avec les autres sites résolu
Réunion LCG-France, 02/06/2008 C.Charlot Tests soumission Soumission régulière de ~100k jobs/jour dans l’ensemble du système T0-T1-T2 Pics à ~200k/jour, le WM semble passer le test d’échelle eg. T2s
Réunion LCG-France, 02/06/2008 C.Charlot Reprocessing S43 data ~100M events (19-25 may), S146 data ~125 Mevts (26may- 1june) Résultats de la 1ère semaine tâches de re-reco jobs en continu sur sites EGEE ~3000 à FNAL Skiming en parallèle sur les T1s EGEE ~700 slots FZK, ~250 PIC, ~500 CC-IN2P3, ~250 RAL, ~250 ASGC, ~250 CNAF CNAF, ASGC, PIC au début, puis RAL et CC-IN2P3 ~3 jours pour CCIN2P3 (24-27 may) Activité continue à FZK et PIC sur ~semaine Durée particulièrement longue a FZK (12-24h) et ponctuellement a CNAF (~36h => data access pb) ~3-4h au CC-IN2P3 et PIC
Réunion LCG-France, 02/06/2008 C.Charlot Skimming Test à plus petite échelle que reprocessing slots sur les sites EGEE Pas de skimming a FNAL Reprocessing en même temps aux sites EGEE T1s Performances variées suivant les sites Rapide et efficace à ASGC Jobs très long a FZK, beaucoup de failure Jobs long a CNAF, succès Courts a RAL et PIC et succès Peu de skimming au CCIN2P3 (26-27 mai) Le skimming est problématique Trafic réseau élevé observé aux sites dcache, ~30MB/s/job En cours d’investigation (configuration dcache, optimisation framework et ROOT I/O, staging in local sur les WNs considéré..)
Réunion LCG-France, 02/06/2008 C.Charlot T2 workflows Workflow type analyse groupe de physique Definition de groupes: QCD, EWK, Higgs Association d’une liste de T2s à chaque groupe Utilisation de CRABserver pour soumission tâches d’analyse (CPU like reco ~3-4h, avec output o(10MB) Datasets nécessaires préalablement placés aux T2s stageout du root tree sur 1 T2 ou un sous-ensemble de T2s associés au group ~29 sites T2 impliqués, 105k erreur status relevés/analysés Soumission chaotique Depuis tous les T2s vers tous les T2s Sortie placée sur la UI du soumetteur
Réunion LCG-France, 02/06/2008 C.Charlot T2 workflows Taux d’erreur très varié: de o(1%) jusqu’à o(50%) à certains sites dû à des problèmes au niveau du SE Nombreux problèmes identifiés et résolus Le stockage est la cause principale d’échec 06-08/05 Performance exercize: T2_FR_GRIF _LLR 1478/1478 T2_FR_GRIF_IRFU 730/770 T2_FR_CCIN2P3 1130/1130
Réunion LCG-France, 02/06/2008 C.Charlot Succ è s Reconstruction au T0 a bien marché (reco, outils de soumission) Objectifs atteint pour les transferts T1-T1 Également pour T0-T1 Attention néanmoins à la latence, 4 jours consecutifs en dessous du rate nominal => buffer pleins au CERN Le système de soumission fonctionne à l’échelle souhaitée: ~100kjobs/jour facilement, ~200k Jobs/jour atteints Reprocessing a très bien marché 127M and 106M events en ~5jours chacun (1M events = Tests d’analyse aux T2s très utile Beaucoup de T2s impliqués En particulier T2 français: T2_CCIN2P3, T2_GRIF, T2_IPHC tous impliqués
Réunion LCG-France, 02/06/2008 C.Charlot Probl è mes Généraux Block transfer/publication latency Reprocessing: prestaging actuellement fait manuellement par les sites admins Skiming workflow Très (trop?) demandeur en IO En cours investigation (configuration dcache, framework, Root IO...) Stageing in local sur WN en discussion CCIN2P3 Les tape families manquent Un certain nombre de pbs ponctuels Certificat, gftp Config FTS (MYPROXY_TCP_PORT_RANGE) Panne réseau local Agent de migration Configuration SE partagé T1/T2 Besoin support CMS à 100% pendant ces périodes de challenge