La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CMS CCRC08 phase 2 C. Charlot / LLR LCG-DIR juin 2008.

Présentations similaires


Présentation au sujet: "CMS CCRC08 phase 2 C. Charlot / LLR LCG-DIR juin 2008."— Transcription de la présentation:

1 CMS CCRC08 phase 2 C. Charlot / LLR LCG-DIR juin 2008

2 Réunion LCG-France, 02/06/2008 C.Charlot Objectifs g é n é raux Test complet du système de calcul En vraie grandeur De façon concomitente avec les autres expériences Transferts et processing workflows simultanément

3 Réunion LCG-France, 02/06/2008 C.Charlot Objectifs: transferts T0->T1: Démontrer la capacité d’export vers les T1s des données produites au CERN Simultanément aux 7 T1s Taux nominal 2008 : > 600MB/s aggrégé Évaluation du taux d’ingestion / latence aux T1s T1->T1: Test réplication AODSIM Chaque T1 évalué tour à tour, taille échatillon 1-15TB suivants sites Export vers chacun des autres T1s Mesure latence, cible = latence < 4 j T1->T2: Test transferts régionaux et non régionaux Liens ayant passé le commissioning DDT Chaque T1 évalué tout à tour Mesure de latence, participation (nbre de T2s, T2s régionnaux), débit T2->T1: en cours

4 Réunion LCG-France, 02/06/2008 C.Charlot Objectifs: processing T1 workflows Skimming et reprocessing de données à grande échelle En même temps que les transferts Évaluation outils de production/soumission Évaluation outils de monitoring T2 workflows Phase 1: exercice « physics group »  Soumission centralisée (quelques soumetteurs)  Jobs d’analyse de 3-4h avec placement de l’output sur un SE remote Phase 2: soumission chaotique  Placement de l’ouput sur la UI de soumission Phase 3: mesure temps soumission/récupération output/analyse en cours CAF workflows Données MC à 10TeV et conditions initiales d’alignement et de calibration

5 Réunion LCG-France, 02/06/2008 C.Charlot Transferts: T0->T1 week 1 week 2 week 3 official start of CCRC’08 Phase2 issues with CASTOR @CERN** issues with CASTOR @CERN*

6 Réunion LCG-France, 02/06/2008 C.Charlot Transferts: T0->T1 credential pb Objectif : >600MB/s pendant 4 jours consécutifs => atteint Max >1TB/s

7 Réunion LCG-France, 02/06/2008 C.Charlot Transferts: T0->T1 Rate Prod+Debug week 1 week 2 issues with CASTOR @CERN - credential problem at IN2P3 - migration agent problem Quality Prod+Debug Target rate achieved in week 2 and in week 3. Target rate achieved in week 2 and in week 3.

8 Réunion LCG-France, 02/06/2008 C.Charlot Transferts T1-T1 Objectif: répliquer les AODs après re-reco en 4 jours Taille totale sample: 28.6TB Équivalente a 3 jours au taux nominal ~250M AOD events Tous les sites on passés la métrique Y inclu l’émission/réception du sample 14TB Graphe Temps entre le premier et le denier transfert pour le dataset Autre test prévu Envoyé un échantillon re-RECO et AOD depuis T1 envoyés vers le CERN

9 Réunion LCG-France, 02/06/2008 C.Charlot Transferts T1-T2 T1->T2: Test transferts régionaux et non régionaux Liens ayant passé le commissioning DDT Chaque T1 évalué tout à tour Mesure de latence, participation (nbre de T2s, T2s régionnaux), débit Chaque T1 testé tour à tour ASGC->Group A, CERN->Group B CNAF->Group C, FNAL->Group D, FZK->Group E, IN2P3->Group F, PIC->Group G, RAL->Group H Chaque groupe inclu tous les T2s régionaux plus une sélection de T2s non régionaux Liens testés 178/193 (15 liens non testés sur la matrice complète de connection) Débit cibles relativement modestes

10 Réunion LCG-France, 02/06/2008 C.Charlot Transferts T1-T2 Bon résultats pour les T2s français et régionaux T2s participants Cycle 1 Cycle 2 T2s participants Pb FTS transferts avec les autres sites résolu

11 Réunion LCG-France, 02/06/2008 C.Charlot Tests soumission Soumission régulière de ~100k jobs/jour dans l’ensemble du système T0-T1-T2 Pics à ~200k/jour, le WM semble passer le test d’échelle eg. T2s

12 Réunion LCG-France, 02/06/2008 C.Charlot Reprocessing S43 data ~100M events (19-25 may), S146 data ~125 Mevts (26may- 1june) Résultats de la 1ère semaine 1000-2000 tâches de re-reco jobs en continu sur sites EGEE ~3000 à FNAL Skiming en parallèle sur les T1s EGEE ~700 slots FZK, ~250 PIC, ~500 CC-IN2P3, ~250 RAL, ~250 ASGC, ~250 CNAF CNAF, ASGC, PIC au début, puis RAL et CC-IN2P3 ~3 jours pour CCIN2P3 (24-27 may) Activité continue à FZK et PIC sur ~semaine Durée particulièrement longue a FZK (12-24h) et ponctuellement a CNAF (~36h => data access pb) ~3-4h au CC-IN2P3 et PIC

13 Réunion LCG-France, 02/06/2008 C.Charlot Skimming Test à plus petite échelle que reprocessing 500-1000 slots sur les sites EGEE Pas de skimming a FNAL Reprocessing en même temps aux sites EGEE T1s Performances variées suivant les sites Rapide et efficace à ASGC Jobs très long a FZK, beaucoup de failure Jobs long a CNAF, succès Courts a RAL et PIC et succès Peu de skimming au CCIN2P3 (26-27 mai) Le skimming est problématique Trafic réseau élevé observé aux sites dcache, ~30MB/s/job En cours d’investigation (configuration dcache, optimisation framework et ROOT I/O, staging in local sur les WNs considéré..)

14 Réunion LCG-France, 02/06/2008 C.Charlot T2 workflows Workflow type analyse groupe de physique Definition de groupes: QCD, EWK, Higgs Association d’une liste de T2s à chaque groupe Utilisation de CRABserver pour soumission tâches d’analyse (CPU like reco ~3-4h, avec output o(10MB)  Datasets nécessaires préalablement placés aux T2s stageout du root tree sur 1 T2 ou un sous-ensemble de T2s associés au group ~29 sites T2 impliqués, 105k erreur status relevés/analysés Soumission chaotique Depuis tous les T2s vers tous les T2s Sortie placée sur la UI du soumetteur

15 Réunion LCG-France, 02/06/2008 C.Charlot T2 workflows Taux d’erreur très varié: de o(1%) jusqu’à o(50%) à certains sites dû à des problèmes au niveau du SE Nombreux problèmes identifiés et résolus Le stockage est la cause principale d’échec 06-08/05 Performance exercize: T2_FR_GRIF _LLR 1478/1478 T2_FR_GRIF_IRFU 730/770 T2_FR_CCIN2P3 1130/1130

16 Réunion LCG-France, 02/06/2008 C.Charlot Succ è s Reconstruction au T0 a bien marché (reco, outils de soumission) Objectifs atteint pour les transferts T1-T1 Également pour T0-T1 Attention néanmoins à la latence, 4 jours consecutifs en dessous du rate nominal => buffer pleins au CERN Le système de soumission fonctionne à l’échelle souhaitée: ~100kjobs/jour facilement, ~200k Jobs/jour atteints Reprocessing a très bien marché 127M and 106M events en ~5jours chacun (1M events = 1h @300Hz) Tests d’analyse aux T2s très utile Beaucoup de T2s impliqués En particulier T2 français: T2_CCIN2P3, T2_GRIF, T2_IPHC tous impliqués

17 Réunion LCG-France, 02/06/2008 C.Charlot Probl è mes Généraux Block transfer/publication latency Reprocessing: prestaging actuellement fait manuellement par les sites admins Skiming workflow  Très (trop?) demandeur en IO  En cours investigation (configuration dcache, framework, Root IO...)  Stageing in local sur WN en discussion CCIN2P3 Les tape families manquent Un certain nombre de pbs ponctuels  Certificat, gftp  Config FTS (MYPROXY_TCP_PORT_RANGE)  Panne réseau local  Agent de migration Configuration SE partagé T1/T2 Besoin support CMS à 100% pendant ces périodes de challenge


Télécharger ppt "CMS CCRC08 phase 2 C. Charlot / LLR LCG-DIR juin 2008."

Présentations similaires


Annonces Google