CMS CCRC08 phase 2 C. Charlot / LLR LCG-DIR juin 2008.

Slides:



Advertisements
Présentations similaires
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Advertisements

Activités MS dans ATLAS. Projet principal cette année : CSC Exercice « complet » de la chaîne software et danalyse: –Generation, simulation, reconstruction,
DataGRID PTB, Geneva, 10 April 2002 ATLAS Data Challenges Fede Eric.
SIMULATION WATERFALL & INSPECTION
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
Module 2 : Préparation de l'analyse des performances du serveur
31/01/2001Réunionn WP6-Y. Schutz (SUBATECH) 1 Simulation-Reconstruction ALICE Une application pour le TestBed 0 ?
1 P.0878 Implantation des moniteurs Spacelabs Rencontre de fermeture de projet.
Les processus métiers : concepts, modèles et systèmes Claude Godart Université de lorraine. Esstin
Réunion LCG-France, 7/4/2008 C.Charlot Acc è s aux donn é es Accès à dCache Problèmes de stageout des fichiers produits sur les WNs  Aussi pour le stagein.
Calcul CMS: bilan CCRC08 C. Charlot / LLR LCGFR, 3 mars 2008.
Calcul CMS: bilan 2008 C. Charlot / LLR LCG-DIR mars 2009.
2-mars-2009Eric Lançon1 Nouvelles d’ATLAS Reunion LCG 2 mars 2009 Lyon.
Nouveau modèle d’opérations Gilles Mathieu – 10 mai 2011.
CMS ATLAS LHCb CERN Tier 0 Centre at CERN National Centres Lab a Russia Lab c Uni n Lab b Manno Canada Uni y Uni x Tier3 physics department  Ge  Germany.
Gestion de données : Besoins de la VO Biomed Sorina Pop Laboratoire Creatis Université de Lyon, CREATIS; CNRS UMR5220; Inserm U1044; INSA-Lyon; Université.
Mod è le de Calcul CMS C. Charlot / LLR CTDR:
Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.
Réunion calcul simulations GIEC/IPCC - Prodiguer Lundi 23 Mars PRODIGUER un noeud français de distribution des données GIEC/IPCC Sébastien Denvil.
CAF-13/09/2010Luc1 Squad Report T2 Période 19/06-11/09 Irena, Sabine, Emmanuel.
Activité Photons/Higgs But : Une activite complete sur les photons : Calibration, Identification Mesures de photons directs/Recherche de bosons de Higgs.
Service Challenge 4 – Tests de Débit Bilan pour le Tier-1 LCG-France Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3
Palaiseau Réunion CCIN2P3/LCG 22/07/2004 Distribution des données CMS Distribution des données et préparation de l’analyse Production MC distribuée et.
Résumé du track “Computing Fabrics and Networking Technologies” CHEP 2010 Guillaume Cessieux – Équipe réseaux, CCIN2P
Recapitulatif des sujets abordés Frédérique Chollet Fabio Hernandez Fairouz Malek Réunion LCG-France Tier-2s & Tier-3s Paris, 20 mars 2008.
Enquête- cadre sur la pêche artisanale maritime au/en (BENIN) Durée de la présentation : 15 minutes ATELIER REGIONAL DE VALIDATION DES DONNEES ISSUES DES.
SC4 ATLAS Ghita Rahal CC-IN2P3 Réunion LCG FRANCE Direction 3 Juillet 2006.
ATLAS Ghita Rahal CC-IN2P3 Novembre 9, /6/2006Réunion CAF2 Activités Création et externalisation d’outils de monitoring de l’état du T1 (CPU,
LHCb DC06 status report (LHCb Week, 13/09/06) concernant le CC : –Site currently fine / stable 3% of simulatated events 30% of reconstructed events –Site.
HEPIX N. Neyroud 1.
Calcul et Grille CMS ou comment on extrait les aiguilles de la botte de foin Conseil scientifique LLR 14/10/2010 C. Charlot.
Calcul pour le spatial & le CC-IN2P3 Jean-Yves Nief (CC-IN2P3)
Smain Kermiche Reunion D0 France - Strasbourg /11/ Installation du soft de D0 au CCin2p3 Structure du soft /fnal, /d0usr /d0dist Data bases.
D0 côté info D0 à FNAL  Données du RunII  Infrastructure matérielle  Infrasturucture logicielle  Monte Carlo à D0 D0 à Lyon  Production Monte Carlo.
29 mars 2006J-P Meyer1 Evaluation des besoins en infrastructures et réseau  Evaluation des besoins en infrastructures  Evaluation des besoins réseau.
1 18 mars 2010 Exercices PRA Mainframe Lionel PHELPIN.
PetaSky: Expérimentations avec HadoopDB et Hive 1 Amin Mesmoudi.
BaBar France 18/01/2010 Vincent Poireau 1 Page d’aide :
Frédérique Chollet Fairouz Malek Pierre Girard Yannick Patois Réunion LCG-France, Lyon 1 er décembre 2010 Pour clore cette édition…
Mardi 31 mai 2016 JJS (Java Job Submission) Soumission de jobs sur grille Pascal Calvat Centre de calcul.
Infrastructure LCG-France et Analyse de données Frédérique Chollet Fabio Hernandez Fairouz Malek Réunion CMS-France, IPHC Starsbourg, mai 2009.
BABAR Georges Vasseur CEA Saclay, DSM/IRFU/SPP Workshop sur l’analyse des données au centre de calcul de Lyon 17 avril 2008.
Enjeux, succès et défis des grilles en physique des hautes énergies Faïrouz Malek, CNRS Paris le 3 Décembre 2007.
Eric Lançon1 Calcul ATLAS en France Le CAF au PAF * CAF : Calcul Atlas France *Célèbre contrepèterie.
Mercredi 1er juin 2016 Panorama sur les outils de monitoring Cyril L’Orphelin David Bouvet.
1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo.
2011/06/14 Efficacité des jobs d’Atlas Pierre Girard Réunion de travail avec Atlas CC-IN2P3, le 14 juin 2011.
11/9/07-PAFL.Poggioli/LAL1/25 Gestion des données : DDM Distributed Data Management Préambule Le modèle ATLAS DDM –Principe, Tests, Suivi, Problèmes Next.
ATLAS et l’analyse au CCIN2P3  Le modèle de calcul de ATLAS  L’analyse à Lyon  Points critiques Avertissement : cette présentation n’est malheureusement.
LCG-France Edith Knoops CPPM. Le LHC LEP LHC > 95% UNKNOWN STUFF OUT THERE > 95% UNKNOWN STUFF OUT THERE Black hole 3.
25/06/20101LCG - France CPPM Marseille L’expérience CMS à GRIF LLR – E.Poly.,Palaiseau: Pascale Hennion Paulo Mora de Freitas Igor Semeniouk Philippe Busson.
CAF LCG-FRANCE A.Rozanov LCG France 22 Juillet SOMMAIRE Composition CAF DC2 ATLAS Demandes fin 2004.
Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue
Conclusions (?) Fabio Hernandez Frédérique Chollet Fairouz Malek Réunion Sites LCG-France Annecy, May
C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.
Projet LCG: Vue d’Ensemble Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3 Rencontre IN2P3/STIC Grenoble, 25.
EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.
CAF-11/10/2010Luc1 Squad Report T1 Période 13/09-11/10 Irena, Sabine, Emmanuel.
Réunion des sites LCG France- Marseille juin ACTIVITES DU GROUPE ACCOUNTING FRANCE GRILLES Cécile Barbier (LAPP)
20-mars-2008Eric Lançon1 Activités ATLAS sur le nuage Français Emprunts a K. Bernardet, C. Biscarat, S. Jezequel, G. Rahal.
Activité Photons/Higgs But : Une activite complete sur les photons : Calibration, Identification Mesures de photons directs/Recherche de bosons de Higgs.
F. DERUE, Réunion des sites LCG France, LPNHE, 20 mars Historique et but 2. Projet scientifique 3. Projet technique 4. Suivi des productions.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
ATLAS Analysis Challenge Résultats du Stress Test Frédérique Chollet Information disponible sur le wiki LCG-France
CALCUL ATLAS LCG France (CC IN2P3 Lyon) 30 Avril SOMMAIRE Data Challenge 2 (DC2) d’ATLAS Utilisation du CC IN2P3.
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
C. Charlot, Calcul CMS, LCG-DIR, fév 2007 Calcul CMS 2006 TDR de Physique CMS Physics TDR, Volume 1, CERN-LHCC , feb. 2006, 548pp CMS Physics TDR,
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
Activités présentes et à venir
DC04 CMS Objectif Status Planning
Transcription de la présentation:

CMS CCRC08 phase 2 C. Charlot / LLR LCG-DIR juin 2008

Réunion LCG-France, 02/06/2008 C.Charlot Objectifs g é n é raux Test complet du système de calcul En vraie grandeur De façon concomitente avec les autres expériences Transferts et processing workflows simultanément

Réunion LCG-France, 02/06/2008 C.Charlot Objectifs: transferts T0->T1: Démontrer la capacité d’export vers les T1s des données produites au CERN Simultanément aux 7 T1s Taux nominal 2008 : > 600MB/s aggrégé Évaluation du taux d’ingestion / latence aux T1s T1->T1: Test réplication AODSIM Chaque T1 évalué tour à tour, taille échatillon 1-15TB suivants sites Export vers chacun des autres T1s Mesure latence, cible = latence < 4 j T1->T2: Test transferts régionaux et non régionaux Liens ayant passé le commissioning DDT Chaque T1 évalué tout à tour Mesure de latence, participation (nbre de T2s, T2s régionnaux), débit T2->T1: en cours

Réunion LCG-France, 02/06/2008 C.Charlot Objectifs: processing T1 workflows Skimming et reprocessing de données à grande échelle En même temps que les transferts Évaluation outils de production/soumission Évaluation outils de monitoring T2 workflows Phase 1: exercice « physics group »  Soumission centralisée (quelques soumetteurs)  Jobs d’analyse de 3-4h avec placement de l’output sur un SE remote Phase 2: soumission chaotique  Placement de l’ouput sur la UI de soumission Phase 3: mesure temps soumission/récupération output/analyse en cours CAF workflows Données MC à 10TeV et conditions initiales d’alignement et de calibration

Réunion LCG-France, 02/06/2008 C.Charlot Transferts: T0->T1 week 1 week 2 week 3 official start of CCRC’08 Phase2 issues with issues with

Réunion LCG-France, 02/06/2008 C.Charlot Transferts: T0->T1 credential pb Objectif : >600MB/s pendant 4 jours consécutifs => atteint Max >1TB/s

Réunion LCG-France, 02/06/2008 C.Charlot Transferts: T0->T1 Rate Prod+Debug week 1 week 2 issues with - credential problem at IN2P3 - migration agent problem Quality Prod+Debug Target rate achieved in week 2 and in week 3. Target rate achieved in week 2 and in week 3.

Réunion LCG-France, 02/06/2008 C.Charlot Transferts T1-T1 Objectif: répliquer les AODs après re-reco en 4 jours Taille totale sample: 28.6TB Équivalente a 3 jours au taux nominal ~250M AOD events Tous les sites on passés la métrique Y inclu l’émission/réception du sample 14TB Graphe Temps entre le premier et le denier transfert pour le dataset Autre test prévu Envoyé un échantillon re-RECO et AOD depuis T1 envoyés vers le CERN

Réunion LCG-France, 02/06/2008 C.Charlot Transferts T1-T2 T1->T2: Test transferts régionaux et non régionaux Liens ayant passé le commissioning DDT Chaque T1 évalué tout à tour Mesure de latence, participation (nbre de T2s, T2s régionnaux), débit Chaque T1 testé tour à tour ASGC->Group A, CERN->Group B CNAF->Group C, FNAL->Group D, FZK->Group E, IN2P3->Group F, PIC->Group G, RAL->Group H Chaque groupe inclu tous les T2s régionaux plus une sélection de T2s non régionaux Liens testés 178/193 (15 liens non testés sur la matrice complète de connection) Débit cibles relativement modestes

Réunion LCG-France, 02/06/2008 C.Charlot Transferts T1-T2 Bon résultats pour les T2s français et régionaux T2s participants Cycle 1 Cycle 2 T2s participants Pb FTS transferts avec les autres sites résolu

Réunion LCG-France, 02/06/2008 C.Charlot Tests soumission Soumission régulière de ~100k jobs/jour dans l’ensemble du système T0-T1-T2 Pics à ~200k/jour, le WM semble passer le test d’échelle eg. T2s

Réunion LCG-France, 02/06/2008 C.Charlot Reprocessing S43 data ~100M events (19-25 may), S146 data ~125 Mevts (26may- 1june) Résultats de la 1ère semaine tâches de re-reco jobs en continu sur sites EGEE ~3000 à FNAL Skiming en parallèle sur les T1s EGEE ~700 slots FZK, ~250 PIC, ~500 CC-IN2P3, ~250 RAL, ~250 ASGC, ~250 CNAF CNAF, ASGC, PIC au début, puis RAL et CC-IN2P3 ~3 jours pour CCIN2P3 (24-27 may) Activité continue à FZK et PIC sur ~semaine Durée particulièrement longue a FZK (12-24h) et ponctuellement a CNAF (~36h => data access pb) ~3-4h au CC-IN2P3 et PIC

Réunion LCG-France, 02/06/2008 C.Charlot Skimming Test à plus petite échelle que reprocessing slots sur les sites EGEE Pas de skimming a FNAL Reprocessing en même temps aux sites EGEE T1s Performances variées suivant les sites Rapide et efficace à ASGC Jobs très long a FZK, beaucoup de failure Jobs long a CNAF, succès Courts a RAL et PIC et succès Peu de skimming au CCIN2P3 (26-27 mai) Le skimming est problématique Trafic réseau élevé observé aux sites dcache, ~30MB/s/job En cours d’investigation (configuration dcache, optimisation framework et ROOT I/O, staging in local sur les WNs considéré..)

Réunion LCG-France, 02/06/2008 C.Charlot T2 workflows Workflow type analyse groupe de physique Definition de groupes: QCD, EWK, Higgs Association d’une liste de T2s à chaque groupe Utilisation de CRABserver pour soumission tâches d’analyse (CPU like reco ~3-4h, avec output o(10MB)  Datasets nécessaires préalablement placés aux T2s stageout du root tree sur 1 T2 ou un sous-ensemble de T2s associés au group ~29 sites T2 impliqués, 105k erreur status relevés/analysés Soumission chaotique Depuis tous les T2s vers tous les T2s Sortie placée sur la UI du soumetteur

Réunion LCG-France, 02/06/2008 C.Charlot T2 workflows Taux d’erreur très varié: de o(1%) jusqu’à o(50%) à certains sites dû à des problèmes au niveau du SE Nombreux problèmes identifiés et résolus Le stockage est la cause principale d’échec 06-08/05 Performance exercize: T2_FR_GRIF _LLR 1478/1478 T2_FR_GRIF_IRFU 730/770 T2_FR_CCIN2P3 1130/1130

Réunion LCG-France, 02/06/2008 C.Charlot Succ è s Reconstruction au T0 a bien marché (reco, outils de soumission) Objectifs atteint pour les transferts T1-T1 Également pour T0-T1 Attention néanmoins à la latence, 4 jours consecutifs en dessous du rate nominal => buffer pleins au CERN Le système de soumission fonctionne à l’échelle souhaitée: ~100kjobs/jour facilement, ~200k Jobs/jour atteints Reprocessing a très bien marché 127M and 106M events en ~5jours chacun (1M events = Tests d’analyse aux T2s très utile Beaucoup de T2s impliqués En particulier T2 français: T2_CCIN2P3, T2_GRIF, T2_IPHC tous impliqués

Réunion LCG-France, 02/06/2008 C.Charlot Probl è mes Généraux Block transfer/publication latency Reprocessing: prestaging actuellement fait manuellement par les sites admins Skiming workflow  Très (trop?) demandeur en IO  En cours investigation (configuration dcache, framework, Root IO...)  Stageing in local sur WN en discussion CCIN2P3 Les tape families manquent Un certain nombre de pbs ponctuels  Certificat, gftp  Config FTS (MYPROXY_TCP_PORT_RANGE)  Panne réseau local  Agent de migration Configuration SE partagé T1/T2 Besoin support CMS à 100% pendant ces périodes de challenge