Calcul et Grille CMS ou comment on extrait les aiguilles de la botte de foin Conseil scientifique LLR 14/10/2010 C. Charlot
2 Vue d’ensemble C. Charlot, Conseil scientifique LLR 14/10/2010 Modèle distribué utilisation de toutes les ressources disponibles hiérarchie de sites et d’activités grille comme technologie sous-jacente actuellement 7 Tier1s, 51 Tier2s Flux de données considérable taux de déclenchement: 300 Hz taille événement brut: 1.5MB* 0(5PB) / an de données brutes* Organisation des données en vue de la physique « data streams » constitués à partir des bits de déclenchement HLT distribution et reprocessing par data stream prioritisation par la physique * nominal Software flexible et efficace nombreux reprocessings 1-10 sec/event Evolution rapide 43 (pre)releases CMSSW depuis 30/03/2010 ~10 reprocessings complets ou partiels
3 Ce qu’il se passe au Tier 0 C. Charlot, Conseil scientifique LLR 14/10/2010 Repacker formate les données au format root séparation en datasets suivant les bits du HLT Express reconstruction ~10% des données latence ~1-2h Prompt reconstruction latence ~48h très stable, peu de crash Taille des événements RAW: 0.225MB RECO: 0.4MB Nombre d’événements Commissioning10: 1.34E9 run 2010A: sept.: oct.: * * prévision
4 Ce qu’il se passe au Tier 0 C. Charlot, Conseil scientifique LLR 14/10/2010 Latences au T0 (06/2010) repacking des RAW en moyenne 3h après la fin du run données RECO produites en moyenne 5h après la fin du run
5 Transferts T0-T1 C. Charlot, Conseil scientifique LLR 14/10/2010 Les transferts fonctionnent de façon fiable 1 GB/s export depuis le CERN proche de la valeur pic prévue dans le modèle
6 Ce qu’il se passe aux T1s C. Charlot, Conseil scientifique LLR 14/10/2010 Usage modéré jusqu’à présent faible live time du LHC jusqu’à maintenant 2 rereconstructions complètes prévues en préparation des conférences d’hiver début nov. et dec.- janv
7 Stockage des données C. Charlot, Conseil scientifique LLR 14/10/2010 Volume total données custodiales (collisions et MC) sur bandes: 3.045PB
8 Ce qu’il se passe aux T2s C. Charlot, Conseil scientifique LLR 14/10/2010 Premiers blocks de données accessibles aux T2s dans les heures qui suivent la distribution initiale nombreuses connections T1-T2 et T2-T2 (full mesh model) Les T2s sont le lieu pour la production MC et l’analyse ~360 utilisateurs CMS / semaine ~100k jobs utilisateurs / jour
9 Associations T2-Groupes de Physique C. Charlot, Conseil scientifique LLR 14/10/2010 (09/2010) T2_US_MIT prévu
10 Planning C. Charlot, Conseil scientifique LLR 14/10/2010
11 Les ions lourds C. Charlot, Conseil scientifique LLR 14/10/2010 Démarrage du run ions lourds début novembre prochain ~1 mois jusqu’au shutdown d’hiver Run plus court mais plus grand nombre de paquets dans la machine et plus grand taux de déclenchement qu’initialement prévus Déclenchement « minimum bias » Les données seront écrites sans suppression de zéro suppression de zéro sera appliquée dans un reprocessing des données en janvier temps nécessaire pour étudier la réduction de données optimale les données brutes seront gardées sur disque au CERN jusqu’au reprocessing de janvier et archivées sur bandes au CERN, ~1.4PB Les données zéro supprimées seront archivées au CERN et transférées à FNAL pour une deuxième copie facteur 4 de compression, ~350TB reprocessings ultérieurs au T2 de Vanderbilt
12 Les ions lourds (suite) C. Charlot, Conseil scientifique LLR 14/10/2010 Taille événement IL: 12MB en mode sans suppression de zéro taux de déclenchement: 150Hz donc débit vers le stockage de 1.8GB/s, plus élevé que pp Mais pas nécessaire de tenir le débit en temps réel run court, pas d’autres activités au CERN T0 pendant cette période Tests de transferts et d’écritures de données non zéro-suppressed ont été effectués 195Hz depuis P5, 1.5 GB/s atteint entre P5 et IT données écrites deux fois sur bandes: 1GB/s en écriture
13 T2 nominal 2011 C. Charlot, Conseil scientifique LLR 14/10/2010 Approved CRB 27/09 3 POG/PAG: 505TB 4 POG/PAG: 575TB Stageout 20TB pour MC et 20TB pour analyse Group = 75TB par groupe de physique x1.5 par rapport à 2009 T2 nominal est associé à 2 groupes Espace central = 100TB x2 par rapport à 2009 T2 nominal est associé à 2 groupes Espace local = 75TB x1.5 par rapport à 2009 Espace user = 1.5TB/user 40 users = 60TB x1.5 par rapport à 2009 T2 nominal = 425TB Support pour 4 groupes de physiques = 575TB 1.5TB 75TB 75TB x N groupes 100TB 40TB
14 C. Charlot, Conseil scientifique LLR 14/10/2010 GRIF vue d’ensemble Grille de recherche d’Ile de France fédération de sites interconnectés a 10Gbps initiative de 5 laboratoires (IPN, IRFU, LAL, LLR, LPNHE) rejoint par la suite par l’APC support mutualisé Support multi VO LHC mais aussi Biomed, Calice, D0, etc.. 2 sites fournissent du stockage pour CMS LLR et IRFU le LAL et le LPNHE fournissent également du calcul Au LLR actuellement 95 serveurs de calcul, ~1000 slots installés depuis 2008 à l’aile 0 A. Sartirana + P. Henion + I. Semenjuk + P. Mora de Freitas + J. Tugler + B. Tafliki
15 GRIF: disponibilité C. Charlot, Conseil scientifique LLR 14/10/2010 La disponibilité est une métrique importante de qualité des sites monitorée en continue par CMS sur tous les sites de la grille test grille et spécifiques CMS Excellente disponibilité du site en général moins bonne pour GRIF-IRFU le mois dernier disponibilité réduite suite à l’arrêt lié à la faille de sécurité Linux
16 C. Charlot, Conseil scientifique LLR 14/10/2010 Utilisation du GRIF: CPU
17 C. Charlot, Conseil scientifique LLR 14/10/2010 Utilisation du GRIF: transferts Un exemple de transfert pour les analyses du groupe Activités dans les voies électrons demandé par e/g POG Dataset /EG/Run2010A-Sep17ReReco_v2/RECO totalité des données /EG du run 2010A, ~ 3/pb de lumi intégrée, dernier reprocessing 17.3TB en ~36h ~100MB/s pointes à MB/s Dataset disponible pour analyse à la maison ~ 3 jours après sa production par la rereco centrale produit en fin de prepod
18 C. Charlot, Conseil scientifique LLR 14/10/2010 Utilisation du GRIF: disque Espace disque utilisateur utilisateur T2: ~1.5TB / utilisateur utilisateur du groupe (T3): ~100 TB au total / ~10 utilisateurs Espace disque placement datasets locaux ~135TB Espace disque support aux groupes ~90TB
19 C. Charlot, Conseil scientifique LLR 14/10/2010 GRIF: utilisation GRIF a joué un rôle essentiel dans l’activité du groupe depuis le début de la prise de données jusqu’à maintenant, en passant par les analyses pour ICHEP transfert de données « à la maison » skiming, processig particuliers pour les besoins du groupe publication des données production de root trees analyse intéractive et production des résultats de physique
20 C. Charlot, Conseil scientifique LLR 14/10/2010 GRIF: besoins Inputs: évolution des besoins T2s CMS nécessité de fournir un support à 4 groupes de physique Higgs, Exotica, e/g et, à partir de nov. 2010, Ions Lourds CPU renouvellement et support calcul pour les ions lourds: 20 serveurs de calcul, 2400 HS06 Disque serveurs fichiers support pour les ions lourds: 120TB Réseau switch réseau Total des besoins estimé ~140keuro en partie financé par l'ERC Ions Lourds (Raphael) complément espéré du LLR et de CMS-IN2P3
21 En résumé C. Charlot, Conseil scientifique LLR 14/10/2010 Le calcul dans CMS se passe plutôt bien modèle distribué en application ~6 mois d’expérience de prise de données de collisions néanmoins temps de collisions pour la physique encore faible, les derniers mois de 2010 nous donneront une idée plus réaliste de ce que sera 2011 Le GRIF est un atout majeur du groupe en vue des analyses soutient à 4 groupes de physiques en adéquation avec les intérêts du groupe CMS-LLR gros impact sur les analyses L’arrivée des ions lourds nécessite un accroissement des ressources en particulier pour le stockage Le groupe CMS demande le soutient du laboratoire en vue de permettre l’accroissement nécessaire des ressources