Compte-rendu W-LCG Workshop & CHEP2007 Victoria, BC, Canada http://www.chep2007.com/
Workshop WLCG Worldwide LHC Computing Grid Objectif : Évaluer l’état d’avancement des sites, du middleware de grille, des expériences La grille WLCG est-elle prête ? Prise de données en 2008? Non Tests prévus en 2007 par les expériences Sans doute moyennant beaucoup de travail A partir de maintenant, WLCG est totalement dépendant du planning des activités des expériences
Très orientée grille et LHC CHEP- Computing in High Energy and Nuclear Physics Conférence multi-sessions plus de 450 participants Séances plénières Séances parallèles : Infrastructures de grille - Réseaux Outils collaboratifs Traitement Offline Middleware de grille Traitement Online Composants logiciels, outils, bases de données Analyse et gestion de données distribuées Très orientée grille et LHC
Planning LHC Maria Girone (CERN) Délai pour la réparation des supports des quadripoles de focalisation déjà en place Mise en froid progressive des différents secteurs du LHC PB avec la qualité des interconnexions Machine : ultime vérification 15 april 08 – fermeture fin avril 2008 Mise en route – Tests et Validation des faisceaux à partir de Mai 2008 : au moins 2 mois nécessaires pour obtenir les premières collisions Premières collisions à 14 Tev prévues pour fin juillet 2008 Montée en puisance du LHC = augmentation du taux de collisions quantifié par la luminosité des faisceaux : nbre de protons par paquet, taille et espacement des paquets Valeurs nominales pas avant 2010 SGi Facility concerns 96 % Data center’s will run out of capacity by 2011 Computer cycle 2-5 years Facility 10 – 25 years IT equipmt 50 % Cooling 25 % Electricity transf.. 10% Weight Processor trends 80 _ 2000 augmentation de l fréquence d’horloge 2 cores per socket Gap speed of processor consuming data Copper wire – pair bandwidth does not increase so fast Copper prices direction optical fiber connection Reducing cables between blades. Switch integrated but no standard backplane Energy efficiency of power supply system 48 V – 12 V 14 kW rack needs 7.9 kW air cooling facilitu power and only 4 kW water cooling Film industry film digitized at 4K resolution = 4TB/hour NOAA’s HPCs
LHC Computing I.Fisk (FermiLab) Le calcul LHC depend de plusieurs infrastructures opérationnelles de grille : EGEE (DataGrid) OSG (IVGDL NorduGrid
Running Experiments using the Grid F.Wuerthwein
WLCG Etat d’avancement Les Robertson CERN centre Tier0 : Stockage des données brutes et traitement initial - Distibution des données vers les Tier1s 11 centres Tier1s « fonctionnement en ligne » en charge des traitements « lourds » (reconstruction, une partie de l’analyse) et de la distribution des données réduites vers les Tier2s 112 centres Tier2s en charge de la simulation et de l’analyse finale Enjeux actuels : Déploiement des ressources et montée en puissance Mise en place d’un réseau optique dédié entre le CERN et les Tier1s Déploiement du middleware et des services de grille
WLCG Etat d’avancement – Enjeux Les Robertson
WLCG Etat des sites Enjeux majeurs : Montée en puissance des ressources pour 2008 Mise en place du stockage et des outils de gestion des données support 24 by 7 operations ready support des services et configurations spécifiques aux expériences (VObox pour Alice – Configuration stockage ATLAS, LHCb, gestion priorités des jobs…) Etat des sites : Tests SAM (Service availability Monitoring) tests soumis plusieurs fois par jour sur l’ensemble des sites : https://lcg-sam.cern.ch:8443/sam/sam.py tests dédiés aux différentes expériences et autres VOS la références : calcul de la disponibilité du site Site GRIDVIEW : http://gridview.cern.ch/GRIDVIEW/ va progressivement remplacer le site SAM
SAM - GRIDVIEW Grid Operation tools Site information ws Oracle DB Other Tools ws ws ws Submission Framework Sam Displays SAM Displays Antonio Retico
Détail de la disponibilité du site IN2P3-LAPP
WLCG Etat du Middleware Encore des évolutions attendues sur les composants majeurs de gLite Gestion du stockage / Storage Element SRM Storage Resource Manager version 2 : Interface standard de gestion de l’espace de stockage sur la grille indépendant de l’infrastructure sous-jacente (disque, mss…) Au LAPP Implémentation DPM (Disque Pool Manager) ok / SRM V2.2 Gestion du calcul / Computing Element nouveau composant CE CREAM capable de supporter :~10 K jobs/jour – jusqu’à 6000 jobs gérés par le CE en meme temps Migration SL4 – 32 bit passage à prévoir avant la fin de l’année support 64 bit uniquement pour un gain significant en performances gLite Workload management system : nouvelle version et nouvelles performances en remplacement du RB actuel . 10 k jobs> jour
Quel ordonnancement sur la grille? Service d'allocation des resources / jobs pilotes
Service d’allocation des ressources Mode push : les jobs sont poussés vers les sites
Jobs pilotes à la LHCb Mode pull : les jobs sont tirés vers les sites, une fois l’environnement validé
Pilot jobs – and variants: Such a good idea – everyone wants one …
Activités des expériences (ATLAS) Kors Bos NIKHEF , Amsterdam Distribution de données cosmiques
Interoperabilité entre grilles L.Field (CERN) 18
Pb Infrastructures A.Boehnlein (Fermilab)
Pb Infrastructures Richard Mount (SLAC) Current power consumed: CPU: 0.08 Watts/$ Disk: 0.05 Watts/$ Cooling systems: ~50% on top of these
Evolution de la techno Eng Lim Goh (SGI) 96 % centres de calcul devront revoir leur infrastructure d’ici 2011 Computer cycle 2-5 years Facility 10 – 25 years Les pistes à l’étude Consommation électrique : Amélioration des différents étages de transformation électrique 48 V – 12V Prix du cuivre / Poids : Amélioration de l’integration rack mais toujours pas d’accord sur un fond de panier standard Aller vers les connexions fibre Attention le cout de la mémoire ne baissera pas Efficacité du refroidissement à eau : 14 kW rack needs 7.9 kW air cooling facilitu power and only 4 kW water cooling Besoins du marché Film industry film digitized at 4K resolution = 4TB/hour
Evolution Multi-coeur Stephen S.Palowski (Intel) Les futurs gains de performance sont liés à la multiplication des cœurs (plus à l’augmentation de la fréquence de processeurs) Risque : stagnation des performances, si l'on se borne à conserver une approche monothread (augmentation parallélisme d’instructions) Recherche gain de performances en augmentant le parallélisme et en améliorant la bande passante mémoire
Software LHC Software et architectures CPU Sverre Jarp (CERN Openlab) CHEP 95 : début de l’ère x86 Pas de changement de notre modèle software : 1 coeur – 1 tache Préoccupation quant aux besoins mémoire Calcul HEP : pas seulement de la logique INT / FLP : calcul en flottant ~50 % code HEP Essayer d’augmenter le // d’instructions : 1 instruction par cycle actuellement 2 coeurs pouvant gérer 4 instructions Regarder du coté du multi-threading