Frédérique Chollet (LAPP) Fairouz Malek (LPSC) Temps forts du workshop WLCG Copenhague, Novembre Rencontres LCG-France, 26 – 28 Novemebre CC-IN2P3, Villeurbanne
F.Malek, F. Chollet, Y.Patois, R.Vernet Réunion de collaboration WLCG Co-Organisation GDB (Michel Jouvin), plutôt un forum technique GDB 1 journée, 3 ième mercredi du mois (possibilité pre-GDB le mardi) WLCG Ops coordination (Maria Girone), coordination activités et déploiement en cours Simone Campana prend la suite de Maria Girone er et 3 ième jeudis du mois 15h30-17h00 2
F.Malek, F. Chollet, Y.Patois, R.Vernet Réunion de collaboration WLCG Editions précédentes Juillet 2011 (DESY), May 2012 (NYC CHEP2012) Agenda Minutes ~90 participants Fairouz Malek, Eric Fede, Aresh Vedaee, Sébastien Gadrat, Michel Jouvin, FC Thèmes : Préparation du Run-2 du LHC Perspectives générales et Session expériences Horizon
F.Malek, F. Chollet, Y.Patois, R.Vernet Perspectives RUN-2 La physique (JB. Hensen) LHC RUN 2 : Redémarrage après quelques mois de commissionning (avril à décembre 2014) à 6,5 (7 TeV) par faisceau pour la luminosité nominale, un paquet toutes les 25 ns Le modèle standard fait de la résistance Quelques indices selon lesquels la nouvelle physique ne serait pas accessible à court terme mais plutôt autour de 10 TeV Usine à Higgs : mesure de précision et recherche d’éventuelles faibles déviations par rapport au modèle standard –5,5 millions d’évévements Higgs –1400 actuellement pour ATLAS et CMS 4
F.Malek, F. Chollet, Y.Patois, R.Vernet Perspectives RUN-2 Evolution des modèles de calcul (Ian Fisk) WLCG n’est plus une collection de sites hiérarchisés Répartition stricte des tâches Distribution a priori des données Le cloisonnement et les spécificités/rôles des Tiers s’estompent LHCb : analyse dans les T2D ATLAS /CMS : première reconstruction rapide dans les T1s en cas de saturation au Tier-0 ATLAS/CMS : reconstruction MC dans certains Tier-2s Service d’archivage sur TAPE découplé du stockage disque Tier-1 La différence entre Tier-1 et Tier-2 : support et disponibilité Utilisation opportuniste de ressources autres (+25-50% !) pour la simulation MC (activités CPU intensive): HPC ou fermes HLT 5
F.Malek, F. Chollet, Y.Patois, R.Vernet Perspectives RUN-2 Evolution des modèles de calcul (Ian Fisk) L’infrastructure évolue autorisant plus de flexibilité en partie liée à la disponibilité et à l’utilisation de la connectivité réseau Evolution de la gestion des données : approche commune des VOS LHC Généralisation des services de data popularité et de la gestion dynamique des données CERN Budapest (remote computing facility) 2 x 100 Gbps va ouvrir la voie ….à la connectivité 100 Gb/s va bousculer la distinction LAN vs WAN modifier notre perception de ce qu’est un site… Les 4 expériences seront en mesure d’accéder des données à distance à travers le réseau Plus de flexibilité quant à l’accès aux données depuis les jobs Mise en production progressive des Data federation AAA (CMS), FAX (ATLAS) trafic réseau à réévaluer par rapport à l’estimation initiale < ~10 % Data Challenge / Stress Tests courant 2014 coord. par WLCG Ops 6
F.Malek, F. Chollet, Y.Patois, R.Vernet Perspectives RUN-2 Evolution des modèles de calcul (Ian Fisk) Les 4 expériences sont en mesure d’accéder à des ressources mises à disposition directement via une interface cloud (Cloud privé) Testé en vraie grandeur au CERN (cf. infrastructure Agile), reconversion des fermes HLT pendant le LS1 Evolution vers des modèles / un modèle Cloud offre à terme l’opportunité d’intégrer des ressources cloud et de simplifier la gestion des jobs 7 Mise à disposition de VMs pour une période de temps relativement longue avec possibilité pour le site d’interrompre l’activité et de récupérer les ressources 1,5 M pilot jobs sollicitent l’accès aux ressources des sites via CE/batch
F.Malek, F. Chollet, Y.Patois, R.Vernet Evolution côté Calcul Ulrich Schwickerath CERN-IT Support job multi-cœur / Effort de parallélisation de la reconstruction en cours de la part des expériences Depuis 2011, motivé par la nécessité d’optimiser l’utilisation de la mémoire queues dédiées au CERN et dans les T1s peu utilisées. Comment progresser ? Proposition WLCG TASK FORCE Machine/job features Présentation de Stephan Rosier au GDB de Juin Machine / Job Features TASK FORCE Définir une interface entre le site et la VO, identique en environnement batch et IaaS - Mettre à disposition de la VO les infos concernant la machine ou les conditions du job Informations statiques (HS06, nbre de cœurs alloués, local scratch space…) Informations dynamiques (temps d’exécution restant) concernant wrapper python en cour de finalisation, en test au CERN 8
F.Malek, F. Chollet, Y.Patois, R.Vernet Evolution côté Calcul Ulrich Schwickerath CERN-IT Il est possible de s’affranchir à terme du CE pour simplifier l’intégration de ressources Cloud Difficulté pour s’affranchir du gestionnaire de batch lorsque le site supporte plusieurs communautés - Pb Allocation et optimisation de l’utilisation ndes ressources en l’absence de mise en queues des demandes Enjeu « de taille » pour le calcul LHC : Performances notamment des I/O dans un contexte de cloud (+ ou – affectées selon la configuration et es optimisations locales) 9
F.Malek, F. Chollet, Y.Patois, R.Vernet Session Expériences Court extrait du message ALICE Forte évolution à l’horizon du RUN-3 Taux de trigger ( x 100) Reconstruction en ligne pour réduire le flux de données (1.1 TB/s issues du détecteur) Simulation MC (x20) Le File catalog ALICE ne passera pas à l’échelle Certains changements à prévoir dès le RUN-2 Pb de manpower pour la maintenance et Adaptation de l’env. AliEN Adoption de solutions communes, Synergie avec les autres expériences : CVMFS, Panda… Minimiser les solutions spécifiques 10
F.Malek, F. Chollet, Y.Patois, R.Vernet Horizon 2020 Vision HEP Ian Bird RUN-1 : Computing opérationnel RUN-2 : evolution Cloud, Federation de données Au-delà, Vision conditionnée par une très forte augmentation du taux de données attendu Run3 (ALICE & LHCb) Run 4 (ATLAS & CMS) Augmentation des besoins en rapport Utilisation Pledges + ressources opportunistes Il faut cependant améliorer les performances et repenser le modèle distribué HEP La question du financement du calcul dans le futur reste entière 11
F.Malek, F. Chollet, Y.Patois, R.Vernet Horizon 2020 Vision HEP Ian Bird 12 Problèmes Coûts opérationnels élevés Economie d’échelle ? 10 gros centres plutôt que 150 petits Modèle actuel trop distribué Potentiellement trop de cache disque Opportunités Connectivité réseau Augmentation bande passante Pas de nécessité d’avoir toutes les données partout et de tout stocker ‘in line’ Augmentation importante des fermes HLT Le modèle actuel ne passe pas à l’échelle. Il faut trouver les moyens d’optimiser les coûts et d’autres modes de financement Workshops réguliers pour élaborer la vision à 10 ans….
F.Malek, F. Chollet, Y.Patois, R.Vernet Horizon 2020 Vision HEP Ian Bird 13
F.Malek, F. Chollet, Y.Patois, R.Vernet Horizon 2020 e-infrastructure Vision Ian Bird 14 Service-oriented platforms Modèle hybride impliquant des fournisseurs de services public et privé Research Accelerator Hubs Gouvernance par les utilisateurs Communités scientifiques parties prenantes des e-infrastructures… Pay-per-usage business model
EIROForum papers published EIROforum is a partnership between eight of Europe’s largest inter- governmental scientific research organisations that are responsible for infrastructures and laboratories: - CERN, EFDA-JET, EMBL, ESA, ESO, ESRF, European XFEL and ILL. 3 EIROforum e-infrastructure papers published in A Vision for a European e-Infrastructure for the 21st Century: -Implementation of a European e-Infrastructure for the 21st Century: -Science, Strategy and Sustainable Solutions, a Collaboration on the Directions of E-Infrastructure for Science: 12 Nov 2013 Ian Bird; WLCG Workshop15