1 Stéphane JEZEQUEL JI06 Modèle de calcul d'ATLAS et Exercices en vraie grandeur de la grille WLCG par l'expérience ATLAS S. Jézéquel Journées Informatiques.

Slides:



Advertisements
Présentations similaires
La Grille de Calcul du LHC
Advertisements

CAF-13/09/2010Luc1 Squad Report T2 Période 19/06-11/09 Irena, Sabine, Emmanuel.
Eric Lançon1 Calcul ATLAS en France Le CAF au PAF * CAF : Calcul Atlas France *Célèbre contrepèterie.
11/9/07-PAFL.Poggioli/LAL1/25 Gestion des données : DDM Distributed Data Management Préambule Le modèle ATLAS DDM –Principe, Tests, Suivi, Problèmes Next.
20-mars-2008Eric Lançon1 Activités ATLAS sur le nuage Français Emprunts a K. Bernardet, C. Biscarat, S. Jezequel, G. Rahal.
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Jeudi 12 decembre 2007 Le CC-IN2P3 Un instrument informatique de pointe au service de la recherche Traitement intensif de données et Sciences de la Vie.
Nombre de job slot par machine Server_priv/node. Node1 np=2 Règle de 1 core = 1 job slot = 2 Go. Sur un bi-processeur bi-core on annonce alors np=4 Pas.
Le projet MUST Méso infrastructure de calcul et de stockage ouverte sur la grille européenne LCG/EGEE Colloque Grille Rhône-Alpes 10 janvier 2008.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
Etude du quark top au LHC dans l’expérience ATLAS Bernardo Resende sous la direction d’Emmanuel Monnier 18 avril 2005 Le LHC et ATLAS Physique du quark.
Vendredi 23 mars 2007 Le CC-IN2P3 Un instrument informatique de pointe au service de la recherche.
1 Stéphane JEZEQUEL 23 Juin 2008 Analyse des données LHC dans ATLAS S. Jézéquel.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR-T2T3, Annecy Mai 2009Jean-Michel BARBET Subatech 1 /18 IN2P3-SUBATECH :
Projet LCG-France Planning Fairouz Malek, Fabio Hernandez Responsables LCG-France Journées projets de l’ IN2P3 Paris, 5 juillet 2007.
LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL.
ALICE February/March exercise summary Latchezar Betev WLCG Collaboration Workshop 22 April 2008.
C. Charlot, Calcul CMS, LCG-DIR, fév 2007 Calcul CMS 2006 TDR de Physique CMS Physics TDR, Volume 1, CERN-LHCC , feb. 2006, 548pp CMS Physics TDR,
Les journées de l’2015 Le Model-Based Design Une approche complète en sciences industrielles de l’ingénieur Frédéric MAZET Lycée Dumont d’Urville Toulon.
Gestion des données : DDM Distributed Data Management
Albertine DUBOIS et Alexandre LIEGE
Journée Analyse D0, 19 janvier 2004
Passage de Main SYSGRID Réunion 1
Le nœud de grille de calcul de l'IPHC dans CMS
La Grille de Calcul du LHC
Programme des actions à mener dans l’option du Démonstrateur
Roadmap opérations Fin 2013 Visio opérations France Grilles juin 2013
GENIUS – GANGA Alternative à la CLI
Réunion Analyse D0 France au CCIN2P3 19 janvier 2004
C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 2 février 2007
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
Un instrument informatique de pointe au service de la recherche
Planification budgétaire Tier2s & Tier-3s Etat d’avancement
GRIF : Grille pour la Recherche en
Etat des services grid de production
ATLAS Computing model et utilisation de LCG
12 mars 2004, Lyon Reunion CAF F.Chollet 1
Status des problèmes d’accès à la software area de LHCb
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
Infrastructure de grille LHC en France et ressources associées
Les opérations régionales en France au quotidien après le 20 Avril
Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER
Statut du T2 Île de France
2018/8/9 CLAP Cluster de virtualisation et de stockage distribué du LAPP Mardi 26 avril 2016 Entrez votre nom.
LCG-France Tier-1 & AF Réunion mensuelle de coordination
Jobs ATLAS sur la grille
Utilisation effective de la Grille par ATLAS S. Jézéquel (LAPP)
L’exploitation des données du collisionneur LHC: un défi pour le calcul scientifique un enjeu pour le LAPP S. Jézéquel.
Le Projet GRIF Efficient Handling and processing of
Synthèse problèmes rencontrés par les expériences LHC au CC-IN2P3
La grille de calcul EGEE
TreqS TReqS 1.0.
Les centres d’analyse: introduction
Atelier régulation de la production dans un contexte grille
Résumé de la réunion PAF-CAF 12/04/2010
Journées LCG-France Point IPv6
Organisation LCG-France Lien avec le computing LHC
Infrastructure Opérationnelle d’EGEE
Introduction à la Grille
GRIF : Site EGEE au Service de la Recherche en IdF
Infrastructure Opérationnelle d’EGEE2
DC04 CMS Objectif Status Planning
Comité Scientifique GRIF
Chaque transparent est divisé en 3 parties : 1/Vision/ But
LCG – France et ALICE Bilan 2006 Planning fevrier 2007
Résumé des Actions Suite aux Réunions CB et MB
Intégration GRIF Michel Jouvin Comité Technique GRIF 28 Novembre 2005.
Transcription de la présentation:

1 Stéphane JEZEQUEL JI06 Modèle de calcul d'ATLAS et Exercices en vraie grandeur de la grille WLCG par l'expérience ATLAS S. Jézéquel Journées Informatiques 06

2 Stéphane JEZEQUEL JI06 Sommaire Expérience ATLAS auprès du LHC Modèle de calcul ATLAS (théorie) Taux de production de données Distribution et stockage des données sur la grille Analyse des données Manière effective de travailler en Septembre 2006 Installation du soft et réplication des données Simulation Analyse (Collaboration avec C. Bourdarios (LAL))

3 Stéphane JEZEQUEL JI06 Préambule Participation à ATLAS/Grille Depuis seulement 18 mois Béneficie de l'aide active: Du support Grille du LAPP Du personnel du CCIN2P3 Outils de grille ont beaucoup changé (SRM, FTS, LFC,...) : Pas dans une phase stable Risque de stigmatiser les problèmes actuels

4 Stéphane JEZEQUEL JI06 Expérience ATLAS Une des 4 expériences LHC auprès du CERN (Genève) Collisions proton-proton de 14 TeV à 40 MHz Phase de commisionning de l'accélérateur et détecteur en 2007 Démarrage pour la physique : courant 2008 Montée en charge dans les années 2009/2010

5 Stéphane JEZEQUEL JI06 Modèle de calcul Première version: Publiée mi-2005 (TDR) Premiers correctifs: courant 2006 Devra encore s'adapter aux réalités Partie Grille : Utilisation autant que possible des outils standards LCG (SRM,LFC,FTS,...) doivent être complètement opérationnels (faible taux d'erreur en production, monitoring des erreurs) sinon...

6 Stéphane JEZEQUEL JI06 Tier-0 – Lieu de production des données  Acquisition et premier traitement  Stockage à long terme (backup des T1)  Distribution vers les centres Tier-1 Canada – Triumf (Vancouver) France – IN2P3 (Lyon) Germany –Karlsruhe Italy – CNAF (Bologna) Netherlands – NIKHEF/SARA (Amsterdam) Nordic countries – distributed Tier-1 Spain – PIC (Barcelona) Taiwan – Academia SInica (Taipei) UK – CLRC (Oxford) US – FermiLab (Illinois) – Brookhaven (NY) Tier-1 – “online” avec la prise de données  fonctionnel 24/7  Stockage de Masse –  Services grille  Tous les re-processings  Analyses de beaucoup de données  Support national et régional Tier-2 – ~100 centres dans ~40 pays  Simulation  Analyse – batch et interactif  Reception des données du Tier-1 associé LCG Service Hierarchy LCG Service Model

7 Stéphane JEZEQUEL JI06 Données réelles: Tier-0 Après filtrage en ligne, évenements bruts (RAW) : 200 Hz Taille : 1,6 Mo/evt 1 Po/an (1 an= s) (2008) 3 Po/an (1 an=10 7 s) (2010) Première reconstruction des données au CERN: ESD (0,5 Mo/evt) Réduction des données AOD (0,1 Mo/evt) (utilisées par les physiciens pour leur analyse) Total : 2-5 Po/an Transferts des données dans les T1 Pas de traitement ultérieur au CERN mais archivage/backup long terme

8 Stéphane JEZEQUEL JI06 Données réelles: Tier-1 T1 recoit les données reconstruite en ligne (~13%) (~80 Mo/s ATLAS/LYON) Rôle : Reconstructions ultérieures (~3/an) à partir de sa copie de données RAW Production de nouvelles ESD/AOD Stockage de toutes les AODs (échange d'AOD entre T1) Distribution des AODs dans les T2 Redondance du stockage des ESDs entre paires de T1 (CCIN2P3-BNL) Etat de la validation ● Transfert ~OK en phase de test ● Reprocessing pas encore tester

9 Stéphane JEZEQUEL JI06 Données réelles: Tier2 T2 recoit une copie des AODs (N*20 Mo/s T1→ tous les T2) (Centre de Calcul Locaux) Rôle : Mise à disposition des AODs pour l'analyse des données (= Ferme d'analyse) Validation: ● Transfert commence à marcher sur courte période ● Activité d'analyse pas possible sur SE DPM avec les outils Grille (accès uniquement par copie sur le disque local)

10 Stéphane JEZEQUEL JI06 Production de données simulées ● Seule activité opérationnelle et possible à ce jour ● Produites dans les T2/T3 (et T1 actuellement) ● Centralisées dans le T1 (lieu de stockage de masse) ● Réplication des AODs vers les autres T1 (3 To)

11 Stéphane JEZEQUEL JI06 Réplication/enregistrement data T1 T0 T2 LFC FTS Server T1 FTS Server T0 T1 …. VO box LFC: local within ‘cloud’ DDM : Outil ATLAS pour organiser les transferts

12 Stéphane JEZEQUEL JI06 Nuage FR :T1/T2/T3 Tier-2: LPC Clermont-Ferrand Tier-3: CPPM Marseille Tier-2: GRIF CEA/DAPNIA LAL LPNHE Centre d’Analyse - Lyon Tier-3: LAPP Annecy Tier-1: CC-IN2P3 Lyon ● BEIJING ● TOKYO

13 Stéphane JEZEQUEL JI06 Utilisation actuelle de la grille dans ATLAS

14 Stéphane JEZEQUEL JI06 Premier commentaire sur la grille LCG Quand on utilise la grille quotidiennement sur ATLAS, il ne se passe pas une journée sans un nouveau problème Implementation de la grille (certificats,...) Interface avec les infrastructures matériels Multiplicité des sites (85% ** 10 sites = 20%) Il faut et on peut avancer mais demande beaucoup d'efforts !!!!

15 Stéphane JEZEQUEL JI06 Première solution Avoir des contacts directs avec les sites (Si pas de contact, on passe par GGUS) Essayer de se restreindre à quelques sites Au niveau T1, collaboration poussée entre CC, CERN et BNL (Sites pilotes pour l'analyse de données recommandés par ATLAS) Avoir des réunions régulières avec les T2/T3 du nuage francais

16 Stéphane JEZEQUEL JI06 Distribution du software ATLAS ~100 sites pour ATLAS Installation automatisée/centralisée Marche dans 50% des cas (sites stables) Origines d'erreurs Sites en évolution (changement de SE, d'OS,...) Zones disques affectées au stockage de softs pleine Besoin de contact direct entre le responsable du site et ATLAS

17 Stéphane JEZEQUEL JI06 Réplication/Publication des données Passage obligé Besoin d'outils performants et robustes FR : Premier 'nuage' opérationnel de la grille EGEE OK dans cadre restreint

18 Stéphane JEZEQUEL JI06 Réplication/Publication des données Dans un environnement non dédié : Surcharge du catalogue LFC 10-20% d'erreur sur les transferts FTS (transfert multi-site simultannés) Non optimisation de DDM Travail en cours mais déjà en phase de production dans ATLAS

19 Stéphane JEZEQUEL JI06 Interface Athena/Grille Soft ATLAS : Athena (aucune interaction directe avec la Grille) Enchainement des actions: S'assure que les données sont accessibles localement sinon utilise les commandes grilles pour les repliquer localement Construit le joboption en utilisant les infos des catalogues LFC Tourne un job Athena en accédant directement aux données ou en les copiant sur le disque local Copie les fichiers en sortie localement ou sur un SE grille

20 Stéphane JEZEQUEL JI06 Simulation Partie de la chaine d'analyse tirant le meilleur profit de la Grille avec un minimum de développement Besoin d'avoir un CPU disponible Un seul fichier en entrée Peu d'accès en lecture/écriture Temps de soumission << Temps d'éxecution Ne nécessite que qq experts pour lancer les jobs Point critique : Accès aux données au cours de la simulation ou après

21 Stéphane JEZEQUEL JI06 Simulation: Implémentation mi-2005 CPU Simulation RAW Fichier 100 evt 10 Mo CPU AOD Reconstruction Fichier 100 evt 120 Mo Trop de petits fichiers : Surcharge des catalogues LFC Fichiers dispersés sur les sites : Maximise la probabilité d'indisponibilité

22 Stéphane JEZEQUEL JI06 Simulation: Implémentation fin-2005 CPU Simulation RAW Fichier 1000 evt 100 Mo CPU AOD Reconstruction Fichier 100 evt 120 Mo Fichiers RAW dispersés sur les sites : Maximise la probabilité d'indisponibilité

23 Stéphane JEZEQUEL JI06 Simulation: Implémentation 2006 CPU Simulation RAW Fichier 1000 evt 100 Mo CPU AOD Reconstruction Fichier 100 evt 120 Mo Production d'un type de données sous la responsabilité d'un 'nuage' Maximise l'utilisation du CPU Ne permet pas réallocation de charge hors d'un nuage RAW Même site

24 Stéphane JEZEQUEL JI06 Vitesse de production Encore fortement instable En deçà des attentes d'ATLAS (facteur 3) Prochaines évolutions: ● Etiqueter un job de production centralisée par un rôle VOMS ● Donner la priorité dans les queues des sites à ces jobs

25 Stéphane JEZEQUEL JI06 Analyse des données Travail de tous les physiciens (ca doit marcher comme sur la doc) Commandes grilles de bas niveau inconnues et/ou limitations grille/infrastructure Bonne fiabilité et stabilité avant diffusion En collaboration avec C. Bourdarios

26 Stéphane JEZEQUEL JI06 Analyse des données:Standard En 2006: Travail sur des données simulées avec l'équivalent de qq jours de données Utilisent les réplications des données locales (commencent à se former aux outils de réplications) Tourne les jobs analyses en interactif ou avec qq batchs BQS/LSF

27 Stéphane JEZEQUEL JI06 Analyse des données:Prospective Analyse avec infrastucture Grille : Utile lorsque beaucoup de données seront disponibles En phase d'évaluation et debugging des outils Préalable: nécessite de rassembler sur un/plusieurs sites tous les fichiers d'un même job 2 interfaces utilisateurs sur le marché: ● Panda (made in BNL) Ne tournait qu'à BNL jusqu'à récemment mais avec succès Volonté de le porter sur LCG (1 job a déjà tourné à Lyon) ● Ganga (made in Europe: LHCb/ATLAS) Commence juste à être opérationnel dans ATLAS CCIN2P3 est un des sites de validation

28 Stéphane JEZEQUEL JI06 Analyse des données:Prospective(2) Quid de l'analyse sur les T2 avec SE DPM? ● Envoyer des jobs sur ces sites : OK ● Possibilité d'écrire son script pour: Copies des fichiers sur disque scratch local Tourner Athena ● Pas encore d'accès direct aux fichiers par rfio (annoncé pour Octobre) ● Important d'aboutir pour avoir un intérêt local à faire fonctionner un T2/T3

29 Stéphane JEZEQUEL JI06 Analyse des données:Prospective(3) Pas encore d'implémentation d'algorithme sur choix des sites au delà de la seule disponibilité de CPU Exemples: ● Disponibilité des données (bientôt) ● Disponibilité effective du site ● Vitesse d'accès aux données à un instant t ● Répartition de la charge entre sites (>1000 jobs) Rapidité de soumission de job (Ressource Broker)

30 Stéphane JEZEQUEL JI06 Conclusion Commence la validation concrète du modèle de calcul Mise en place pas finie des outils Grille indispensables Point de passage obligé : outil de réplication performant et robuste (ATLAS/Grille) Simulation sur la grille en cours de stabilisation Démarrage de la validation de l'analyse sur la grille (job Grille/ accès aux données sur un SE) Beaucoup de travail encore en perspective mais effort français visible dans ATLAS