05-fevrier-2007Eric Lancon1 ATLAS Bilan 2006 - Planning 2007.

Slides:



Advertisements
Présentations similaires
2-mars-2009Eric Lançon1 Nouvelles d’ATLAS Reunion LCG 2 mars 2009 Lyon.
Advertisements

Palaiseau Réunion CCIN2P3/LCG 22/07/2004 Distribution des données CMS Distribution des données et préparation de l’analyse Production MC distribuée et.
Michel Jouvin LAL/Orsay
Eric Lançon1 Calcul ATLAS en France Le CAF au PAF * CAF : Calcul Atlas France *Célèbre contrepèterie.
1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo.
11/9/07-PAFL.Poggioli/LAL1/25 Gestion des données : DDM Distributed Data Management Préambule Le modèle ATLAS DDM –Principe, Tests, Suivi, Problèmes Next.
ATLAS et l’analyse au CCIN2P3  Le modèle de calcul de ATLAS  L’analyse à Lyon  Points critiques Avertissement : cette présentation n’est malheureusement.
CAF LCG-FRANCE A.Rozanov LCG France 22 Juillet SOMMAIRE Composition CAF DC2 ATLAS Demandes fin 2004.
C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.
CAF-11/10/2010Luc1 Squad Report T1 Période 13/09-11/10 Irena, Sabine, Emmanuel.
20-mars-2008Eric Lançon1 Activités ATLAS sur le nuage Français Emprunts a K. Bernardet, C. Biscarat, S. Jezequel, G. Rahal.
Jeudi 12 decembre 2007 Le CC-IN2P3 Un instrument informatique de pointe au service de la recherche Traitement intensif de données et Sciences de la Vie.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
Vendredi 23 mars 2007 Le CC-IN2P3 Un instrument informatique de pointe au service de la recherche.
LHC Computing Grid Infrastructure de Grille à l'IPHC Yannick Patois.
1 Stéphane JEZEQUEL JI06 Modèle de calcul d'ATLAS et Exercices en vraie grandeur de la grille WLCG par l'expérience ATLAS S. Jézéquel Journées Informatiques.
1 Stéphane JEZEQUEL 23 Juin 2008 Analyse des données LHC dans ATLAS S. Jézéquel.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR-T2T3, Annecy Mai 2009Jean-Michel BARBET Subatech 1 /18 IN2P3-SUBATECH :
Projet LCG-France Planning Fairouz Malek, Fabio Hernandez Responsables LCG-France Journées projets de l’ IN2P3 Paris, 5 juillet 2007.
Le système Raid 5 Table des matières Qu'est ce que le RAID ? Les objectifs Le raid 5 Les avantages et les inconvénients Les composants d’un Raid.
Yannick Patois 1 Utilisation LCG-France Les Technical Evolution Groups et LCG-France.
LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL.
C. Charlot, Calcul CMS, LCG-DIR, fév 2007 Calcul CMS 2006 TDR de Physique CMS Physics TDR, Volume 1, CERN-LHCC , feb. 2006, 548pp CMS Physics TDR,
Gestion des données : DDM Distributed Data Management
Journée Analyse D0, 19 janvier 2004
Passage de Main SYSGRID Réunion 1
Réunion Analyse D0 France au CCIN2P3 19 janvier 2004
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
Un instrument informatique de pointe au service de la recherche
GRIF : Grille pour la Recherche en
Etat des services grid de production
ATLAS Computing model et utilisation de LCG
12 mars 2004, Lyon Reunion CAF F.Chollet 1
Surveillance des services grille par NAGIOS
Pierre Girard LCG-France Tier
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Consolidation des services FTS et LFC
Activités présentes et à venir
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
Projet de participation CMS au GRIF
Infrastructure de grille LHC en France et ressources associées
Configuration FTS pour CMS
Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER
Intégration des services grid à l'exploitation
2018/8/9 CLAP Cluster de virtualisation et de stockage distribué du LAPP Mardi 26 avril 2016 Entrez votre nom.
APS 2008 Conférence de l’APS avril St Louis
LCG-France Tier-1 & AF Réunion mensuelle de coordination
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 11 Juin- 10 Septembre Hélène CORDIER.
Jobs ATLAS sur la grille
Utilisation effective de la Grille par ATLAS S. Jézéquel (LAPP)
L’exploitation des données du collisionneur LHC: un défi pour le calcul scientifique un enjeu pour le LAPP S. Jézéquel.
Le Projet GRIF Efficient Handling and processing of
Synthèse problèmes rencontrés par les expériences LHC au CC-IN2P3
TreqS TReqS 1.0.
Les centres d’analyse: introduction
Atelier régulation de la production dans un contexte grille
Résumé de la réunion PAF-CAF 12/04/2010
Organisation LCG-France Lien avec le computing LHC
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 10 Septembre – 21 Octobre Hélène CORDIER.
Infrastructure Opérationnelle d’EGEE
Introduction à la Grille
GRIF : Site EGEE au Service de la Recherche en IdF
Un cloud de production et de stockage
Infrastructure Opérationnelle d’EGEE2
DC04 CMS Objectif Status Planning
Efficacité des jobs CMS en 2010
LCG – France et ALICE Bilan 2006 Planning fevrier 2007
Résumé des Actions Suite aux Réunions CB et MB
Transcription de la présentation:

05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007

05-fevrier-2007 Eric Lancon 2 ATLAS : Grid organisation CERN LYON NG BNL FZK RAL CNAF PIC TRIUMF SARA ASGC LPC Tokyo Romania GRIF T3 SWT2 GLT2 NET2 WT2 MWT2 T1 T2 T3 VO box, dedicated computer to run DDM services All Tier-1s have predefined (software) channel with CERN and with each other Tier-1. Tier-2s are associated with one Tier-1 and form the cloud Tier-2s have predefined channel with the parent Tier-1 only. LYON Cloud BNL Cloud TWT2 Melbourne ASGC Cloud “Tier Cloud Model” Pékin

05-fevrier-2007 Eric Lancon 3 T1 de Lyon associé à BNL & FZK BNL LYON FZK Tier-1 associations And relative sizes

05-fevrier-2007 Eric Lancon 4 Tier-2 associés à Lyon Clermont GRIF Romanie Pekin Tokyo

05-fevrier-2007 Eric Lancon 5 DDM : Data Distribution Management T1 T0 T2 LFC T1 …. VO box FTS Server T1 FTS Server T0 LFC: local within ‘cloud’ All SEs SRM Catalogues généraux centralisés (LFC): Contenus des datasets Localisation des datasets dans les T0-T1-T2 Liste des requêtes de transferts des datasets Catalogues locaux (LFC) Localisation dans le centre des fichiers de chaque dataset Catalogues généraux centralisés (LFC): Contenus des datasets Localisation des datasets dans les T0-T1-T2 Liste des requêtes de transferts des datasets Catalogues locaux (LFC) Localisation dans le centre des fichiers de chaque dataset Demande au catalogue central : liste des datasets a répliquer Gestion transfert Enregistrement informations dans catalogues locaux et centraux Demande au catalogue central : liste des datasets a répliquer Gestion transfert Enregistrement informations dans catalogues locaux et centraux

05-fevrier-2007 Eric Lancon 6 Réalisations en 2006 Tests de transferts :  T0  T1  T1  T1, T2 Reprocessing pas encore testé Production MC :  Au Tier-1 Tant qu’il n’y a pas de données réelles Et pas de tests T0->T1  Aux Tier-2 du nuage Données produites transférées et enregistrées a Lyon

05-fevrier-2007 Eric Lancon 7 BADOK

05-fevrier-2007 Eric Lancon 8 Consommation CPU UI demandées UI consommées  42% des demandes UI demandées UI consommées  42% des demandes

05-fevrier-2007 Eric Lancon 9 LHC au CC Nouveaux CPU % LHC No increase Nombre de Jobs LHC Jobs, ALL Jobs CC, Fraction LHC

05-fevrier-2007 Eric Lancon 10 Production ATLAS 2006

05-fevrier-2007 Eric Lancon 11 Production 2006 ATLAS : Répartition par pays

05-fevrier-2007 Eric Lancon 12 Répartition entre sites français - I

05-fevrier-2007 Eric Lancon 13 Répartition entre sites français - II

05-fevrier-2007 Eric Lancon 14 % CPU par site fct. temps Pbs a Clermont à partir d'août GRIF sites come and go Pbs a Clermont à partir d'août GRIF sites come and go

05-fevrier-2007 Eric Lancon 15 Production MC en France Début 2006 : Exécuteur installé a Saclay  Afin de ‘remplir’ la grille française Automne : exécuteur installé au CC  Mise en place de shifts de production et DDM Au CC : sélection du rôle de production dans BQS (VOMS)  80% des ressources allouées pour production MC Efficacité globale : ~40%  30% input failed (pas de CPU consommé) Problèmes FTS, SRM, sites input non disponibles…  20% output failed (CPU consommé) Crash (peu), pb enregistrements, SRM, etc…  Architecture fragile, manque d’outils de diagnostiques Production, all jobs, % Production

05-fevrier-2007 Eric Lancon 16 FR fraction of all Grids vs time Arrêt de l'exécuteur de Saclay en août Redémarrage a Lyon en novembre Arrêt de l'exécuteur de Saclay en août Redémarrage a Lyon en novembre

05-fevrier-2007 Eric Lancon 17 Job & Wall-time efficiencies <>=80% <>=39% 20% of wasted CPU, ~ independent of sites 60% of jobs do not finish, large variation with sites French

05-fevrier-2007 Eric Lancon 18 Efficacité par site fct. temps ClermontCC Pbs du CC en octobre affecte tous les sites Cependant aucun site n’est stable… Pbs du CC en octobre affecte tous les sites Cependant aucun site n’est stable…

05-fevrier-2007 Eric Lancon 19 Période 21/12 – 08/01 (19 jours) jobs, OK  eff = 79% En France, faits par lyonDQ:  jobs (54 % des jobs de l’exécuteur)  OK  eff = 80% Par site (1) :  Lyon: 67% eff = 87%  Auvergne: 22%eff = 71%  GRIF: 9%eff = 47% Erreurs par type:  Lyon: 62% stagein  Auvergne: 68% jobs ne démarrent pas (2)  GRIF: erreurs variées (2) (1) Marseille et Saclay arrêtés la plus grande partie du temps (2) Disques WN pleins, droits écriture, pbs ssh

05-fevrier-2007 Eric Lancon 20 Conclusion provisoire Le Tier-1 influence l'efficacité des Tier-2 mais pas toujours  Problèmes récurrents de srm au CC Chaque Tier-2 a des problèmes spécifiques Il faut améliorer :  Le monitoring,  Plus de checks systématiques,  L’implication des sites,  Les relations avec les sites Cependant…  L'efficacité du nuage français est reconnu!

05-fevrier-2007 Eric Lancon 21 Bilan DDM Evolution de dCache vers  Depuis pas de situation stable plus que qcq jours consécutifs Problèmes de l'accès aux disques :  serveur SRM «buggé» et surchargé  Problèmes de dimensionnement?

05-fevrier-2007 Eric Lancon CDR : Computing Dress Rehearsal  Processing T0  Distribution T1 et T2 Validation de l’analyse distribuée  Sur la Ferme d’Analyse et les Tier-2 Très forte montée en puissance malgré le changement du planning du LHC

05-fevrier-2007 Eric Lancon 23 Ressources 2007 : demandes Tiennent en compte la révision des ressources ATLAS CPU :  206,000,000 UI  C.a.d KSI2k  Tier-1 (~1/3) & Tier-2/AF (~2/3) DISK :  265 TB de disk sous srm2  10TB sur /sps  300 GB AFS stockage des versions de développement du software Tape :  222 TB

05-fevrier-2007 Eric Lancon 24 Besoins pour 2007 Un environnement de travail stable au CC  afs, hpss, BQS, srm, …  Opérations de maintenances coordonnées 2GB de mémoire virtuelle par job  Sous utilisation du CC Mise en place du T2 contenant la ferme d’analyse  Réseau CC assez rapide pour la ferme d’analyse?  Prise en compte des VOMS (Rôles et groupes) DDM :  Système stable  SRM v2.2, FTS 2.0  Seconde Vobox pour séparer développement / production ORACLE  ATLAS séparé des autres expériences (demande d’ATLAS)

05-fevrier-2007 Eric Lancon 25 CC 2007 Tier-1 cclcgxx.in2p3.fr Tier-1 cclcgxx.in2p3.fr Production Reprocessing Real DATA Production Reprocessing Real DATA User /atlas/fr User /atlas/fr User  BQS Ferme Analyse / Tier-2 cclcgxx.in2p3.fr Ferme Analyse / Tier-2 cclcgxx.in2p3.fr Production MC DATA Production MC DATA Tier-1 Allocation MoU Tier-1 Allocation MoU Tier-2 Allocation MoU Tier-2 Allocation MoU Ferme Analyse Ferme Analyse

05-fevrier-2007 Eric Lancon 26 CC 2007 Production Reprocessing Real DATA Production Reprocessing Real DATA User /atlas/fr User /atlas/fr User  BQS Production MC DATA Production MC DATA Tier-1 Allocation MoU Tier-1 Allocation MoU Tier-2 Allocation MoU Tier-2 Allocation MoU Ferme Analyse Ferme Analyse Accounting trimestriel LCG du Tier-1 et du Tier- 2 (CC redevable a atlas) Variation au cours du temps  Allocation Tier-1 vs Tier- 2  Priorités dans le Tier-2 (production vs utilisateurs) Ferme d’Analyse  Réservée au Français  Entrée rapide en machine (analyse)

05-fevrier-2007 Eric Lancon 27 CC 2007 Production Reprocessing Real DATA Production Reprocessing Real DATA User /atlas/fr User /atlas/fr User  BQS Production MC DATA Production MC DATA Tier-1 Allocation MoU Tier-1 Allocation MoU Tier-2 Allocation MoU Tier-2 Allocation MoU Ferme Analyse Ferme Analyse Le système doit être flexible :  Changement de priorités  Des quotas (par groupe de physique, …) Doit pouvoir être configurable en fonction  Des demandes d’ATLAS (production, reprocessing,…) pour les Tier-1 et Tier-2  Des besoins des physiciens français (conférences etc…) pour la Ferme d’Analyse Possibilité que ATLAS- France puisse gérer les priorités