1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo.

Slides:

Advertisements

Présentations similaires

DataGRID PTB, Geneva, 10 April 2002 ATLAS Data Challenges Fede Eric.

Advertisements

LCG DATAGRID - France 8 Juillet 2002 LCG : LHC Grid computing - qui, quoi, quand, comment ? Quoi ? But : préparer l'infrastructure informatique des 4 expériences.

Intégration du système de production LHCb sur la DataGRID V. Garonne, CPPM, Marseille Réunion DataGRID France, 13 fv fév

Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

Pourquoi et comment développer la relation client ?

SIMULATION WATERFALL & INSPECTION

Serveurs Partagés Oracle

Calcul distribué pour l'imagerie médicale

Auto Exterior Scoop SQP PROCESSUS 24 juillet 2006 Version validée V01.

28 novembre 2012 Grégory Petit

Lyon, 24/04/2007 Ce que l'application a besoin de connaître: Paramètres physiques par scénario de 150 ans Nombre et numéro d'ordre des mois à effectuer.

Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue

31/01/2001Réunionn WP6-Y. Schutz (SUBATECH) 1 Simulation-Reconstruction ALICE Une application pour le TestBed 0 ?

2009 -Présentation CRM: Sautaux Claudine : 2 EE bil.

Yonel Grusson 1 SQL SERVER 2000 CLIENT/SERVEUR. Yonel Grusson 2 PLAN Présentation Installation Résultat de l'installation L'administration –Par le SQL.

EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.

9-mai-2006 Eric Lancon 1 Tier-1 et Ferme d’Analyse à Lyon Tier-1 de Lyon  Processing et stockage des données réelles  Stockage des données de simulations.

Évaluez votre système de production documentaire en 7 minutes.

Réunion LCG-France, 7/4/2008 C.Charlot Acc è s aux donn é es Accès à dCache Problèmes de stageout des fichiers produits sur les WNs  Aussi pour le stagein.

Calcul CMS: bilan 2008 C. Charlot / LLR LCG-DIR mars 2009.

Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.

Module 3 : Création d'un domaine Windows 2000

Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.

CAF-13/09/2010Luc1 Squad Report T2 Période 19/06-11/09 Irena, Sabine, Emmanuel.

Le noeud de grille Tier 3 LAPP.

Service Challenge 4 – Tests de Débit Bilan pour le Tier-1 LCG-France Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3

Calorimètres électromagnétiques et hadroniques

Production DC2 ATLAS David Bouvet LHC Calcul 22 juillet 2004.

Palaiseau Réunion CCIN2P3/LCG 22/07/2004 Distribution des données CMS Distribution des données et préparation de l’analyse Production MC distribuée et.

L’Overclocking* Perdre de très nombreuses heures pour tenter de gagner quelques millisecondes…

Support applicatif Tier-2 au LAPP Sabine Elles, Gaël Rospabé LCG France, Annecy

Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.

Recapitulatif des sujets abordés Frédérique Chollet Fabio Hernandez Fairouz Malek Réunion LCG-France Tier-2s & Tier-3s Paris, 20 mars 2008.

ATLAS Ghita Rahal CC-IN2P3 Novembre 9, /6/2006Réunion CAF2 Activités Création et externalisation d’outils de monitoring de l’état du T1 (CPU,

1 Activités top au CPPM Permanents: F. Hubaut, E. Monnier, P. Pralavorio Thésard: B. Resende Visiteur: C. Zhu  : polarisation du W et du top.

LHCb DC06 status report (LHCb Week, 13/09/06) concernant le CC : –Site currently fine / stable 3% of simulatated events 30% of reconstructed events –Site.

Gestion et traitement des demandes de service

Calcul pour le spatial & le CC-IN2P3 Jean-Yves Nief (CC-IN2P3)

D0 côté info D0 à FNAL  Données du RunII  Infrastructure matérielle  Infrasturucture logicielle  Monte Carlo à D0 D0 à Lyon  Production Monte Carlo.

ECR (Efficient Consumer Response)

29 mars 2006J-P Meyer1 Evaluation des besoins en infrastructures et réseau  Evaluation des besoins en infrastructures  Evaluation des besoins réseau.

GRIF Status Michel Jouvin LAL/Orsay

PetaSky: Expérimentations avec HadoopDB et Hive 1 Amin Mesmoudi.

BaBar France 18/01/2010 Vincent Poireau 1 Page d’aide :

Système local d’accounting de l’IPHC 31/05/2011 Eric Kieffer.

5 mai 2008J-P Meyer1 Eléments de réflexion pour une ressource d’analyse - Trois exemples de travaux d’analyses effectuées à l’IRFU dans ATLAS: 1) AOD –>

Mardi 31 mai 2016 JJS (Java Job Submission) Soumission de jobs sur grille Pascal Calvat Centre de calcul.

BABAR Georges Vasseur CEA Saclay, DSM/IRFU/SPP Workshop sur l’analyse des données au centre de calcul de Lyon 17 avril 2008.

Eric Lançon1 Calcul ATLAS en France Le CAF au PAF * CAF : Calcul Atlas France *Célèbre contrepèterie.

11/9/07-PAFL.Poggioli/LAL1/25 Gestion des données : DDM Distributed Data Management Préambule Le modèle ATLAS DDM –Principe, Tests, Suivi, Problèmes Next.

ATLAS et l’analyse au CCIN2P3  Le modèle de calcul de ATLAS  L’analyse à Lyon  Points critiques Avertissement : cette présentation n’est malheureusement.

LCG-France Edith Knoops CPPM. Le LHC LEP LHC > 95% UNKNOWN STUFF OUT THERE > 95% UNKNOWN STUFF OUT THERE Black hole 3.

Grid au LAL Michel Jouvin LAL / IN2P3

CAF LCG-FRANCE A.Rozanov LCG France 22 Juillet SOMMAIRE Composition CAF DC2 ATLAS Demandes fin 2004.

Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue

6-7 Octobre 2008J-P MEYER1 Conclusions du groupe de travail thématique 7 Physique subatomique: - physique des particules, - physique nucléaire, - astroparticules.

C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.

Configuration des sites Intérêt de la mutualisation ! Existant avec Quattor Tendance Puppet Discussion.

Projet LCG: Vue d’Ensemble Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3 Rencontre IN2P3/STIC Grenoble, 25.

1er septembre 2005J-P Meyer1 Statut du projet GRIF (Grille de Recherche d’Île de France) Rappel du projet But: Mettre en place une ressource d’analyse.

Fabio Hernandez Lyon, 9 novembre 2006 LCG-France Tier-1 Réunion de Coordination.

Réunion des sites LCG France- Marseille juin ACTIVITES DU GROUPE ACCOUNTING FRANCE GRILLES Cécile Barbier (LAPP)

20-mars-2008Eric Lançon1 Activités ATLAS sur le nuage Français Emprunts a K. Bernardet, C. Biscarat, S. Jezequel, G. Rahal.

Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.

F. DERUE, Réunion des sites LCG France, LPNHE, 20 mars Historique et but 2. Projet scientifique 3. Projet technique 4. Suivi des productions.

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.

CALCUL ATLAS LCG France (CC IN2P3 Lyon) 30 Avril SOMMAIRE Data Challenge 2 (DC2) d’ATLAS Utilisation du CC IN2P3.

05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.

Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC

Jobs ATLAS sur la grille

Transcription de la présentation:

1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo dans ATLAS Contributions de la France Performances de la production sur le nuage français Conclusion: les bénéfices de cet effort

2 Production Monte-Carlo, qu’est-ce que c’est ? Simulation (avec Geant4 ou ATLFAST) d’événements (single  jusqu’à événements de physique complets avec pileup, etc) Un dataset = un ensemble d’événements (indépendants) du même type. Exemples: – singlepart_e_Et10 – PythiaZee Plusieurs étapes éventuellement nécessaires: – Génération (éventuellement à partir de fichiers d’entrée) – Simulation complète (  HITs) ou ATLFAST – Digitisation (éventuellement ajout de hits de minimum bias) (  RDOs) – Reconstruction: production de ESDs, AODs, … – Merging, production de TAGs Jobs regroupés en « tâches ». Exemple: simulation de événements d’un dataset donné = 2000 jobs de 50 événements

3 Organisation de la production: pourquoi ? Temps nécessaire pour la simulation complète d’un événement (H  4l par exemple) ~ 1000 kSI2k.s ~ 15 minutes Limitation de la durée des jobs à 24 heures  simulation = jobs de 50 événements événements (~ données CSC): –10 6 jobs –> jours de calcul –> 200 To (HITs + RDOs)  nécessité de gérer: – La définition des tâches et des jobs – La distribution des jobs, le monitoring – Les erreurs, la relance des jobs – La récupération et la distribution des données (*) 1 kSI2k = 1 P4 à 2.8 GHz Système de production DDM

4 Organisation de la production Database de production Catalogues de fichiers Processing des tâches, stockage des fichiers par nuage Les « exécuteurs » (scripts python) peuvent processer tous les jobs de toutes les tâches Les CEs d’un nuage peuvent recevoir des jobs de toutes les tâches / exécuteurs Depuis Novembre 2006, l’exécuteur français s’occupe (seul) des tâches attribuées à FR (Tentative similaire d’exécuteur allemand) Plusieurs types d’exécuteurs sans (Condor) ou avec (Panda, Cronus) jobs pilotes Définition des tâches OSGNDGFEGEE FRIT DE Autres exécuteurs Exécuteur français Computing Elements (CE) sur la grille Ian Hinchliffe, Borut Kersevan, 1 personne par groupe de physique Définition des jobs Scripts de Pavel Nevski Simone Campana Rod Walker « Shifteurs » production ~ 35% ~ 10%~ 55% Liste des tâches en cours

5 La database de production Base de données Oracle au CERN Pour la production, 3 tables principales: – ETASK: pour chaque tâche: Numéro, nom, CPU/RAM nécessaires, version et paramètres du soft, nuage, priorité … – EJOBDEF: pour chaque job: Numéro, état d’avancement (TOBEDONE, PENDING, RUNNING, DONE, FAILED, ABORTED,…), nombre maximum d’essais, paramètres du job,… – EJOBEXE: pour chaque essai de chaque job: numéro de l’essai, état, code d’erreur, exécuteur, CE, CPU utilisé,…

6 Historique de la contribution française Printemps 2006: installation d’un exécuteur à Saclay (M.Boonekamp, J.S.) – Profiter des trous dans la production centralisée pour augmenter la statistique des datasets existants – Augmenter le remplissage des CEs français  améliorer la contribution de la France Automne 2006: transfert de l’exécuteur à Lyon (G.Stoicea, Clermont-Ferrand + support CC)  tous les labos français peuvent contribuer DC2 + Rome (07/2004  06/2005) France: 7% (Italie: 25%, RU: 16%, Espagne: 10%)

7 L’exécuteur français Doc: bin/twiki/bin/view/Atlas/ProdSysLyon (merci à Frédéric) bin/twiki/bin/view/Atlas/ProdSysLyon Ensemble de scripts python: –Tourne sur une machine dédiée –Récupère dans la prodDB la liste des jobs à processer parmi les tâches FR –Lance les jobs sur la grille via condor (jusqu’à 5000 jobs en queue, 1500 running…) –Gère la fin des jobs Est opéré par: – K.Bernardet, F. Derue, S.Laplace, L.Poggioli, J.S. – Une personne à la fois, pendant ~ un mois – Mailing liste:

8 Le travail des « shifteurs » Surveillent le fonctionnement de condor, de l’exécuteur, l’envoi régulier de jobs Suivent la progression des tâches FR (qques dizaines en //) Jobs re-soumis automatiquement 3 fois, au-delà: –Vérifier les causes d’échecs –Relancer si problème temporaire résolu (communication avec les sites) –Avorter si problème permanent Savannah bug report elog LCG Production Communication avec atlas-lcg- production, R.Walker, S.Campana

9 Les outils de monitoring Utilisation du monitoring ATLAS: – s/GROUPS/SOFTWARE/O O/php/DbAdmin/Ora/php /proddb/monitor/JobInf o.phphttp://atlas.web.cern.ch/Atla s/GROUPS/SOFTWARE/O O/php/DbAdmin/Ora/php /proddb/monitor/JobInf o.php Développement d’outils pour le suivi de la prod en France: – saclay.in2p3.fr/prod/ saclay.in2p3.fr/prod/ Suivi du nombre de jobs au CC: – ser/mrtguser/atlas/atlaspro d.htmlhttp://cctools.in2p3.fr/mrtgu ser/mrtguser/atlas/atlaspro d.html

10 Nombre de jobs sur le nuage français Début prod CSC : 9%2007: 15% ~ jours de CPU consommés en 2007  560 jobs en // en moyenne dont jours perdus (Jobs failed) Nombre de jobs / mois Nuage Français / ATLAS Limite = espace disque

11 Répartition des jobs sur le nuage français en 2007 Tous les sites contribuent Lyon ~ 1/3 des jobs

12 Performances de la production sur le nuage français Augmentation de l’efficacité d’ATLAS grâce à: –Version 12 stable –Grille stable –Meilleure organisation de la production sur EGEE (X. Espinal) Exécuteur français: – Phase d’apprentissage en 2006 – Efficacité >> EGEE en 2007 grâce à: Relations avec le CC et avec les T2/T3 Nombre de tâches / sites Travail des shifteurs ATLAS (EGEE + OSG + NDGF) Nuage FR Efficacité production EGEE

13 Types d’erreurs (ensemble des jobs 2007) Presque la moitié des problèmes dus à l’accès aux fichiers Bugs ATHENA ~ 9% des erreurs (~ 3% des jobs passés en 2007) Problème local sur un CE  contact avec les sites Fichier d’entrée indisponible Réplique vérolée Bug ATHENA Fichier perdu Problème local sur un CE

14 Les expériences LHC vues par EGEE

15 Conclusion: cet effort est-il utile ? Contribuer à la production MC nous a permis: –De mieux utiliser le CPU disponible (encore auto-limité par ATLAS par la taille des evts) –D’améliorer la participation de la France à la production ATLAS –De contribuer à améliorer l’efficacité des jobs ATLAS (compréhension des problèmes internes) et de la grille française (rapprochement avec les informaticiens) Nous permet également (ponctuellement) de demander l’ attribution de certaines tâches à la France et de favoriser le passage des jobs de ces tâches  données plus proches plus rapidement

16