La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo.

Présentations similaires


Présentation au sujet: "1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo."— Transcription de la présentation:

1 1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo dans ATLAS Contributions de la France Performances de la production sur le nuage français Conclusion: les bénéfices de cet effort

2 2 Production Monte-Carlo, qu’est-ce que c’est ? Simulation (avec Geant4 ou ATLFAST) d’événements (single  jusqu’à événements de physique complets avec pileup, etc) Un dataset = un ensemble d’événements (indépendants) du même type. Exemples: –007000.singlepart_e_Et10 –005144.PythiaZee Plusieurs étapes éventuellement nécessaires: – Génération (éventuellement à partir de fichiers d’entrée) – Simulation complète (  HITs) ou ATLFAST – Digitisation (éventuellement ajout de hits de minimum bias) (  RDOs) – Reconstruction: production de ESDs, AODs, … – Merging, production de TAGs Jobs regroupés en « tâches ». Exemple: simulation de 100 000 événements d’un dataset donné = 2000 jobs de 50 événements

3 3 Organisation de la production: pourquoi ? Temps nécessaire pour la simulation complète d’un événement (H  4l par exemple) ~ 1000 kSI2k.s ~ 15 minutes Limitation de la durée des jobs à 24 heures  simulation = jobs de 50 événements 50 10 6 événements (~ données CSC): –10 6 jobs –> 300000 jours de calcul –> 200 To (HITs + RDOs)  nécessité de gérer: – La définition des tâches et des jobs – La distribution des jobs, le monitoring – Les erreurs, la relance des jobs – La récupération et la distribution des données (*) 1 kSI2k = 1 P4 à 2.8 GHz Système de production DDM

4 4 Organisation de la production Database de production Catalogues de fichiers Processing des tâches, stockage des fichiers par nuage Les « exécuteurs » (scripts python) peuvent processer tous les jobs de toutes les tâches Les CEs d’un nuage peuvent recevoir des jobs de toutes les tâches / exécuteurs Depuis Novembre 2006, l’exécuteur français s’occupe (seul) des tâches attribuées à FR (Tentative similaire d’exécuteur allemand) Plusieurs types d’exécuteurs sans (Condor) ou avec (Panda, Cronus) jobs pilotes Définition des tâches OSGNDGFEGEE FRIT DE Autres exécuteurs Exécuteur français Computing Elements (CE) sur la grille Ian Hinchliffe, Borut Kersevan, 1 personne par groupe de physique Définition des jobs Scripts de Pavel Nevski Simone Campana Rod Walker « Shifteurs » production https://twiki.cern.ch/twiki/bin/view/Atlas/ComputingOperations ~ 35% ~ 10%~ 55% Liste des tâches en cours

5 5 La database de production Base de données Oracle au CERN Pour la production, 3 tables principales: – ETASK: pour chaque tâche: Numéro, nom, CPU/RAM nécessaires, version et paramètres du soft, nuage, priorité … – EJOBDEF: pour chaque job: Numéro, état d’avancement (TOBEDONE, PENDING, RUNNING, DONE, FAILED, ABORTED,…), nombre maximum d’essais, paramètres du job,… – EJOBEXE: pour chaque essai de chaque job: numéro de l’essai, état, code d’erreur, exécuteur, CE, CPU utilisé,…

6 6 Historique de la contribution française Printemps 2006: installation d’un exécuteur à Saclay (M.Boonekamp, J.S.) – Profiter des trous dans la production centralisée pour augmenter la statistique des datasets existants – Augmenter le remplissage des CEs français  améliorer la contribution de la France Automne 2006: transfert de l’exécuteur à Lyon (G.Stoicea, Clermont-Ferrand + support CC)  tous les labos français peuvent contribuer DC2 + Rome (07/2004  06/2005) France: 7% (Italie: 25%, RU: 16%, Espagne: 10%)

7 7 L’exécuteur français Doc: https://atlas-france.in2p3.fr/cgi- bin/twiki/bin/view/Atlas/ProdSysLyon (merci à Frédéric)https://atlas-france.in2p3.fr/cgi- bin/twiki/bin/view/Atlas/ProdSysLyon Ensemble de scripts python: –Tourne sur une machine dédiée –Récupère dans la prodDB la liste des jobs à processer parmi les tâches FR –Lance les jobs sur la grille via condor (jusqu’à 5000 jobs en queue, 1500 running…) –Gère la fin des jobs Est opéré par: – K.Bernardet, F. Derue, S.Laplace, L.Poggioli, J.S. – Une personne à la fois, pendant ~ un mois – Mailing liste: atlas-prod@in2p3.fr

8 8 Le travail des « shifteurs » Surveillent le fonctionnement de condor, de l’exécuteur, l’envoi régulier de jobs Suivent la progression des tâches FR (qques dizaines en //) Jobs re-soumis automatiquement 3 fois, au-delà: –Vérifier les causes d’échecs –Relancer si problème temporaire résolu (communication avec les sites) –Avorter si problème permanent Savannah bug report elog LCG Production Communication avec atlas-lcg- production, R.Walker, S.Campana

9 9 Les outils de monitoring Utilisation du monitoring ATLAS: –http://atlas.web.cern.ch/Atla s/GROUPS/SOFTWARE/O O/php/DbAdmin/Ora/php- 4.3.4/proddb/monitor/JobInf o.phphttp://atlas.web.cern.ch/Atla s/GROUPS/SOFTWARE/O O/php/DbAdmin/Ora/php- 4.3.4/proddb/monitor/JobInf o.php Développement d’outils pour le suivi de la prod en France: –http://atlas- saclay.in2p3.fr/prod/http://atlas- saclay.in2p3.fr/prod/ Suivi du nombre de jobs au CC: –http://cctools.in2p3.fr/mrtgu ser/mrtguser/atlas/atlaspro d.htmlhttp://cctools.in2p3.fr/mrtgu ser/mrtguser/atlas/atlaspro d.html

10 10 Nombre de jobs sur le nuage français Début prod CSC 12 2006: 9%2007: 15% ~ 136000 jours de CPU consommés en 2007  560 jobs en // en moyenne dont 12000 jours perdus (Jobs failed) Nombre de jobs / mois Nuage Français / ATLAS Limite = espace disque

11 11 Répartition des jobs sur le nuage français en 2007 Tous les sites contribuent Lyon ~ 1/3 des jobs

12 12 Performances de la production sur le nuage français Augmentation de l’efficacité d’ATLAS grâce à: –Version 12 stable –Grille stable –Meilleure organisation de la production sur EGEE (X. Espinal) Exécuteur français: – Phase d’apprentissage en 2006 – Efficacité >> EGEE en 2007 grâce à: Relations avec le CC et avec les T2/T3 Nombre de tâches / sites Travail des shifteurs ATLAS (EGEE + OSG + NDGF) Nuage FR Efficacité production EGEE

13 13 Types d’erreurs (ensemble des jobs 2007) Presque la moitié des problèmes dus à l’accès aux fichiers Bugs ATHENA ~ 9% des erreurs (~ 3% des jobs passés en 2007) Problème local sur un CE  contact avec les sites Fichier d’entrée indisponible Réplique vérolée Bug ATHENA Fichier perdu Problème local sur un CE

14 14 Les expériences LHC vues par EGEE http://www3.egee.cesga.es/gridsite/accounting/CESGA/egee_view.html

15 15 Conclusion: cet effort est-il utile ? Contribuer à la production MC nous a permis: –De mieux utiliser le CPU disponible (encore auto-limité par ATLAS par la taille des evts) –D’améliorer la participation de la France à la production ATLAS –De contribuer à améliorer l’efficacité des jobs ATLAS (compréhension des problèmes internes) et de la grille française (rapprochement avec les informaticiens) Nous permet également (ponctuellement) de demander l’ attribution de certaines tâches à la France et de favoriser le passage des jobs de ces tâches  données plus proches plus rapidement

16 16


Télécharger ppt "1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo."

Présentations similaires


Annonces Google