Jobs ATLAS sur la grille

Slides:



Advertisements
Présentations similaires
1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo.
Advertisements

Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Participation aux Webinars – Quelques consignes à suivre!
INFSO-RI Enabling Grids for E-sciencE Statistiques d'usage d'un site de la grille LCG/EGEE Emmanuel Medernach, IN2P3 LPC.
INFSO-RI Enabling Grids for E-sciencE Les enjeux des nouvelles applications C. Loomis (LAL-Orsay) Journées Informatiques (Lyon-Valpré)
CHAftITREI ARCHITECTURE de BASE. Modèle de Von Neumann Langage d’assemblage1 John Von Neumann est à l'origine d'un modèle de machine universelle de traitement.
Université de Nantes CHORD Vincent Trève. Introduction ● Problématique – Comment accéder efficacement aux données réparties sur un système pair à pair?
Présentation LabPlus v3. Solution novatrice en Technologies de l’information Solution novatrice en Technologies de l’information Application pour la Gestion.
Logiciel Assistant Gestion d’Événement Rémi Papillie (Chef d’équipe) Maxime Brodeur Xavier Pajani Gabriel Rolland David St-Jean.
LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL.
La mise en réseau des ordinateurs à l'école Sources : Educnet christian.caleca.free.fr.
Serveurs PingOO V4 Usages pédagogiques - - ATICE PASSY – Septembre
ALICE February/March exercise summary Latchezar Betev WLCG Collaboration Workshop 22 April 2008.
La technologie des mémoires
Banques – 26 mai 2016.
Groupe Départemental Langue française
DropBox Projet App’Ifa.
LE POINT DE VUE D’UN PHARMACIEN HOSPITALIER PRATIQUANT LES VALIDATIONS
Usine de Développement.
Une salle de contrôle AUGER au LPSC
Séminaire Novembre 2006 Zephir : Déploiement et supervision des serveurs Eole.
Gestion / utilisation des PLU
Fedora 26 Quelles nouveautés ? License CC-BY-SA.
AugerDb / SimDb Gestion des simulations Auger Java
Frédéric Galleazzi EN/ACE/INT
SECURITE DU SYSTEME D’INFORMATION (SSI)
Utilisation de la clé USB
Présentation J GUIRANDE.
Internet Un réseau virtuel qui assure l'interconnexion des différents réseaux physiques par l'intermédiaire de passerelles. Une pile de protocoles unique.
Virtualisation d’applications mobiles dans un réseau de Cloudlets
Les nouveautés dans les modèles de Calcul au LHC
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
Bienvenue à tous ... Réunion D0-France 2004
Etat des services grid de production
Activités présentes et à venir
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
Réunion coordination WLCG Lyon, le 13 mars 2008
Esabora.as Dématérialisation.
EGEE II Guy WORMSER LAL Orsay.
Un peu d’histoire : Origine du dispositif : Suède
Documentation technique (Linux)
Atelier régulation de la production dans un contexte grille
Résumé de la réunion PAF-CAF 12/04/2010
Bilan reprocessing données cosmiques Atlas
Production pour LHCb sur la grille
Formation sur les bases de données relationnelles.
Programmation Android Première application Android
Changements Finelts 2018 nouveau schémas XSD & écrans
Assembleur, Compilateur et Éditeur de Liens
Module 13 : Implémentation de la protection contre les sinistres
Mésocentre de calcul et de stockage ouvert sur la grille EGEE (MUST) LAPP/ Université de Savoie / EGEE.
FFPLUM Bilan de la sécurité des vols et de l’accidentologie
18 octobre 2007 Fonctionnement d’un ordinateur Achat d’un ordinateur
FORMATION SUR LE SERVICE DE DÉPANNAGE
Des données numériques aux résultats de physique
Lycée Jean-Jacques ROUSSEAU MONTMORENCY Comptabilité et Gestion
Michel Jouvin Comité des utilisateurs 14 Mai 2007
DC04 CMS Objectif Status Planning
La gestion des pilotes de périphériques
Réunion d’information interne
Efficacité des jobs CMS en 2010
Les différents modes de démarrage de Windows
Le D.R.P. - Quelques jours de fonctionnement
LCG – France et ALICE Bilan 2006 Planning fevrier 2007
Résumé des Actions Suite aux Réunions CB et MB
Dématérialisation des
Les données structurées et leur traitement
La loi des signes.
Transcription de la présentation:

Jobs ATLAS sur la grille J. Schwindling CEA Saclay Installation du software ATLAS Type de jobs Production Monte-Carlo: qui fait quoi ? système de production monitoring des jobs

Software ATLAS En principe installation + validation automatiques Versions installées visibles sur https://atlas-install.roma1.infn.it/atlas_install/list.php De temps en temps nettoyage centralisé des versions anciennes, mais chaque CE peut demander le maintien de certaines versions Installation sous $VO_ATLAS_SW_DIR: si vous changez cette variable, il ne suffit PAS de déplacer les répertoires

Types de jobs ATLAS « Jobs d’analyse » des utilisateurs (lisent les « AODs » pour produire des « ntuples » après filtrage): Jobs rapides et relativement peu nombreux: queues courtes, passer en priorité, responsabilité de chaque CE, problèmes de réseau interne ? Simulation Monte-Carlo de collisions pp (= « événements »): Pas (ou peu) de production Monte-Carlo privée: Problème de reproductibilité, de gestion des données Utilisation « non-contrôlée » des ressources Responsable de la production dans chaque groupe de physique  La plus grosse partie de la production faite de façon centralisée Jobs regroupés en « tâches » (1 à 40000 jobs): Génération: 5000 événements/jobs, rapides Simulation/Digitisation: 50 événements / job, ~ 15 minutes/evt Reconstruction: 250 événements/job

Qui fait quoi ? Processing des tâches, stockage des fichiers par nuage T1/T2 ~ 5 « exécuteurs » (scripts python) peuvent processer tous les jobs de toutes les tâches (pas FR depuis Novembre) Depuis Novembre, l’exécuteur français s’occupe (seul) des tâches françaises Jobs des tâches FR passent surtout sur les sites du nuage FR, mais pas seulement Inversement, les sites français reçoivent des jobs des autres tâches / exécuteurs Database de production Catalogues de fichiers Définition des tâches (Ian Hinchliffe, Borut Kersevan, 1 personne par groupe de physique) OSG NorduGrid LCG Simone Campana, Rod Walker FR IT DE Autres exécuteurs Exécuteur français CEs LCG

L’exécuteur français Tourne à Lyon sur cclcgatlas02 Fait le lien entre la database de production et la grille: Récupère les jobs à processer (‘TOBEDONE’) et leurs besoins (version du soft ATLAS, durée CPU, RAM, …) en respectant les priorités (internes) définies par ATLAS Envoie les jobs sur la grille via condorg.cern.ch Vérifie l’état d’avancement des jobs Jobs terminés: vérifie code d’erreur, stocke dans la DB de production ( monitoring), envoie les requêtes pour répliquer les fichiers de sortie sur le T1 Typiquement: 25 tâches actives à un instant donné 3000 – 5000 jobs dans condor, 1000 à 2000 running Est ‘opéré’ par Sandrine Laplace, Frédéric Derue, Luc Poggioli, JS (un à la fois pendant 3-4 semaines)

Quelques aspects techniques Ranking des sites: L’exécuteur français utilise désormais 100000*(site  FR) + 10*glueceinfototalcpus Limite à gluecestatewaitingjobs < (10+5*GlueCEStateRunningJobs) Rôle production: Pour la priorité des jobs et les droits d’écriture dans les catalogues LFC En pratique, besoin d’un « certificat avec rôle production » fixe tant que des jobs sont en queue Certificat avec durée > 3-4 semaines Renouvellement régulier du proxy production en utilisant le certificat long Blacklisting des sites: Automatique par l ’exécuteur quand FAILED/TOTAL > 90% (problème au démarrage), relâche automatiquement des jobs après un certain temps A la main quand un site a un problème connu

Monitoring Monitoring officiel ATLAS: http://atlas-php.web.cern.ch/atlas-php/DbAdmin/Ora/php-4.3.4/proddb/monitor/JobInfo.php Permet de vérifier l’efficacité de notre exécuteur, de vérifier la raison des jobs ‘FAILED’ (et d’accéder à leurs logfiles) Permet de surveiller l’efficacité par tâche ( tâche mal définies) Permet de surveiller l’efficacité par site FR production manager: http://atlas-saclay.in2p3.fr/prod/ Liste et état d’avancement des tâches FR FR production monitoring: http://atlas-saclay.in2p3.fr/eln/ Statistiques au cours du temps

Exemple monitoring ATLAS En situation stable: Efficacité ~ 70-80% 2/3 des plantages = problèmes de stagein jobs re-essayés Efficacité de votre site Erreurs sur votre site

Statistiques production française

En résumé L’essentiel des (gros) jobs ATLAS sur la grille sont de la production centralisée Effort des physiciens français pour participer à cette production  exécuteur français Meilleure communication avec les CEs du nuage Nombre limité de tâches (en particulier) tâches utiles pour les groupes français Principale leçon jusqu’ici: très difficile d’avoir une situation stable Différents types de jobs ATLAS, nouvelles versions du software, transferts fichiers… Problèmes variés sur les CE… Evolution du système de production ATLAS vers jobs pilotes À tester prochainement Meilleure efficacité Pas encore fonctionnement de routine