Jobs ATLAS sur la grille J. Schwindling CEA Saclay Installation du software ATLAS Type de jobs Production Monte-Carlo: qui fait quoi ? système de production monitoring des jobs
Software ATLAS En principe installation + validation automatiques Versions installées visibles sur https://atlas-install.roma1.infn.it/atlas_install/list.php De temps en temps nettoyage centralisé des versions anciennes, mais chaque CE peut demander le maintien de certaines versions Installation sous $VO_ATLAS_SW_DIR: si vous changez cette variable, il ne suffit PAS de déplacer les répertoires
Types de jobs ATLAS « Jobs d’analyse » des utilisateurs (lisent les « AODs » pour produire des « ntuples » après filtrage): Jobs rapides et relativement peu nombreux: queues courtes, passer en priorité, responsabilité de chaque CE, problèmes de réseau interne ? Simulation Monte-Carlo de collisions pp (= « événements »): Pas (ou peu) de production Monte-Carlo privée: Problème de reproductibilité, de gestion des données Utilisation « non-contrôlée » des ressources Responsable de la production dans chaque groupe de physique La plus grosse partie de la production faite de façon centralisée Jobs regroupés en « tâches » (1 à 40000 jobs): Génération: 5000 événements/jobs, rapides Simulation/Digitisation: 50 événements / job, ~ 15 minutes/evt Reconstruction: 250 événements/job
Qui fait quoi ? Processing des tâches, stockage des fichiers par nuage T1/T2 ~ 5 « exécuteurs » (scripts python) peuvent processer tous les jobs de toutes les tâches (pas FR depuis Novembre) Depuis Novembre, l’exécuteur français s’occupe (seul) des tâches françaises Jobs des tâches FR passent surtout sur les sites du nuage FR, mais pas seulement Inversement, les sites français reçoivent des jobs des autres tâches / exécuteurs Database de production Catalogues de fichiers Définition des tâches (Ian Hinchliffe, Borut Kersevan, 1 personne par groupe de physique) OSG NorduGrid LCG Simone Campana, Rod Walker FR IT DE Autres exécuteurs Exécuteur français CEs LCG
L’exécuteur français Tourne à Lyon sur cclcgatlas02 Fait le lien entre la database de production et la grille: Récupère les jobs à processer (‘TOBEDONE’) et leurs besoins (version du soft ATLAS, durée CPU, RAM, …) en respectant les priorités (internes) définies par ATLAS Envoie les jobs sur la grille via condorg.cern.ch Vérifie l’état d’avancement des jobs Jobs terminés: vérifie code d’erreur, stocke dans la DB de production ( monitoring), envoie les requêtes pour répliquer les fichiers de sortie sur le T1 Typiquement: 25 tâches actives à un instant donné 3000 – 5000 jobs dans condor, 1000 à 2000 running Est ‘opéré’ par Sandrine Laplace, Frédéric Derue, Luc Poggioli, JS (un à la fois pendant 3-4 semaines)
Quelques aspects techniques Ranking des sites: L’exécuteur français utilise désormais 100000*(site FR) + 10*glueceinfototalcpus Limite à gluecestatewaitingjobs < (10+5*GlueCEStateRunningJobs) Rôle production: Pour la priorité des jobs et les droits d’écriture dans les catalogues LFC En pratique, besoin d’un « certificat avec rôle production » fixe tant que des jobs sont en queue Certificat avec durée > 3-4 semaines Renouvellement régulier du proxy production en utilisant le certificat long Blacklisting des sites: Automatique par l ’exécuteur quand FAILED/TOTAL > 90% (problème au démarrage), relâche automatiquement des jobs après un certain temps A la main quand un site a un problème connu
Monitoring Monitoring officiel ATLAS: http://atlas-php.web.cern.ch/atlas-php/DbAdmin/Ora/php-4.3.4/proddb/monitor/JobInfo.php Permet de vérifier l’efficacité de notre exécuteur, de vérifier la raison des jobs ‘FAILED’ (et d’accéder à leurs logfiles) Permet de surveiller l’efficacité par tâche ( tâche mal définies) Permet de surveiller l’efficacité par site FR production manager: http://atlas-saclay.in2p3.fr/prod/ Liste et état d’avancement des tâches FR FR production monitoring: http://atlas-saclay.in2p3.fr/eln/ Statistiques au cours du temps
Exemple monitoring ATLAS En situation stable: Efficacité ~ 70-80% 2/3 des plantages = problèmes de stagein jobs re-essayés Efficacité de votre site Erreurs sur votre site
Statistiques production française
En résumé L’essentiel des (gros) jobs ATLAS sur la grille sont de la production centralisée Effort des physiciens français pour participer à cette production exécuteur français Meilleure communication avec les CEs du nuage Nombre limité de tâches (en particulier) tâches utiles pour les groupes français Principale leçon jusqu’ici: très difficile d’avoir une situation stable Différents types de jobs ATLAS, nouvelles versions du software, transferts fichiers… Problèmes variés sur les CE… Evolution du système de production ATLAS vers jobs pilotes À tester prochainement Meilleure efficacité Pas encore fonctionnement de routine