La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Jobs ATLAS sur la grille

Présentations similaires


Présentation au sujet: "Jobs ATLAS sur la grille"— Transcription de la présentation:

1 Jobs ATLAS sur la grille
J. Schwindling CEA Saclay Installation du software ATLAS Type de jobs Production Monte-Carlo: qui fait quoi ? système de production monitoring des jobs

2 Software ATLAS En principe installation + validation automatiques
Versions installées visibles sur De temps en temps nettoyage centralisé des versions anciennes, mais chaque CE peut demander le maintien de certaines versions Installation sous $VO_ATLAS_SW_DIR: si vous changez cette variable, il ne suffit PAS de déplacer les répertoires

3 Types de jobs ATLAS « Jobs d’analyse » des utilisateurs (lisent les « AODs » pour produire des « ntuples » après filtrage): Jobs rapides et relativement peu nombreux: queues courtes, passer en priorité, responsabilité de chaque CE, problèmes de réseau interne ? Simulation Monte-Carlo de collisions pp (= « événements »): Pas (ou peu) de production Monte-Carlo privée: Problème de reproductibilité, de gestion des données Utilisation « non-contrôlée » des ressources Responsable de la production dans chaque groupe de physique  La plus grosse partie de la production faite de façon centralisée Jobs regroupés en « tâches » (1 à jobs): Génération: 5000 événements/jobs, rapides Simulation/Digitisation: 50 événements / job, ~ 15 minutes/evt Reconstruction: 250 événements/job

4 Qui fait quoi ? Processing des tâches, stockage des fichiers par nuage T1/T2 ~ 5 « exécuteurs » (scripts python) peuvent processer tous les jobs de toutes les tâches (pas FR depuis Novembre) Depuis Novembre, l’exécuteur français s’occupe (seul) des tâches françaises Jobs des tâches FR passent surtout sur les sites du nuage FR, mais pas seulement Inversement, les sites français reçoivent des jobs des autres tâches / exécuteurs Database de production Catalogues de fichiers Définition des tâches (Ian Hinchliffe, Borut Kersevan, 1 personne par groupe de physique) OSG NorduGrid LCG Simone Campana, Rod Walker FR IT DE Autres exécuteurs Exécuteur français CEs LCG

5 L’exécuteur français Tourne à Lyon sur cclcgatlas02
Fait le lien entre la database de production et la grille: Récupère les jobs à processer (‘TOBEDONE’) et leurs besoins (version du soft ATLAS, durée CPU, RAM, …) en respectant les priorités (internes) définies par ATLAS Envoie les jobs sur la grille via condorg.cern.ch Vérifie l’état d’avancement des jobs Jobs terminés: vérifie code d’erreur, stocke dans la DB de production ( monitoring), envoie les requêtes pour répliquer les fichiers de sortie sur le T1 Typiquement: 25 tâches actives à un instant donné 3000 – 5000 jobs dans condor, 1000 à 2000 running Est ‘opéré’ par Sandrine Laplace, Frédéric Derue, Luc Poggioli, JS (un à la fois pendant 3-4 semaines)

6 Quelques aspects techniques
Ranking des sites: L’exécuteur français utilise désormais *(site  FR) + 10*glueceinfototalcpus Limite à gluecestatewaitingjobs < (10+5*GlueCEStateRunningJobs) Rôle production: Pour la priorité des jobs et les droits d’écriture dans les catalogues LFC En pratique, besoin d’un « certificat avec rôle production » fixe tant que des jobs sont en queue Certificat avec durée > 3-4 semaines Renouvellement régulier du proxy production en utilisant le certificat long Blacklisting des sites: Automatique par l ’exécuteur quand FAILED/TOTAL > 90% (problème au démarrage), relâche automatiquement des jobs après un certain temps A la main quand un site a un problème connu

7 Monitoring Monitoring officiel ATLAS: Permet de vérifier l’efficacité de notre exécuteur, de vérifier la raison des jobs ‘FAILED’ (et d’accéder à leurs logfiles) Permet de surveiller l’efficacité par tâche ( tâche mal définies) Permet de surveiller l’efficacité par site FR production manager: Liste et état d’avancement des tâches FR FR production monitoring: Statistiques au cours du temps

8 Exemple monitoring ATLAS
En situation stable: Efficacité ~ 70-80% 2/3 des plantages = problèmes de stagein jobs re-essayés Efficacité de votre site Erreurs sur votre site

9 Statistiques production française

10 En résumé L’essentiel des (gros) jobs ATLAS sur la grille sont de la production centralisée Effort des physiciens français pour participer à cette production  exécuteur français Meilleure communication avec les CEs du nuage Nombre limité de tâches (en particulier) tâches utiles pour les groupes français Principale leçon jusqu’ici: très difficile d’avoir une situation stable Différents types de jobs ATLAS, nouvelles versions du software, transferts fichiers… Problèmes variés sur les CE… Evolution du système de production ATLAS vers jobs pilotes À tester prochainement Meilleure efficacité Pas encore fonctionnement de routine


Télécharger ppt "Jobs ATLAS sur la grille"

Présentations similaires


Annonces Google