Intégration du système de production LHCb sur la DataGRID V. Garonne, CPPM, Marseille Réunion DataGRID France, 13 fv fév. 2003
Contents Contexte et motivations Contexte et motivations Lapplication de production Lapplication de production Le passage à la grille Le passage à la grille Perspectives et conclusions Perspectives et conclusions
Contexte:
Motivations Lexpérience LHCb: Etude précise de la violation de CP dans tous les couples "particule-antiparticule" contenant un quark beau (mésons beaux) lors des collisions proton-proton. Etude précise de la violation de CP dans tous les couples "particule-antiparticule" contenant un quark beau (mésons beaux) lors des collisions proton-proton. Ses caractéristiques : Ses caractéristiques : De gros volumes de données à analyser (de lordre de 1.3 petaoctets par an). Les utilisateurs sont répartis sur lEurope (500 sur 20 sites). Les moyens de calculs et de stockages sont eux aussi répartis sur lEurope. La simulation du détecteur La simulation du détecteur La production de données
Job flow Gauss - v5 GenTag v7 Gauss - v5 Brunel - v12 Gauss - v5 Brunel - v12 Pythia – v2 Execution Flow (Jobs) 1) Generation 2) Simulation 3)Reconstruct 4) Analyze Work Flow
Les contraintes de lapplication de production Dépendances à des softwares Dépendances à des softwares Les versions évoluent rapidement En sortie : En sortie : Fichiers de données de plusieurs types A stocker dans des endroits différents Forte exigence en puissance CPU et mémoire virtuelle Forte exigence en puissance CPU et mémoire virtuelle
Architecture Standard Edit Prod.Mgr Work flow Editor Production Editor Instantiate Workflow Job request Status updates Production Agent Production data Scripts Production DB Production Server Bookkeeping info Bookkeeping Updates
Le passage à la grille Principe : utiliser la grille comme un autre centre de production Application déjà orientée grille Application déjà orientée grille Utilisation de peu doutils de la grille. Utilisation de peu doutils de la grille. Lenvironnement sécurisé Tolérances aux pannes et stabilité du système Service de soumission/contrôle de tâches Génération du fichier de description de tâche Sécuriser laccès au serveur de production Sécuriser laccès au serveur de production Installation de lenvironnement LHCb « à la volée » : Installation de lenvironnement LHCb « à la volée » : Dans le Storage Element Dans le répertoire courant
Architecture de production avec la DataGRID Edit Prod.Mgr Work flow Editor Production Editor Instantiate Workflow Job request Status updates DataGRID CE Production data Scripts Production DB Production Server Bookkeeping info Bookkeeping Updates Input sandbox: Job+ProdAgent DataGRID Agent
Production agent n Job Batch farm Production Agent bbftp Storage Castor Job request Job status update Bookkeeping info Production center Submit job Log files Histo files Data files Transfer data BK files Check data Software installation Job status update
Comportement de lagent 1.Extrait le script de la tâche de « l Input Sandbox » Ou : 2.Demande le(s) script(s) au serveur de production; Vérifie lenvironnement: installe les softwares manquants si nécessaire; 3.Exécute la production sur le nœud de travail, informe le serveur de production 4.Effectue le « bookkeeping » pour la tâche finie: Mise à jour de la base de données « bookkeeping »; Transfère les fichiers de log et les histogrammes de monitoring; Transfère les fichiers de données vers un système de stockage; En cas de succès met à jour « bookkeeping »; Utilisation de BBFTP
Plan de test Durée de la phase de test ~10 jours Durée de la phase de test ~10 jours ~ jobs ~ jobs ~6 min. par événement (evts) ~6 min. par événement (evts) 3 sortes de jobs : 50 evts, 150 evts, 500 evts 3 sortes de jobs : 50 evts, 150 evts, 500 evts Paramètres de soumission (séquencement des soumissions, nombre de RB) Paramètres de soumission (séquencement des soumissions, nombre de RB) Mesures et statistiques: Mesures et statistiques: Nombre de jobs réussis Nombre de jobs échoués Classification Pourcentage Statistique par site
Interface de production
Perspectives Test des outils EDG Test des outils EDG Gestion des données (GDMP, Replica catalog, gridftp) Gestion des données (GDMP, Replica catalog, gridftp) Rendre ces données disponibles en dehors du contexte DataGRID Rendre ces données disponibles en dehors du contexte DataGRID Parallélisation dun job (DAG Manager) Parallélisation dun job (DAG Manager) Job monitoring services processes (WP3) Job monitoring services processes (WP3) Certificat spécifique pour les jobs de production ? Correction automatique et dynamique de lordonnanceur Correction automatique et dynamique de lordonnanceur
Conclusion Incorporation de lEDG dans le système de production LHCb Incorporation de lEDG dans le système de production LHCb Utilisation minimaliste des prestations de EDG Utilisation minimaliste des prestations de EDG Plans pour tester les autres outils Plans pour tester les autres outils Les tests de tâche de production sont en cours… Les tests de tâche de production sont en cours…