11/9/07-PAFL.Poggioli/LAL1/25 Gestion des données : DDM Distributed Data Management Préambule Le modèle ATLAS DDM –Principe, Tests, Suivi, Problèmes Next L. Poggioli
11/9/07-PAFL.Poggioli/LAL2/25 Préambule Ce talk devrait être donné par S. Jézéquel – Il possède la compétence, connaissance, expertise, suivi, depuis le début Stéphane est maintenant responsable de ATLAS Data Placement Il transmet son savoir à M. Ridel & LP –Mélissa : opérations de suivi, cleaning (scripts) –LP : Data placement pour le nuage français Mille mercis à –Stéphane, Mélissa, Eric, Alexei Klimentov (CERN DDM)
11/9/07-PAFL.Poggioli/LAL3/25 Le modèle ATLAS (1) A.Farbin/UTA Cf. Stathis Today ESD~1MB/evt
11/9/07-PAFL.Poggioli/LAL4/25 Le modèle ATLAS (2) A.Farbin/UTA 40+ sites Worldwide
11/9/07-PAFL.Poggioli/LAL5/25 Le principe Règle de base : Calculer où sont les données Optimiser les ressources de calcul –CE (Computing Elements) via la GRILLE Optimiser les ressources de stockage –SE (Storage Elements) –Distribution des données via DDM Outils d’analyse distribuée : GANGA/PANDA –Sur AOD : Pas de problème –Sur ESD : Difficile à grande échelle Gros fichier -> moins de réplications Doit se faire au niveau T1 (OK pour Lyon avec AF) –Mais pas toutes les T1 (sauf BNL ?). A suivre
11/9/07-PAFL.Poggioli/LAL6/25 Production des données Tier-0 (CERN) –Production des ESD/AOD : données ATLAS, cosmiques (M4) Tier-1 –Reprocessing de ses propres RAW Reproduit ESD/AOD associées –Production Monte-Carlo –Analyse (si Analysis Facility intégrée) Tier-2 –Analyse –Production Monte-Carlo Remonte les données vers son Tier-1
11/9/07-PAFL.Poggioli/LAL7/25 Réplication des données (DDM) Centralisé & automatique (Cf. Computing Model) –Données simulées/Vraies données AOD/NTUP/TAG (volume actuel ~1.5 TB/semaine) –Chaque T1 a une réplique complète –Les T2 définissent quelle fraction ils ont ESD –Seuls les T1 en ont une fraction donnée et random (~10%) –Release des bases de données Répliquées dans chaque Tier. Faible volume de données (~100MB) –“Conditions data” Répliquées dans chaque Tier-1 –Données Cosmiques (Cf. plus loin) RAW : Fraction répliquée à chaque Tier-1s (selon répartition prévue) ESDs : répliquées à chaque T1 & T2 selon demande Un T2 peut demander la réplication des RAW via DDM
11/9/07-PAFL.Poggioli/LAL8/25 Recherche d’un dataset : AMI (LPSC) Fondé sur metadata Fournit tout l’historique d’un dataset
11/9/07-PAFL.Poggioli/LAL9/25 Recherche d’un dataset : Panda Monitor (BNL) Fournit la liste des réplications eg. LAPP
11/9/07-PAFL.Poggioli/LAL10/25 Transfert des données : Principe Tokyo T1 T0 T2 LFC T1 …. VO box Catalogues généraux centralisés (LFC): Contenus des datasets Localisation des datasets dans les T0-T1-T2 Liste des requêtes de transferts des datasets Catalogues locaux (LFC) Localisation dans le centre des fichiers de chaque dataset Catalogues généraux centralisés (LFC): Contenus des datasets Localisation des datasets dans les T0-T1-T2 Liste des requêtes de transferts des datasets Catalogues locaux (LFC) Localisation dans le centre des fichiers de chaque dataset Demande au catalogue central : liste des datasets a répliquer Gestion transfert Enregistrement informations dans catalogues locaux et centraux Demande au catalogue central : liste des datasets a répliquer Gestion transfert Enregistrement informations dans catalogues locaux et centraux VO box : computer dédié pour transferts et réplications NEW : Déplacé au CERN
11/9/07-PAFL.Poggioli/LAL11/25 DDM : composants DQ2 dataset catalogs DQ2 “Queued Transfers” Local File Catalog File Transfer Service DQ2 Subscription Agents Part of DQ2 Not part of DQ2 Slide from M.Branco
11/9/07-PAFL.Poggioli/LAL12/25 DDM et dq2_ –DDM : Transfert massif de données et enregistrement des nouveaux replicats dans les catalogues –dq2_ : (dq2_get, _register,_delete…) Copie locale de quelques fichiers Surcouche sur certains composants de DDM –Partie commune : Recherche fichiers d'un dataset et leur localisation –Différence principale DDM : Organisation et mise en queue des transferts dq2_ –Transfert dès que possible->Stress sur élément de stockage -> Limiter l’usage de dq2_ au débugging, mais difficile tant que DDM pas totalement opérationnel
11/9/07-PAFL.Poggioli/LAL13/25 Requête DDM officielle Bientôt seul moyen –Doit être accréditée par le responsable du data placement du nuage
11/9/07-PAFL.Poggioli/LAL14/25 Activités DDM Equipes centrales (CERN) et régionales (T1) Support de la production MC Réplication des données vers les sites Développement d’outils de monitoring “Data integrity” contrôle (Mélissa) –Données dans DDM vs entrées dans LFC DDM est le juge de paix –’zombies’ et fichiers ‘longueur nulle’ Destruction de données invalides/obsolètes Mouvement des données dans un nuage
11/9/07-PAFL.Poggioli/LAL15/25 DDM Monitoring : ARDA Ici Transferts PRODMC T0 -> LYONDISK –A gauche liste de tout le nuage associé -> Détails des transferts sur les T2s disponibles
11/9/07-PAFL.Poggioli/LAL16/25 Volume de données wrt ATHENA Expérimental (Stéphane) pour données MC
11/9/07-PAFL.Poggioli/LAL17/25 Monitoring des réplications Ici nuage français (fonctionne pour autres nuages) pour la PROD MC Taille en GB # fichiers
11/9/07-PAFL.Poggioli/LAL18/25 Monitoring dans le temps Ici taille en GB (AOD, ESD, LYONDISK (210 TB stockage) 1/04 -> 1/09/2007 AOD : 20 TB today ESD : 50 TB today RDO : 40 TB today (après archivage/cleaning ) HITS : 10 TB today (après archivage/cleaning)
11/9/07-PAFL.Poggioli/LAL19/25 Datasets disponibles Exemple LPNHE AOD
11/9/07-PAFL.Poggioli/LAL20/25 Prise de donnés cosmiques M4 (1) En plus de la prod MC Lecture de tout ATLAS avec cosmiques : Run M4 (Cf. Emmanuel, Claudio, Philippe) –Ecriture sur MBytes/s !! –A priori pas d’OFC corrects por LAR reco A reprocesser –Réplication RAW : Fraction répliquée à chaque Tier-1s (selon répartition prévue) ESDs : répliquées à chaque T1 & T2 selon demande Un T2 peut demander la réplication des RAW via DDM Test en vraie grandeur T0-> T1s -> T2s
11/9/07-PAFL.Poggioli/LAL21/25 Prise de données cosmiques M4 (2) Transferts T0 -> T1’s –eg LYONDISK (ESD) et LYONTAPE (RAW) LYON –Transferts T1 (LYON) -> T2’s ESD Toutes les T1s Toutes les LYON (requête) ESD réparties dans T2s nuage français
11/9/07-PAFL.Poggioli/LAL22/25 Au quotidien Les choses bougent très vite –Suivi hebdomadaire des meetings Computing Ops (K. Bos) et DDM Ops (A. Klimentov) Développement d’outils –Finalité : Automatiques pour limiter manpower –Dégager de l’espace disque sur T1 & T2 (Mélissa pour la destruction des datasets obsoletes) eg RAW de prod MC dans T2 une fois remontées au T1 si problème (sinon automatique) –Archivage/suppression des RDO en cours –Organisation des zones disques pour faciliter transferts & relecture des fichiers
11/9/07-PAFL.Poggioli/LAL23/25 Problèmes DDM Taille fichiers –CMS transfère 1k fichiers/jours (But ATLAS 20K fichiers) –Gros overhead à chaque réplication (en sus du transfert FTS) -> Regrouper les HITS en fichiers de evts (actuellement 50 evts) –Suppression des RDOs Outils Grille encore peu stables Manquent des outils de monitoring –eg quelques semaines entre fichier perdu et découverte de la perte
11/9/07-PAFL.Poggioli/LAL24/25 Liens utiles AMI – Panda Browser – ARDA DDM monitoring – DDM Wiki –ATLAS –France Listes des fichiers sur le nuage Français –
11/9/07-PAFL.Poggioli/LAL25/25 Next Renforcer DDM ATLAS (orga., manpower) Progrès –Avoir des outils stables de migration FTS –Avoir des outils pour blacklister des sites –Avoir une ligne de transferts express (eg. EVGEN ou condition database) Plus d’outils de monitoring –Comprendre l’utilisation des datasets (analyse/transfert) Besoin d’utilisateurs « disciplinés » Quid des transferts dans les T3
11/9/07-PAFL.Poggioli/LAL26/25 Backup
11/9/07-PAFL.Poggioli/LAL27/25 Le modèle ATLAS CERN LYON NG BNL FZK RAL CNAF PIC TRIUMF SARA ASGC LPC Tokyo Romania GRIF T3 SWT2 GLT2 NET2 WT2 MWT2 T1 T2 T3 VO box, dedicated computer to run DDM services LYON Cloud BNL Cloud TWT2 Melbourne ASGC Cloud “Tier Cloud Model” Unit : 1 T1 + n T2/T3 Pékin A l'intérieur d'un nuage T1: 10 % RAW, 20 % ESD, 100% AOD T2 : 100 % AOD, petite fraction ESD,RAW
11/9/07-PAFL.Poggioli/LAL28/25 Le nuage francais Tier-2: LPC Tier-2: GRIF CEA/DAPNIA LAL LLR LPNHE IPNO Tier-2: GRIF CEA/DAPNIA LAL LLR LPNHE IPNO AF: CC- IN2P3 Tier-3: LAPP Tier-1: CC-IN2P3 Lyon Clermont-Ferrand Ile de France Marseille Nantes Strasbourg Annecy Tier-3: CPPM Pekin Tokyo Roumanie Pekin
11/9/07-PAFL.Poggioli/LAL29/25 DDM : Transferts FTS
11/9/07-PAFL.Poggioli/LAL30/25 Et bien sur il vous faut un certificat Grille !! « Est-ce que ma vie sera mieux une fois que j’aurai mon certif’ ? » Laurent Voulzy, Rock-Collection