Gestion des données : DDM Distributed Data Management

Slides:



Advertisements
Présentations similaires
Calcul CMS: bilan 2008 C. Charlot / LLR LCG-DIR mars 2009.
Advertisements

CAF-13/09/2010Luc1 Squad Report T2 Période 19/06-11/09 Irena, Sabine, Emmanuel.
Palaiseau Réunion CCIN2P3/LCG 22/07/2004 Distribution des données CMS Distribution des données et préparation de l’analyse Production MC distribuée et.
SC4 ATLAS Ghita Rahal CC-IN2P3 Réunion LCG FRANCE Direction 3 Juillet 2006.
Eric Lançon1 Calcul ATLAS en France Le CAF au PAF * CAF : Calcul Atlas France *Célèbre contrepèterie.
1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo.
11/9/07-PAFL.Poggioli/LAL1/25 Gestion des données : DDM Distributed Data Management Préambule Le modèle ATLAS DDM –Principe, Tests, Suivi, Problèmes Next.
ATLAS et l’analyse au CCIN2P3  Le modèle de calcul de ATLAS  L’analyse à Lyon  Points critiques Avertissement : cette présentation n’est malheureusement.
CMS CCRC08 phase 2 C. Charlot / LLR LCG-DIR juin 2008.
C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.
CAF-11/10/2010Luc1 Squad Report T1 Période 13/09-11/10 Irena, Sabine, Emmanuel.
20-mars-2008Eric Lançon1 Activités ATLAS sur le nuage Français Emprunts a K. Bernardet, C. Biscarat, S. Jezequel, G. Rahal.
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Jeudi 12 decembre 2007 Le CC-IN2P3 Un instrument informatique de pointe au service de la recherche Traitement intensif de données et Sciences de la Vie.
Le projet MUST Méso infrastructure de calcul et de stockage ouverte sur la grille européenne LCG/EGEE Colloque Grille Rhône-Alpes 10 janvier 2008.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
Vendredi 23 mars 2007 Le CC-IN2P3 Un instrument informatique de pointe au service de la recherche.
1 Stéphane JEZEQUEL JI06 Modèle de calcul d'ATLAS et Exercices en vraie grandeur de la grille WLCG par l'expérience ATLAS S. Jézéquel Journées Informatiques.
1 Stéphane JEZEQUEL 23 Juin 2008 Analyse des données LHC dans ATLAS S. Jézéquel.
Projet LCG-France Planning Fairouz Malek, Fabio Hernandez Responsables LCG-France Journées projets de l’ IN2P3 Paris, 5 juillet 2007.
Le système Raid 5 Table des matières Qu'est ce que le RAID ? Les objectifs Le raid 5 Les avantages et les inconvénients Les composants d’un Raid.
Yannick Patois 1 Utilisation LCG-France Les Technical Evolution Groups et LCG-France.
LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL.
LCG France point Réseau Novembre 2013.
ALICE February/March exercise summary Latchezar Betev WLCG Collaboration Workshop 22 April 2008.
C. Charlot, Calcul CMS, LCG-DIR, fév 2007 Calcul CMS 2006 TDR de Physique CMS Physics TDR, Volume 1, CERN-LHCC , feb. 2006, 548pp CMS Physics TDR,
Michel Jouvin LAL/Orsay
Journée Analyse D0, 19 janvier 2004
Le nœud de grille de calcul de l'IPHC dans CMS
Réunion Opérations France Grilles – 6 juin 2017
Réunion Analyse D0 France au CCIN2P3 19 janvier 2004
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
Un instrument informatique de pointe au service de la recherche
Planification budgétaire Tier2s & Tier-3s Etat d’avancement
GRIF : Grille pour la Recherche en
Etat des services grid de production
ATLAS Computing model et utilisation de LCG
12 mars 2004, Lyon Reunion CAF F.Chollet 1
Organisation Tiers CMS-France
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Consolidation des services FTS et LFC
QUASAR QUAlité des Services informatiques pour les AsR
Activités présentes et à venir
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
Projet de participation CMS au GRIF
Infrastructure de grille LHC en France et ressources associées
Configuration FTS pour CMS
Les opérations régionales en France au quotidien après le 20 Avril
Statut du T2 Île de France
2018/8/9 CLAP Cluster de virtualisation et de stockage distribué du LAPP Mardi 26 avril 2016 Entrez votre nom.
APS 2008 Conférence de l’APS avril St Louis
David Bouvet LCG France T2 T3 – LPNHE
Jobs ATLAS sur la grille
Utilisation effective de la Grille par ATLAS S. Jézéquel (LAPP)
L’exploitation des données du collisionneur LHC: un défi pour le calcul scientifique un enjeu pour le LAPP S. Jézéquel.
Le Projet GRIF Efficient Handling and processing of
Synthèse problèmes rencontrés par les expériences LHC au CC-IN2P3
Les centres d’analyse: introduction
Atelier régulation de la production dans un contexte grille
Résumé de la réunion PAF-CAF 12/04/2010
Journées LCG-France Point IPv6
Organisation LCG-France Lien avec le computing LHC
Infrastructure Opérationnelle d’EGEE
Infrastructure Opérationnelle d’EGEE2
DC04 CMS Objectif Status Planning
Chaque transparent est divisé en 3 parties : 1/Vision/ But
LCG – France et ALICE Bilan 2006 Planning fevrier 2007
Résumé des Actions Suite aux Réunions CB et MB
Transcription de la présentation:

Gestion des données : DDM Distributed Data Management L. Poggioli Préambule Le modèle ATLAS DDM Principe, Tests, Suivi, Problèmes Next 11/9/07-PAF L.Poggioli/LAL

Préambule Ce talk devrait être donné par S. Jézéquel Il possède la compétence, connaissance, expertise, suivi, depuis le début Stéphane est maintenant responsable de ATLAS Data Placement Il transmet son savoir à M. Ridel & LP Mélissa : opérations de suivi, cleaning (scripts) Luc : Data placement pour le nuage français Mille mercis à Stéphane, Mélissa, Eric, Alexei Klimentov (CERN DDM) 11/9/07-PAF L.Poggioli/LAL

Le modèle ATLAS A.Farbin/UTA Cf; Stathis 11/9/07-PAF L.Poggioli/LAL

Le modèle ATLAS (2) 40+ sites Worldwide A.Farbin/UTA 11/9/07-PAF L.Poggioli/LAL

Règle de base : Calculer où sont les données Le principe Règle de base : Calculer où sont les données Optimiser les ressources de calcul CE (Computing Elements) via la GRILLE Optimiser les ressources de stockage SE (Storage Elements) Distribution des données via DDM Outils d’analyse distribuée : GANGA/PANDA Sur AOD : Pas de problème Sur ESD : Difficile à grande échelle Gros fichier -> moins de réplications Doit se faire au niveau T1 (OK pour Lyon avec AF) Mais pas toutes les ESD @ T1 (sauf BNL ?). A suivre 11/9/07-PAF L.Poggioli/LAL

Production des données Tier-0 (CERN) Production des ESD/AOD : données ATLAS, cosmiques (M4) Tier-1 Possède ~ 10% ESD & RAW (random) Data ATLAS & Prod MC venant de ses T2 Reprocessing de ses propres RAW Reproduit ESD/AOD associées Tier-2 Analyse Production Monte-Carlo Remonte les données vers son Tier-1 11/9/07-PAF L.Poggioli/LAL

Réplication des données (DDM) Centralisé & automatique (Cf. Computing Model) Données simulées AOD/NTUP/TAG (volume actuel ~1.5 TB/semaine) Chaque T1 a une réplique complète Les T2 définissent quelle fraction ils ont ESD Seuls les T1 en ont une fraction donnée et random (~10%) Release des base de données Répliquées dans chaque Tier . Faible volume de données (~100MB) “Conditions data” Répliquées dans chaque Tier-1 Données Cosmiques RAW : Fraction répliquée à chaque Tier-1s (selon répartition prévue) ESDs : répliquées à chaque T1 & T2selon demande according Un T2 peut demander la réplication des RAW via DDM 11/9/07-PAF L.Poggioli/LAL

Recherche d’un dataset : AMI (LPSC) Fondé sur metadata Fournit tout l’historique d’un dataset 11/9/07-PAF L.Poggioli/LAL

Recherche d’un dataset : Panda Monitor (BNL) Fournit la liste des réplications 11/9/07-PAF L.Poggioli/LAL

Transfert des données : Principe VO box : computer dédié pour transferts et réplications VO box T1 déplacé au CERN Demande au catalogue central : liste des datasets a répliquer Gestion transfert Enregistrement informations dans catalogues locaux et centraux T0 VO box LFC NEW : Déplacé au CERN T1 T1 VO box LFC …. Catalogues généraux centralisés (LFC): Contenus des datasets Localisation des datasets dans les T0-T1-T2 Liste des requêtes de transferts des datasets Catalogues locaux (LFC) Localisation dans le centre des fichiers de chaque dataset Tokyo T2 T2 11/9/07-PAF L.Poggioli/LAL

DDM : composants DQ2 dataset catalogs File Transfer Service DQ2 Part of DQ2 Slide from M.Branco Not part of DQ2 DQ2 dataset catalogs Not part of DQ2 File Transfer Service DQ2 “Queued Transfers” Local File Catalog DQ2 Subscription Agents 11/9/07-PAF L.Poggioli/LAL

DDM et dq2_ DDM : dq2_ : (dq2_get, _register,_delete…) Transfert massif de données et enregistrement des nouveaux replicats dans les catalogues dq2_ : (dq2_get, _register,_delete…) Copie locale de quelques fichiers Surcouche sur certains composants de DDM Partie commune : Recherche fichiers d'un dataset et leur localisation Différence principale DDM : Organisation et mise en queue des transferts dq2_ Transfert dès que possible->Stress sur élément de stockage -> Limiter l’usage de DQ2_ au débugging, mais difficile tant que DDM pas totalement opérationnel 11/9/07-PAF L.Poggioli/LAL

Requête DDM officielle Bientôt seul moyen Doit être accréditée par le responsable du data placement du nuage 11/9/07-PAF L.Poggioli/LAL

Activités DDM Equipes centrales (CERN) et régionales (T1) Support de la production MC Réplication des données vers les sites Développement d’outils de monitoring “Data integrity” contrôle (Mélissa) Données dans DDM vs entrées dans LFC DDM est le juge de paix ’zombies’ et fichiers ‘longueur nulle’ Destruction de données invalides/obsolètes Mouvement des données dans un nuage 11/9/07-PAF L.Poggioli/LAL

DDM Monitoring : ARDA (1) T0-> T1 11/9/07-PAF L.Poggioli/LAL

DDM Monitoring : ARDA (2) A gauche liste de tout le nuage associé 11/9/07-PAF L.Poggioli/LAL

Monitoring des réplications Ici nuage français (fonctionne pour autres nuages) 11/9/07-PAF L.Poggioli/LAL

Monitoring dans le temps Ici taille en GB (AOD, ESD, HITS,…) @ LYONDISK (250 TB stockage) 1/04 -> 1/09/2007 AOD : 20 TB today ESD : 50 TB today RDO : 40 TB today (après archivage/cleaning) HITS : 10 TB today (après archivage/cleaning) 11/9/07-PAF L.Poggioli/LAL

Prise de donnés cosmiques M4 (1) En plus de la prod MC Lecture de tout ATLAS avec cosmiques : Run M4 Ecriture sur CASTOR @ 150-200 MBytes/s !! A priori pas d’OFC corrects por LAR reco A reprocesser Réplication RAW : Fraction répliquée à chaque Tier-1s (selon répartition prévue) ESDs : répliquées à chaque T1 & T2 selon demande Un T2 peut demander la réplication des RAW via DDM Test en vraie grandeur T0-> T1s -> T2s 11/9/07-PAF L.Poggioli/LAL

Prise de données cosmique M4 (2) Transferts T1 (LYON) -> T2’s ESD Toutes les AOD @ T1s Toutes les ESD @ LYON (requête) ESD réparties dans T2s nuage français Transferts T0 -> T1’s eg LYONDISK (ESD) et LYONTAPE (RAW) LYON 11/9/07-PAF L.Poggioli/LAL

Datasets disponibles Exemple LPNHE AOD 11/9/07-PAF L.Poggioli/LAL

Volume de données wrt ATHENA Expérimental (Stéphane) pour données MC 11/9/07-PAF L.Poggioli/LAL

Au quotidien Les choses bougent très vite Développement d’outils Suivi hebdomadaire des meetings Computing Ops (K. Bos) et DDM Ops (A. Klimentov) Développement d’outils Finalité : Automatiques pour limiter manpower Dégager de l’espace disque sur T1 & T2 (Mélissa pour la destruction des datasets obsoletes) eg RAW de prod MC dans T2 une fois remontées au T1 si problème (sinon automatique) Archivage/suppression des RDO en cours Organisation des zones disques pour faciliter transferts & relecture des fichiers 11/9/07-PAF L.Poggioli/LAL

Problèmes DDM Taille fichiers Outils Grille encore peu stables CMS transfère 1k fichiers/jours (But ATLAS 20K fichiers) Gros overhead à chaque réplication (en sus du transfert) FTS -> Regrouper les HITS en fichiers de 500-1000 evts (actuellement 50 evts) Suppression des RDOs Outils Grille encore peu stables Manquent des outils de monitoring eg quelques semaines entre fichier perdu et découverte de la perte 11/9/07-PAF L.Poggioli/LAL

Liens utiles AMI Panda Browser ARDA DDM monitoring DDM Wiki http://lpsc1168x.in2p3.fr:8080/opencms/opencms/AMI/www/index.html Panda Browser http://gridui02.usatlas.bnl.gov:25880/server/pandamon/query/?overview=dslist ARDA DDM monitoring http://dashb-atlas-data-tier0.cern.ch/dashboard/request.py/site DDM Wiki ATLAS https://twiki.cern.ch/twiki/bin/view/Atlas/DistributedDataManagement France https://atlas-france.in2p3.fr/cgi-bin/twiki/bin/view/Atlas/InformatiqueDDM Listes des fichiers sur le nuage Français http://lapp.in2p3.fr/atlas/Informatique/Offline/monitor_files_sites/FR/summary.html 11/9/07-PAF L.Poggioli/LAL

Next Renforcer DDM ATLAS (orga., manpower) Progrès Avoir des outils stables de migration FTS Avoir des outils pour blacklister des sites Avoir une ligne de transferts express (eg. EVGEN ou condition database) Plus d’outils de monitoring Comprendre l’utilisation des datasets (analyse/transfert) Besoin d’utilisateurs « disciplinés » Quid des transferts dans les T3 11/9/07-PAF L.Poggioli/LAL

Backup 11/9/07-PAF L.Poggioli/LAL

ST2 : 100 % AOD, petite fraction ESD,RAW Le modèle ATLAS A l'intérieur d'un nuage T1: 10 % RAW, 20 % ESD, 100% AOD ST2 : 100 % AOD, petite fraction ESD,RAW “Tier Cloud Model” Unit : 1 T1 + n T2/T3 NG PIC RAL CNAF SARA TWT2 T3 GRIF ASGC Cloud LYON Cloud CERN ASGC LYON Melbourne Tokyo Pékin TRIUMF FZK LPC Romania BNL BNL Cloud GLT2 NET2 MWT2 T1 WT2 T2 T3 VO box, dedicated computer to run DDM services SWT2 11/9/07-PAF L.Poggioli/LAL

Le nuage francais Tier-2: GRIF Tier-3: LAPP Tier-2: LPC AF: CC-IN2P3 CEA/DAPNIA LAL LLR LPNHE IPNO Pekin Tokyo Roumanie Strasbourg Ile de France Nantes Tier-3: LAPP Tier-2: LPC Clermont-Ferrand AF: CC-IN2P3 Annecy Lyon Tier-1: CC-IN2P3 Marseille Tier-3: CPPM 11/9/07-PAF L.Poggioli/LAL

DDM : Transferts FTS 11/9/07-PAF L.Poggioli/LAL