Gestion des données sur la grille C. Charlot / LLR CNRS & IN2P3 For the European DataGrid Project Team

Slides:



Advertisements
Présentations similaires
SRB (Storage Resource Broker)
Advertisements

Transformation de documents XML
- Couche 7 - Couche application. Sommaire 1)Introduction 1)DNS 1)FTP et TFTP 1)HTTP 1)SNMP 1)SMTP 1)Telnet.
CC-Lyon le 21/12/01VO et outil de maj des grid-mafile VO et outil de mise à jour des grid-mapfile
Site WEB DATAGRID Propositions fonctionnelles et techniques WP6 - Communications et Systèmes ArchitecturePortailWebSite.
WP9: Applications Observation de la Terre Revue de lESA Partcipants: EU: Kyriakos Baxevanidis, K. Decker, S. Filippone, G. Samaras ESA: L. Fusco, J. Lindford,
Septembre 2001Y. Schutz - ALICE / WP6 France1 Activités GRILLE dALICE.
Nadia LAJILI DataGRID WP6 - Testbed Integration-BILAN Lyon, 12 Juillet 2001.
WP10 Vincent BRETON – DataGRID France – Statut du WP10.
LCG DATAGRID - France 8 Juillet 2002 LCG : LHC Grid computing - qui, quoi, quand, comment ? Quoi ? But : préparer l'infrastructure informatique des 4 expériences.
User Support Sophie Nicoud DataGrid France – CPPM 22/09/02.
Grid Information Index Service D. Calvet, M. Huet, I. Mandjavidze DAPNIA/SEI CEA Saclay Gif-sur-Yvette Cedex.
Intégration du système de production LHCb sur la DataGRID V. Garonne, CPPM, Marseille Réunion DataGRID France, 13 fv fév
Design Pattern MVC En PHP5.
3e Rencontre internationale dutilisateurs dUNIMARC enssib, 31 mars 2010 Les produits et services bibliographiques de la Bibliothèque nationale de France.
XML-Family Web Services Description Language W.S.D.L.
EGEE is a project funded by the European Union under contract IST Gestion des données David Bouvet CCIN2P3 Présentation faite à partir des.
Plateforme de Calcul pour les Sciences du Vivant Le Système dInformation de gLite.
Présentation de Windows 2000 Quest-ce que Windows 2000? 2 versions principales : 1.Windows 2000 Professionnel : Système dexploitation client (comme Windows.
1 Grille de calcul et physique des particules Vincent Garonne CPPM, Marseille Novembre 2003 Contenu de la présentation Etat de lart : Grille de calcul.
Vue d'ensemble Présentation du rôle du système DNS dans Active Directory Système DNS et Active Directory Résolution de noms DNS dans Active Directory.
PHP & My SQL.
Plateforme de Calcul pour les Sciences du Vivant Soumission de jobs sur grille.
Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.
JDBC L'API JDBC est utilisée pour utilisée pour intéragir avec une base de données.
F. Ohlsson-Malek, ISN Grenoble CCin2p3, EDG Tutorial 14/02/ Le projet EU DataGrid et la participation d’ATLAS.
Créer des packages.
EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.
Auvray Vincent Blanchy François Bonmariage Nicolas Mélon Laurent
Les paquetages.
Gestion de données : Besoins de la VO Biomed Sorina Pop Laboratoire Creatis Université de Lyon, CREATIS; CNRS UMR5220; Inserm U1044; INSA-Lyon; Université.
Pourquoi UTILISER le FTP ?
PHP 6° PARTIE : LES SESSIONS 1.Introduction 2.Identificateur de session 3.Variables de session 4.Client / Serveur 5.Principe 6.Ouverture de session 7.Enregistrement.
Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.
Réunion calcul simulations GIEC/IPCC - Prodiguer Lundi 23 Mars PRODIGUER un noeud français de distribution des données GIEC/IPCC Sébastien Denvil.
 Formulaires HTML : traiter les entrées utilisateur
F. Ohlsson-Malek Data GRID/WP6 meeting Lyon, 8 juillet 2002 ATLAS Data-Grid au CERN et au CCin2p3 F. Ohlsson-Malek, ISN-Grenoble et ATLAS-France.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks TP Data Management René Météry CS Tutorial.
Palaiseau Réunion CCIN2P3/LCG 22/07/2004 Distribution des données CMS Distribution des données et préparation de l’analyse Production MC distribuée et.
Representational State Transfer - REST
■ Atteindre la base académique ■ Utiliser le site central pour trouver le site de l’établissement: ■ Accepter.
Les bases de données Séance 8 Jointures.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Data management David Bouvet IN2P3-CC Clermont.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Sécurité sur le GRID Ahmed Beriache (CGG)
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Soumission de jobs David Bouvet IN2P3-CC.
Yannick Patois _ Journée du Libre _ 1er Novembre n° 1 Datagrid Une grille de calcul sous Linux Yannick Patois.
Scénario Les scénarios permettent de modifier la position, taille … des calques au cours du temps. Son fonctionnement est très proche de celui de Macromedia.
EGEODE 08/11/2006 Équipe GRID1 EGEODE EGEODE. 08/11/2006 Équipe GRID2 Plan  La géophysique sur la Grille : EGEODE  Partenariat académique  Comment.
OAI-PMH & LOM OAI Repository interoperability using LOM metadata format Interopérabilité des bases de ressources utilisant OAI-PMH et LOM Steve Giraud.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Quelques commandes de la grille David Bouvet.
FACTORY systemes Module 2 Section 1 Page 2-3 Installation d’Industrial SQL FORMATION InSQL 7.0.
EGEE is a project funded by the European Union under contract IST Job Soumission Eric Fede CPPM Grid Tutorial, Novembre
EGEE is a project funded by the European Union under contract IST Job Soumission N.Lajili Seminaire Grille-21 Novembre
Catalogues de fichiers de données. David Bouvet2 Problématique Possibilité de répliquer les fichiers sur divers SE  nécessité d’un catalogue de fichiers.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Data Management René Météry CS Tutorial EGEE.
INFSO-RI Enabling Grids for E-sciencE Les services d’EGEE Fede Eric Inspirée de la présentation de Frédéric Hemmer JRA1 EGEE 1 st.
Edit Knoops CPPM 20/01/2009 Enabling Grids for E-sciencE Gestion des données Gestion des jobs Edith Knoops.
C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Soumission de jobs C. Loomis / M. Jouvin.
INFSO-RI Enabling Grids for E-sciencE Sécurité sur la Grille C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 8 octobre 2007.
EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.
EGEE induction course, 22/03/2005 INFSO-RI Enabling Grids for E-sciencE Infrastructure Overview Pierre Girard French ROC deputy.
INFSO-RI Enabling Grids for E-sciencE Gestion des Données David Bouvet CCIN2P /10/10.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
INFSO-RI Enabling Grids for E-sciencE Data management Daniel Jouvenot IN2P3-LAL ORSAY - 02/02/2007.
INFSO-RI Enabling Grids for E-sciencE La gestion des données Daniel Jouvenot LAL-IN2P3-CNRS 18/06/2008.
C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 2 février 2007
Fonctionnement de la grille
David Bouvet IN2P3-CC Annecy - 27/09/2007
LUSTRE Integration to SRM
Transcription de la présentation:

Gestion des données sur la grille C. Charlot / LLR CNRS & IN2P3 For the European DataGrid Project Team

Au menu d’aujourd’hui..  Gestion des données sur la grille  Cas d’utilisation  Composants n EDG Replica Catalog n EDG Replica Manager n GDMP  Gestion des données et soumission n Attributs pour le jdl n broker-info

Problématique de la gestion des données sur la grille

Principaux cas d’utilisation  “gridification” de fichiers existants n Déjà produits en dehors de la grille n Produit par un job “grille” sur un WN  Spécification de données input et accès à ces données n Indifféremment sur dique ou sur MSS n Sans avoir besoin de savoir où sont physiquement ces données  Gestion des fichiers sur la grille n Localisation des fichiers n Replication de fichiers n Sites miroirs

Sur le marché..  Dans le software EDG (1.4), vous trouverez: n EDG Replica catalog n globus-url-copy (GridFTP) n EDG Replica Manager n Grid Data Mirroring Package (GDMP) n Spitfire

EDG Replica Catalog  Basé sur le Globus LDAP Replica Catalog n  Hiérarchie à deux niveaux n Collections = groupements logiques de fichiers  Nommage des fichiers n Nom logique (LFN) = le nom qui permet à l’utilisateur d’identifier la nature des données  Ex. StressTest/cmsim/eg02_BigJets/eg02_BigJets_18202.fz n Nom physique (PFN) = le nom qui décrit l’endroit où se situe physiquement le fichier  PFN=host//mount_point//LFN n Mount_point est un repertoire sur le SE, spécifique pour chaque VO n Ex. ccgridli07.in2p3.fr/StorageElement/prod/cms/StressTest/cmsim/eg02_BigJets/ eg02_BigJets_18202.fz

EDG Replica Catalog  API and command line tools n edg_rc_addLogicalFileAttribute n edg_rc_addLogicalFileName n edg_rc_addPhysicalFileName n edg_rc_deleteLogicalFileAttribute n edg_rc_deleteLogicalFileName n edg_rc_deletePhysicalFileName n edg_rc_getLogicalFileAttributes n edg_rc_getLogicalFileName edg_rc_getPhysicalFileNames

EDG Replica Catalog  Interrogation du RC n Directement avec ldapsearch  Ex.: ldapsearch -h grid011g.cnaf.infn.it:9411 -b \ "lc=UIEP1,rc=CMS Testbed1 Replica \ Catalog,dc=grid011g,dc=cnaf,dc=infn,dc=it" -P 2 -x \ "(objectclass=GlobusReplicaLogicalCollection)" n À l’aide des browsers existants  Mapcenter n  RC browser n

EDG Replica Catalog

Transfer (copie) de fichiers  Outil de bas niveau pour le transfert de fichier n À travers le réseau (WAN) n Avec la sécurité (identification par certificats)  globus-url-copy [options] URL (ou TFN) = ://  Protocoles utilisables: n gsiftp – protocole de transfer Globus, seulement disponible sur SE et CE n file – accès aux transparents aux fichiers, mais limité au fichiers locaux n rfio - accès remote aux fichiers sur réseau local (MSS)  Ex. n globus-url-copy -p 8 file://`pwd`/file1.dat \ gsiftp://lxshare0222.cern.ch/ \ flatfiles/SE1/EDGTutorial/file1.dat

EDG Replica Manager  Prototype basé sur le Globus replica manager  C’est un soft client uniquement  Permet la replication (copie) et l’enregistrement de fichiers dans le Replica catalog  Maintient la consistance entre le RC et les données stockées

Replica Manager APIs  copyFile(FileName source, FileName destination, String protocol) n Permet transfert depuis site tiers n Transfert entre UI et SE, SE et SE, CE et SE, SE et CE n Ne met pas à jour le Catalogue  (un)registerEntry(LogicalFileName lfn, FileName source) n Opère uniquement sur le Replica Catalogue, pas de transfert  copyAndRegisterFile (LogicalFileName lfn, FileName source, FileName dest, String protocol) n site destination doit être un SE (enregistrement fichier dans le RC)  replicateFile(LogicalFileName lfn, FileName source, FileName destination, String protocol)  deleteFile(LogicalFileName lfn, FileName source) n Supprime le fichier et l’entrée dans le RC

 Une autre problèmatique: le site miroir n Maintenir à jour les fichiers disponibles sur un site w.r.t site référence  Basé sur les spécifications de CMS pour la réplication de grandes quantités de fichiers n Automatisation n Initialement pour Objectivity  GDMP

Souscription/Notification  Tous les sites qui souscrivent à un autre site seront notifiés de la présence de nouveaux fichiers n En fait, de la mise à jour d’un catalogue local au site source (export catalog). Site 1 Site 3 Site 2 Subscriber list Subscriber list subscribe

Export / Import Catalogues n Export Catalog  information about the new files produced.  is published n Import Catalog  information about the files which have been published by other sites but not yet transferred locally  As soon as the file is transferred locally, it is removed from the import catalogue. n Possible to pull the information about new files into your import catalogue. Site 1 Site 3 export catalog import catalog Site 2 export catalog 1)register, publish new files 2) transfer files 1) get info about new files 3) delete files

Utilisation de GDMP  Enregistrer les fichiers sur le site source gdmp_register_local_file –d  Publier les fichiers nouveaux depuis le site source gdmp_publish_catalogue (avec filtrage éventuel)  Souscrire au site serveur depuis le site client gdmp_host-subscribe -r –p  S’enquérir de changements dans le catalogue source gdmp_get_catalogue –r -p (avec filtrage éventuel)  Répliquer les fichiers vers le site client gdmp_replicate_get Get_progress_meter produit un progress.log. n replica.log contient la liste des fichiers transferés.

GDMP vs. EDG Replica Manager  GDMP n Réplication de collections de fichiers n Modèle avec souscription n Notification n Réplication entre SEs n Interface vers MSS n Vérification taille fichier n Support pour Objectivity  Replica Manager n Réplication d’un fichier n Réplication entre SEs, CEs vers SE, UI. n Interface vers MSS (seulement copyAndRegisterFile)

Données et soumission de jobs  Spécifications de données par l’utilisateur via le jdl n Attribut InputData  Prise en compte de la localisation des données par le système de soumission (match-making)  Liste de fichiers input par nom logique et/ou physique  Ex. InputData = {“LF:file1.txt”, \ “PF:lxshare0219.cern.ch/SE1/iteam/file2.txt”}; n Attribut ReplicaCatalog  Ex. ReplicaCatalog="ldap://grid011g.cnaf.infn.it:9411/lc=UIEP1,rc=CMS \ Testbed1 Replica Catalog,dc=grid011g,dc=cnaf,dc=infn,dc=it"; n Attribut DataAccessProtocol  Permet de spécifier les protocoles supportés par l’application => pris en compte par le système de soumission  Ex. DataAccessProtocol={“file”,”gridftp”}; n Attribut OutputSE  Pour forcer l’écriture des données sur un SE spécifié  Ex. OutputSE=“ccgridli07.in2p3.fr”

Information du Ressource Broker  Informations sur la décision prise par le Resource Broker propagée avec le job dans.BrokerInfo n Chemin complet donné par le contenu de EDG_WL_RB_BROKERINFO  Le fichier décrit n Le CE vers lequel le job a été envoyé n La liste des SEs “proches” de ce CE n La liste des fichiers inputs et protocoles d’accès spécifiés dans le jdl n Pour chaque nom de fichier input logique, la liste des noms de fichiers physiques correspondants n La liste des SEs correspondants à tous les PFNs (mentionnés explicitement et correspondants aux noms de fichiers logiques) avec les protocoles supportés

Information du Ressource Broker  Commandes et API BrokerInfo n edg-broker-info-getCloseSEs n edg-broker-info-getSEMountPoint n edg-broker-info-getSEProto n edg-broker-info-getPhysicalFileName n edg-broker-info-getSelectedFile =>TFN n edg-broker-info-getBestPhysicalFileName.. !..  Voir edg-broker-info --help pour les détails  pour la doc

Résumé gestion des données Site A Storage Element AStorage Element B Site B File B File AFile X File YFile B File AFile C File D Replica Catalog: Map Logical to Site files File Transfer Replica Manager: ‘atomic’ replication operation, single client interface orchestrator Pre- Post-processing: Prepare files for transfer Validate files after transfer Replica Selection: Get ‘best’ file Replication Automation: Data Source subscription Load balancing: Replicate based on usage Metadata: LFN metadata Transaction information Access patterns +Sécurité