Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Slides:



Advertisements
Présentations similaires
1 Georgeta Bădău CRÉATION ET GESTION DUN BLOG AVEC LA PLATE-FORME LEWEBPEDAGOGIQUE.COM Séance no.4.
Advertisements

13/04/05 - RB1 Montpellier 24/03/2005 Les interactions entre le SSO ESUP et le mécanisme de propagation d'identité
JXDVDTEK – Une DVDthèque en Java et XML
Le Modèle Logique de Données
LCG DATAGRID - France 8 Juillet 2002 LCG : LHC Grid computing - qui, quoi, quand, comment ? Quoi ? But : préparer l'infrastructure informatique des 4 expériences.
Intégration du système de production LHCb sur la DataGRID V. Garonne, CPPM, Marseille Réunion DataGRID France, 13 fv fév
Le web classeur Guide à l'usage des élèves. un support de classement et de conservation de vos informations en matière dorientation un outil permettant.
Plan de formation Chapitre 1 : Présentation de SAP
Cours Présenté par …………..
Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -
Configuration de Windows Server 2008 Active Directory
Gestion de la communication par établissement sur le site ville
Unix Raymond Ripp.
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Développement d’applications web
1 Comment utiliser votre Extranet Se connecter 2.My Site 3.Documentation 3.1 Documents dintégration 3.2 Documents types 4.Vos informations privées.
Solution e-Media Présentation Générale Direction du Système d’Information Opérateur Informatique ERDF Mars 2012.
EGEE is a project funded by the European Union under contract IST Gestion des données David Bouvet CCIN2P3 Présentation faite à partir des.
Configuration de Windows Server 2008 Active Directory
Plateforme de Calcul pour les Sciences du Vivant Le Système dInformation de gLite.
e-Marque Traitement des fichiers
Mon passeport pour l’orientation et la formation
Guide à l'usage des élèves
1 GPA435 Systèmes dexploitation et programmation de système Copyright, 2000 © Tony Wong, Ph.D., ing. Chapitre 4 Syntaxe des commandes, documentation standard,
COURS DE PROGRAMMATION ORIENTEE OBJET :
Passeport Orientation
Tout savoir sur la synchronisation des mails, contacts et calendrier sur Windows Phone Lire cette présentation en mode plein écran.
1 GPA435 Systèmes d’exploitation et programmation de système Copyright, 2000 © Tony Wong, Ph.D. Chapitre 8 Filtres UNIX.
Utilisation avancée de linux
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
4 - Annuaires Les Annuaires d ’Entreprises Offres et solutions
Introduction.
Plateforme de Calcul pour les Sciences du Vivant Soumission de jobs sur grille.
Les 10 fonctions principales de votre Espace Membre Comment accéder rapidement aux fonctions importantes de votre compte ?
420-B63 Programmation Web Avancée Auteur : Frédéric Thériault 1.
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
Outil de gestion des cartes grises
Gérer la sécurité des mots de passe et les ressources
Gestion des fichiers et dossiers
Centre d’échange d’informations sur la Convention sur la Diversité Biologique Bienvenue dans le cours sur l’ajout d’une page web sur un site web développé.
KIWAPP IS A B2B FULL-STACK APP-MANAGEMENT TOOL KIWAPP EN QUELQUES ETAPES Octobre 2014.
Nouveau site 1. Pour se connecter vous devez saisir : - Votre adresse - le mot de passe qui vous a été communiqué 2 LA CONNECTION.
Les Composants de l’architecture Oracle
UTILISATION DE MIOGA Patrick LE DELLIOU
Présente Conception d’un petit site Web. 2 4-nov-03© Préambule Cette présentation fait suite à celle intitulée « Imaginer, concevoir, mettre.
Module 9 : Transfert de données. Vue d'ensemble Présentation du transfert de données Outils d'importation et d'exportation de données disponibles dans.
Unix Raymond Ripp.
Gestion des données sur la grille C. Charlot / LLR CNRS & IN2P3 For the European DataGrid Project Team
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks TP Data Management René Météry CS Tutorial.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Data management David Bouvet IN2P3-CC Clermont.
Subversion.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Quelques commandes de la grille David Bouvet.
Catalogues de fichiers de données. David Bouvet2 Problématique Possibilité de répliquer les fichiers sur divers SE  nécessité d’un catalogue de fichiers.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Data Management René Météry CS Tutorial EGEE.
Edit Knoops CPPM 20/01/2009 Enabling Grids for E-sciencE Gestion des données Gestion des jobs Edith Knoops.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Soumission de jobs C. Loomis / M. Jouvin.
EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.
INFSO-RI Enabling Grids for E-sciencE Gestion des Données David Bouvet CCIN2P /10/10.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
INFSO-RI Enabling Grids for E-sciencE Data management Daniel Jouvenot IN2P3-LAL ORSAY - 02/02/2007.
INFSO-RI Enabling Grids for E-sciencE La gestion des données Daniel Jouvenot LAL-IN2P3-CNRS 18/06/2008.
C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 2 février 2007
12 mars 2004, Lyon Reunion CAF F.Chollet 1
Fonctionnement de la grille
David Bouvet, David Weissenbach Observatoire de Meudon, 01-02/02/2011
David Bouvet IN2P3-CC Annecy - 27/09/2007
Auteurs : David Bouvet, David Weissenbach
LUSTRE Integration to SRM
Transcription de la présentation:

Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE

Plateforme de Calcul pour les Sciences du Vivant 2 Outline Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes

Plateforme de Calcul pour les Sciences du Vivant 3 Data Management System (DMS)‏ Fournit des services de manipulation des données pour les utilisateurs et les services de grille. DMS permet la location, l’accès et le transfert des données –L’utilisateur n’a pas besoin de connaître la localisation des données, juste le nom logique qui leur est associé –On accède aux données à travers des interfaces standards –Les données peuvent être répliquées ou transférées vers autant de destinations qu’il est nécessaire –Les données sont partagées par tous les membres d’une VO

Plateforme de Calcul pour les Sciences du Vivant 4 Zoom sur les services Le DMS fournit toutes les opérations utiles pour:  Uploader / télécharger des fichiers  Créer des fichiers / répertoires  Renommer des fichiers / répertoires  Supprimer des fichiers / répertoires  Déplacer des fichiers / répertoires  Lister des répertoires  Créer des liens symboliques Note: Les fichiers ne sont inscriptibles qu’une fois, mais visibles plusieurs fois –Les fichiers ne peuvent être changés que s’ils sont supprimés ou déplacés

Plateforme de Calcul pour les Sciences du Vivant 5 3 types de services pour DM: –Storage (SE's): où les fichiers sont “physiquement” localisés  Storage URL ou SURL: srm://castorsc.grid.sinica.edu.tw/data/biomed/mytest.dat –Catalogs: Espace de nommage de haut niveau place les fichiers “physiques” dans des noms virtuels “logiques”  Logical File Name ou LFN: lfn:/grid/biomed/mytest.dat –Mouvement de fichiers: pose/prend les fichiers sur les SE déplace/réplique les fichiers entre les SE  Transport URL ou TURL: gsiftp://sc003.grid.sinica.edu.tw:2811/data/biomed/mytest.dat Services de gestion dans gLite

Plateforme de Calcul pour les Sciences du Vivant 6 Le challenge de la gestion des données fait face à une hausse croissante de la demande de stockage Storage Element capable de gérer des pools de disques multiples –Disk Pool Manager (DPM), dCache, CASTOR Les données sont stockées sur différentes technologies de stockage L’interface principale doit cacher la complexité –GridFTP – transfert de fichiers sécurisée –Storage Resource Manager (SRM) – protocole de gestion des stockage Les données sont stockées à des endroits différents avec des noms différents Le File catalog fournit une vue uniforme des données de grille –LCG File Catalog (LFC)‏ Une large quantité de données doit être distribuée de manière stable Un système Robuste gère le transfert des fichiers –FTS (File transfer service)‏

Plateforme de Calcul pour les Sciences du Vivant 7 ExempleStorageElement1 “User interface” LCG File Catalog (LFC)‏ Storage Element 2 Fichiers répliqués sur 2 SE “Myfile.dat” Myfile.dat File_on_se1 File_on_se2 GUID ComputingElement

Plateforme de Calcul pour les Sciences du Vivant Exemple ResourceBrokerStorage Element 1 ComputingElement Input “sandbox” Input “sandbox” + Broker Info Output “sandbox” “User interface” Storage Element 2 1 st job écrit et répliques les sorties sur 2 SE Max. 10MB DataSets info LCG FileCatalog (LFC)

Plateforme de Calcul pour les Sciences du Vivant Exemple ResourceBrokerStorage Element 1 ComputingElement Input “sandbox” Input “sandbox” + Broker Info Output “sandbox” “User interface” Storage Element 2 2 nd job lit l’entrée depuis le SE Max. 10MB DataSets info LCG FileCatalog (LFC) garde le calcul proche du stockage

Plateforme de Calcul pour les Sciences du Vivant LFNStorage Element 1 “User interface” LCG FileCatalog (LFC) Storage Element 2 Le contenu est disponible sur les 2 SE “Myfile.dat” Myfile.dat File_on_se1 File_on_se2

Plateforme de Calcul pour les Sciences du Vivant Storage Element 1 “User interface” LCG FileCatalog (LFC) Storage Element 2 “Myfile.dat” Myfile.dat “Logical filename” File_on_se1 (“SURL”: site URL) File_on_se2 (“SURL”: site URL) “GUID” Global Unique Identifier LFN Le contenu d’un fichier ne peut pas changer  il est inutile de resynchroniser les réplicas

Plateforme de Calcul pour les Sciences du Vivant 12 Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes

Plateforme de Calcul pour les Sciences du Vivant 13 Convention de nommage Logical File Name (LFN) alias créé par un utilisateur pour référencer des données e.g. “lfn:/grid/biomed/reichma/chocapic” Globally Unique Identifier (GUID) Un identifiant unique illisible qui référence une donnée e.g. “guid:f81d4fae-7dec-11d0-a765-00a0c91e6bf6” Storage URL (SURL) ou Physical File Name (PFN) La localisation physique d’un ensemble de données sur un système de stockage e.g. :// “sfn://tbed01.cern.ch/data/biomed/reichma/mytest.dat” “ srm://dpm.grid.sinica.edu.tw/grid/home/biomed/mytest.dat ” Transport URL (TURL)‏ Localisation temporaire d’un réplica e.g. :// : / “ gsiftp://dpm.grid.sinica.edu.tw:2811/grid/home/biomed/mytest.dat ”

Plateforme de Calcul pour les Sciences du Vivant 14 Outline Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes

Plateforme de Calcul pour les Sciences du Vivant 15 Storage Element Définitions –Les types standards de SE sont:  DPM  dCache  Castor (utilisé au CERN, ASGC...)‏  StoRM, … –accès aux fichiers de type POSIX  via Grid File Access Library(GFAL) –Espace de stockage pour les fichiers  permet une gestion stable –Protocole de transfert (gsiFTP) –Interface SRM

Plateforme de Calcul pour les Sciences du Vivant 16 SRM (Storage Resource Manager) Fournit un Accès Uniforme Standard d’accès aux données Client User/Application Grid Middleware SRM Castor dCache DPM Storage Resource Manager

Plateforme de Calcul pour les Sciences du Vivant 17 Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes

Plateforme de Calcul pour les Sciences du Vivant 18 Les services LFC LFC = LCG File Catalogue –LCG = LHC Computing Grid –LHC = Large Hadron Collider Fournit –un lien entre LFN, GUID et SURL –Transactions, Sessions –un espace de nommage hiérarchique, des liens symboliques Tous les membres d’une VO ont les permissions écriture/lecture dans leurs répertoires Les commandes ressemblent à celles d’UNIX avec “lfc-” avant‏

Plateforme de Calcul pour les Sciences du Vivant 19 LFC Les utilisateurs accèdent tout d’abord aux données et les gèrent à travers les “fichiers logiques” Mapping par le “LFC” Défini par l’utilisateur arborescence LFC Le LFC a une structure en arborescence /grid/ / Exemple : /grid/biomed/reichma/testfiles.dat

Plateforme de Calcul pour les Sciences du Vivant 20 2 types de commandes Les commandes lfc –Utilisée pour interagir avec seulement le catalogue  pour créer des répertoires  pour lister des fichiers –Utilisés par les utilisateurs et les commandes lcg Les commandes lcg –Couplent les opérations du LFC avec les opérations de gestion –copient les fichiers de/vers/entre les SE –gèrent la réplication des données

Plateforme de Calcul pour les Sciences du Vivant 21 Les commandes LFC ajoute/change un commentairelfc-setcomment Mets en place des contrôle d’accèslfc-setacl Supprime un fichier/répertoirelfc-rm Renomme un répertoire/fichierlfc-rename Crée un répertoirelfc-mkdir Liste les fichiers/répertoires dans un répertoirelfc-ls Crée un lien symboliquelfc-ln Récupère les listes de contrôle d’accèslfc-getacl supprime les commentaires associéslfc-delcomment Change l’appartenance d’un fichier/répertoirelfc-chown Change les droits d’accès vers un fichier/répertoirelfc-chmod Résumé des commandes LFC

Plateforme de Calcul pour les Sciences du Vivant 22 Les commandes LCG Replica Management mets le statut d’un SURL à done pour une requête SRM donnéelcg-sd récupère le TURL d’un SURL donnélcg-gt réplique entre plusieurs SE un fichierlcg-rep supprime un fichierlcg-del copie un fichier local sur la grille et l’enregistre dans le lfclcg-cr copie un fichier de la grille en locallcg-cp

Plateforme de Calcul pour les Sciences du Vivant 23 /grid/biomed/test_SE.002 srm://castorsc.grid.sinica.edu.tw/castor/grid.sinica.edu.tw/sc/biomed/ge nerated/ /filec025611a b6e0-5261e5ec095c gsiftp:// lcg00116.grid.sinica.edu.tw:2811/flatfiles/SE00/dt/stage/filec025611a b6e0-5261e5ec095c c033f475-cc6a-4556-a42c-60fb /castor/grid.sinica.edu.tw/sc/biomed/generated/ /filec025611a b6e0-5261e5ec095c lcg00116.grid.sinica.edu.tw/flatfiles/SE00/dt/stage/filec025611a b6e0-5261e5ec095c LFN GUID SURL TURL Physical File Name Logic File Name SE LFC

Plateforme de Calcul pour les Sciences du Vivant 24 Gestion de données: outils bas niveau Use case: Copie d’un fichier d’un SE1 à un SE2 Disk pool Disk pool Gridftp serverN gridftp::STOR gridftp::RETR globus-url-copy gsiftp://gFTP1/.. gsiftp://gFTPn/.. SURL TURL Gridftp server2 Gridftp server3 Gridftp serverN-1 Gridftp server1 pas toujours inscrit dans l’IS SE1 SE2

Plateforme de Calcul pour les Sciences du Vivant 25 Use case: copie d’un fichier d’un SE1 vers une UI locale Disk pool srmcp srm://srm1.source/.. file:////mydir/MYFLE Gridftp server2 Gridftp server3 Gridftp server1 SE1 SRM server caché à l’utilisateur Exposé à l’utilisateur Gestion de données: outils moyen niveau

Plateforme de Calcul pour les Sciences du Vivant 26 Use case: copie d’un fichier vers un SE et enregistrement dans le LFC lcg-cr -vo MyVO file://$PWD/text_file.txtfile://$PWD/text_file.txt -d se.destination lfn:/grid/MyVO/myDIR/myFILE LFC server SRM SE1 gridftp1 gridftp2 gridftp3 pool Depuis l’IS, vous pouvez tout savoir du SE Copy Register Vous pouvez tracer vos données depuis le LFC Gestion de données: outils haut niveau

Plateforme de Calcul pour les Sciences du Vivant 27 Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes

Plateforme de Calcul pour les Sciences du Vivant Répliquer des données de la grille Répliquer des données –Dupliquer le fichier toto grâce au LFN toto.test sur le SE SE.in2p3.fr lcg-rep –d SE.in2p3.fr --vo gilda lfn:toto.test Supprimer des données –Supprimer le fichier toto grâce au LFN toto.test sur le SE SE.in2p3.fr –L’option –a permet de supprimer tous les replicas lcg-del –s SE.in2p3.fr --vo gilda lfn:toto.test lcg-del -a --vo gilda lfn:toto.test

Plateforme de Calcul pour les Sciences du Vivant Récupérer des données de la grille Copier des données grille => UI –Mettre le fichier toto avec le LFN toto.test sur l’UI dans /myhome/ lcg-cp --vo gilda lfn:toto.test file:/myhome/toto

Plateforme de Calcul pour les Sciences du Vivant Soumettre des données avec le job Utiliser l’attribut InputSandbox dans le JDL Attention : on ne peut pas utiliser ce champ pour un trop grand transfert (plusieurs megabytes) InputSandbox = {“toto“, “job.sh”};

Plateforme de Calcul pour les Sciences du Vivant Adresser des données stockées sur la grille au job Il faut des données stockées et enregistrées sur la grille (dans le RLS) Spécifier les données au job par l’attribut InputData dans le JDL InputData = “lfn:toto” Dans le script d’éxecution de votre job, utilisez la commande – export LCG_GFAL_INFOSYS=grid004.ct.infn.it:2170 – lcg-cp --vo gilda lfn:toto.test file:`pwd`/toto

Plateforme de Calcul pour les Sciences du Vivant Récupérer les données résultat sur l’UI Définir le job pour récupérer les données –Le job génère des données dans le répertoire de travail du WN –A la fin du job, les données sont placées dans l’espace de stockage temporaire du RB –Vous les récupérez via “glite-wms-job-output” Eléments clé : –Vous devez connaître les noms des fichiers que vous souhaitez récupérer –OutputSandbox = {“toto", “toto.out“,”toto.err”}; –Méthode non destinée pour de gros fichiers (> centaine MB)  espace de stockage temporaire limité sur le RB

Plateforme de Calcul pour les Sciences du Vivant Stocker les données résultat sur la grille Le programme génère des données dans un fichier sur le WN Le programme doit connaître quel est le nom du fichier sur le WN Le programme utilise les commandes lcg-cp, lcg-cr : Spécifier les données aux jobs par l’attribut outputData dans le JDL –Si aucun LFN n’est précisé, WMS en choisit un –Si aucun SE n’est précisé, le SE le plus proche est choisi OutputData = { [ OutputFile = “toto.out” ; StorageElement = “adc0021.cern.ch” ; LogicalFileName = “lfn:chocapic” ; ], [ OutputFile = “toto2.out” ; StorageElement = “adc0021.cern.ch” ; LogicalFileName = “lfn:chocapic2” ; ] }; Un fichier contenant le résultat de cette opération est créé et ajouté à la output Sandbox –DSUpload_.out