La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Présentations similaires


Présentation au sujet: "Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE."— Transcription de la présentation:

1 Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE

2 Plateforme de Calcul pour les Sciences du Vivant 2 Outline Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes

3 Plateforme de Calcul pour les Sciences du Vivant 3 Data Management System (DMS)‏ Fournit des services de manipulation des données pour les utilisateurs et les services de grille. DMS permet la location, l’accès et le transfert des données –L’utilisateur n’a pas besoin de connaître la localisation des données, juste le nom logique qui leur est associé –On accède aux données à travers des interfaces standards –Les données peuvent être répliquées ou transférées vers autant de destinations qu’il est nécessaire –Les données sont partagées par tous les membres d’une VO

4 Plateforme de Calcul pour les Sciences du Vivant 4 Zoom sur les services Le DMS fournit toutes les opérations utiles pour:  Uploader / télécharger des fichiers  Créer des fichiers / répertoires  Renommer des fichiers / répertoires  Supprimer des fichiers / répertoires  Déplacer des fichiers / répertoires  Lister des répertoires  Créer des liens symboliques Note: Les fichiers ne sont inscriptibles qu’une fois, mais visibles plusieurs fois –Les fichiers ne peuvent être changés que s’ils sont supprimés ou déplacés

5 Plateforme de Calcul pour les Sciences du Vivant 5 3 types de services pour DM: –Storage (SE's): où les fichiers sont “physiquement” localisés  Storage URL ou SURL: srm://castorsc.grid.sinica.edu.tw/data/biomed/mytest.dat –Catalogs: Espace de nommage de haut niveau place les fichiers “physiques” dans des noms virtuels “logiques”  Logical File Name ou LFN: lfn:/grid/biomed/mytest.dat –Mouvement de fichiers: pose/prend les fichiers sur les SE déplace/réplique les fichiers entre les SE  Transport URL ou TURL: gsiftp://sc003.grid.sinica.edu.tw:2811/data/biomed/mytest.dat Services de gestion dans gLite

6 Plateforme de Calcul pour les Sciences du Vivant 6 Le challenge de la gestion des données fait face à une hausse croissante de la demande de stockage Storage Element capable de gérer des pools de disques multiples –Disk Pool Manager (DPM), dCache, CASTOR Les données sont stockées sur différentes technologies de stockage L’interface principale doit cacher la complexité –GridFTP – transfert de fichiers sécurisée –Storage Resource Manager (SRM) – protocole de gestion des stockage Les données sont stockées à des endroits différents avec des noms différents Le File catalog fournit une vue uniforme des données de grille –LCG File Catalog (LFC)‏ Une large quantité de données doit être distribuée de manière stable Un système Robuste gère le transfert des fichiers –FTS (File transfer service)‏

7 Plateforme de Calcul pour les Sciences du Vivant 7 ExempleStorageElement1 “User interface” LCG File Catalog (LFC)‏ Storage Element 2 Fichiers répliqués sur 2 SE “Myfile.dat” Myfile.dat File_on_se1 File_on_se2 GUID ComputingElement

8 Plateforme de Calcul pour les Sciences du Vivant Exemple ResourceBrokerStorage Element 1 ComputingElement Input “sandbox” Input “sandbox” + Broker Info Output “sandbox” “User interface” Storage Element 2 1 st job écrit et répliques les sorties sur 2 SE Max. 10MB DataSets info LCG FileCatalog (LFC)

9 Plateforme de Calcul pour les Sciences du Vivant Exemple ResourceBrokerStorage Element 1 ComputingElement Input “sandbox” Input “sandbox” + Broker Info Output “sandbox” “User interface” Storage Element 2 2 nd job lit l’entrée depuis le SE Max. 10MB DataSets info LCG FileCatalog (LFC) garde le calcul proche du stockage

10 Plateforme de Calcul pour les Sciences du Vivant LFNStorage Element 1 “User interface” LCG FileCatalog (LFC) Storage Element 2 Le contenu est disponible sur les 2 SE “Myfile.dat” Myfile.dat File_on_se1 File_on_se2

11 Plateforme de Calcul pour les Sciences du Vivant Storage Element 1 “User interface” LCG FileCatalog (LFC) Storage Element 2 “Myfile.dat” Myfile.dat “Logical filename” File_on_se1 (“SURL”: site URL) File_on_se2 (“SURL”: site URL) “GUID” Global Unique Identifier LFN Le contenu d’un fichier ne peut pas changer  il est inutile de resynchroniser les réplicas

12 Plateforme de Calcul pour les Sciences du Vivant 12 Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes

13 Plateforme de Calcul pour les Sciences du Vivant 13 Convention de nommage Logical File Name (LFN) alias créé par un utilisateur pour référencer des données e.g. “lfn:/grid/biomed/reichma/chocapic” Globally Unique Identifier (GUID) Un identifiant unique illisible qui référence une donnée e.g. “guid:f81d4fae-7dec-11d0-a765-00a0c91e6bf6” Storage URL (SURL) ou Physical File Name (PFN) La localisation physique d’un ensemble de données sur un système de stockage e.g. :// “sfn://tbed01.cern.ch/data/biomed/reichma/mytest.dat” “ srm://dpm.grid.sinica.edu.tw/grid/home/biomed/mytest.dat ” Transport URL (TURL)‏ Localisation temporaire d’un réplica e.g. :// : / “ gsiftp://dpm.grid.sinica.edu.tw:2811/grid/home/biomed/mytest.dat ”

14 Plateforme de Calcul pour les Sciences du Vivant 14 Outline Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes

15 Plateforme de Calcul pour les Sciences du Vivant 15 Storage Element Définitions –Les types standards de SE sont:  DPM  dCache  Castor (utilisé au CERN, ASGC...)‏  StoRM, … –accès aux fichiers de type POSIX  via Grid File Access Library(GFAL) –Espace de stockage pour les fichiers  permet une gestion stable –Protocole de transfert (gsiFTP) –Interface SRM

16 Plateforme de Calcul pour les Sciences du Vivant 16 SRM (Storage Resource Manager) Fournit un Accès Uniforme Standard d’accès aux données Client User/Application Grid Middleware SRM Castor dCache DPM Storage Resource Manager

17 Plateforme de Calcul pour les Sciences du Vivant 17 Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes

18 Plateforme de Calcul pour les Sciences du Vivant 18 Les services LFC LFC = LCG File Catalogue –LCG = LHC Computing Grid –LHC = Large Hadron Collider Fournit –un lien entre LFN, GUID et SURL –Transactions, Sessions –un espace de nommage hiérarchique, des liens symboliques Tous les membres d’une VO ont les permissions écriture/lecture dans leurs répertoires Les commandes ressemblent à celles d’UNIX avec “lfc-” avant‏

19 Plateforme de Calcul pour les Sciences du Vivant 19 LFC Les utilisateurs accèdent tout d’abord aux données et les gèrent à travers les “fichiers logiques” Mapping par le “LFC” Défini par l’utilisateur arborescence LFC Le LFC a une structure en arborescence /grid/ / Exemple : /grid/biomed/reichma/testfiles.dat

20 Plateforme de Calcul pour les Sciences du Vivant 20 2 types de commandes Les commandes lfc –Utilisée pour interagir avec seulement le catalogue  pour créer des répertoires  pour lister des fichiers –Utilisés par les utilisateurs et les commandes lcg Les commandes lcg –Couplent les opérations du LFC avec les opérations de gestion –copient les fichiers de/vers/entre les SE –gèrent la réplication des données

21 Plateforme de Calcul pour les Sciences du Vivant 21 Les commandes LFC ajoute/change un commentairelfc-setcomment Mets en place des contrôle d’accèslfc-setacl Supprime un fichier/répertoirelfc-rm Renomme un répertoire/fichierlfc-rename Crée un répertoirelfc-mkdir Liste les fichiers/répertoires dans un répertoirelfc-ls Crée un lien symboliquelfc-ln Récupère les listes de contrôle d’accèslfc-getacl supprime les commentaires associéslfc-delcomment Change l’appartenance d’un fichier/répertoirelfc-chown Change les droits d’accès vers un fichier/répertoirelfc-chmod Résumé des commandes LFC

22 Plateforme de Calcul pour les Sciences du Vivant 22 Les commandes LCG Replica Management mets le statut d’un SURL à done pour une requête SRM donnéelcg-sd récupère le TURL d’un SURL donnélcg-gt réplique entre plusieurs SE un fichierlcg-rep supprime un fichierlcg-del copie un fichier local sur la grille et l’enregistre dans le lfclcg-cr copie un fichier de la grille en locallcg-cp

23 Plateforme de Calcul pour les Sciences du Vivant 23 /grid/biomed/test_SE.002 srm://castorsc.grid.sinica.edu.tw/castor/grid.sinica.edu.tw/sc/biomed/ge nerated/ /filec025611a b6e0-5261e5ec095c gsiftp:// lcg00116.grid.sinica.edu.tw:2811/flatfiles/SE00/dt/stage/filec025611a b6e0-5261e5ec095c c033f475-cc6a-4556-a42c-60fb /castor/grid.sinica.edu.tw/sc/biomed/generated/ /filec025611a b6e0-5261e5ec095c lcg00116.grid.sinica.edu.tw/flatfiles/SE00/dt/stage/filec025611a b6e0-5261e5ec095c LFN GUID SURL TURL Physical File Name Logic File Name SE LFC

24 Plateforme de Calcul pour les Sciences du Vivant 24 Gestion de données: outils bas niveau Use case: Copie d’un fichier d’un SE1 à un SE2 Disk pool Disk pool Gridftp serverN gridftp::STOR gridftp::RETR globus-url-copy gsiftp://gFTP1/.. gsiftp://gFTPn/.. SURL TURL Gridftp server2 Gridftp server3 Gridftp serverN-1 Gridftp server1 pas toujours inscrit dans l’IS SE1 SE2

25 Plateforme de Calcul pour les Sciences du Vivant 25 Use case: copie d’un fichier d’un SE1 vers une UI locale Disk pool srmcp srm://srm1.source/.. file:////mydir/MYFLE Gridftp server2 Gridftp server3 Gridftp server1 SE1 SRM server caché à l’utilisateur Exposé à l’utilisateur Gestion de données: outils moyen niveau

26 Plateforme de Calcul pour les Sciences du Vivant 26 Use case: copie d’un fichier vers un SE et enregistrement dans le LFC lcg-cr -vo MyVO file://$PWD/text_file.txtfile://$PWD/text_file.txt -d se.destination lfn:/grid/MyVO/myDIR/myFILE LFC server SRM SE1 gridftp1 gridftp2 gridftp3 pool Depuis l’IS, vous pouvez tout savoir du SE Copy Register Vous pouvez tracer vos données depuis le LFC Gestion de données: outils haut niveau

27 Plateforme de Calcul pour les Sciences du Vivant 27 Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes

28 Plateforme de Calcul pour les Sciences du Vivant Répliquer des données de la grille Répliquer des données –Dupliquer le fichier toto grâce au LFN toto.test sur le SE SE.in2p3.fr lcg-rep –d SE.in2p3.fr --vo gilda lfn:toto.test Supprimer des données –Supprimer le fichier toto grâce au LFN toto.test sur le SE SE.in2p3.fr –L’option –a permet de supprimer tous les replicas lcg-del –s SE.in2p3.fr --vo gilda lfn:toto.test lcg-del -a --vo gilda lfn:toto.test

29 Plateforme de Calcul pour les Sciences du Vivant Récupérer des données de la grille Copier des données grille => UI –Mettre le fichier toto avec le LFN toto.test sur l’UI dans /myhome/ lcg-cp --vo gilda lfn:toto.test file:/myhome/toto

30 Plateforme de Calcul pour les Sciences du Vivant Soumettre des données avec le job Utiliser l’attribut InputSandbox dans le JDL Attention : on ne peut pas utiliser ce champ pour un trop grand transfert (plusieurs megabytes) InputSandbox = {“toto“, “job.sh”};

31 Plateforme de Calcul pour les Sciences du Vivant Adresser des données stockées sur la grille au job Il faut des données stockées et enregistrées sur la grille (dans le RLS) Spécifier les données au job par l’attribut InputData dans le JDL InputData = “lfn:toto” Dans le script d’éxecution de votre job, utilisez la commande – export LCG_GFAL_INFOSYS=grid004.ct.infn.it:2170 – lcg-cp --vo gilda lfn:toto.test file:`pwd`/toto

32 Plateforme de Calcul pour les Sciences du Vivant Récupérer les données résultat sur l’UI Définir le job pour récupérer les données –Le job génère des données dans le répertoire de travail du WN –A la fin du job, les données sont placées dans l’espace de stockage temporaire du RB –Vous les récupérez via “glite-wms-job-output” Eléments clé : –Vous devez connaître les noms des fichiers que vous souhaitez récupérer –OutputSandbox = {“toto", “toto.out“,”toto.err”}; –Méthode non destinée pour de gros fichiers (> centaine MB)  espace de stockage temporaire limité sur le RB

33 Plateforme de Calcul pour les Sciences du Vivant Stocker les données résultat sur la grille Le programme génère des données dans un fichier sur le WN Le programme doit connaître quel est le nom du fichier sur le WN Le programme utilise les commandes lcg-cp, lcg-cr : Spécifier les données aux jobs par l’attribut outputData dans le JDL –Si aucun LFN n’est précisé, WMS en choisit un –Si aucun SE n’est précisé, le SE le plus proche est choisi OutputData = { [ OutputFile = “toto.out” ; StorageElement = “adc0021.cern.ch” ; LogicalFileName = “lfn:chocapic” ; ], [ OutputFile = “toto2.out” ; StorageElement = “adc0021.cern.ch” ; LogicalFileName = “lfn:chocapic2” ; ] }; Un fichier contenant le résultat de cette opération est créé et ajouté à la output Sandbox –DSUpload_.out


Télécharger ppt "Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE."

Présentations similaires


Annonces Google