Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parCustance Dumas Modifié depuis plus de 10 années
1
Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE
2
Plateforme de Calcul pour les Sciences du Vivant 2 Outline Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes
3
Plateforme de Calcul pour les Sciences du Vivant 3 Data Management System (DMS) Fournit des services de manipulation des données pour les utilisateurs et les services de grille. DMS permet la location, l’accès et le transfert des données –L’utilisateur n’a pas besoin de connaître la localisation des données, juste le nom logique qui leur est associé –On accède aux données à travers des interfaces standards –Les données peuvent être répliquées ou transférées vers autant de destinations qu’il est nécessaire –Les données sont partagées par tous les membres d’une VO
4
Plateforme de Calcul pour les Sciences du Vivant 4 Zoom sur les services Le DMS fournit toutes les opérations utiles pour: Uploader / télécharger des fichiers Créer des fichiers / répertoires Renommer des fichiers / répertoires Supprimer des fichiers / répertoires Déplacer des fichiers / répertoires Lister des répertoires Créer des liens symboliques Note: Les fichiers ne sont inscriptibles qu’une fois, mais visibles plusieurs fois –Les fichiers ne peuvent être changés que s’ils sont supprimés ou déplacés
5
Plateforme de Calcul pour les Sciences du Vivant 5 3 types de services pour DM: –Storage (SE's): où les fichiers sont “physiquement” localisés Storage URL ou SURL: srm://castorsc.grid.sinica.edu.tw/data/biomed/mytest.dat –Catalogs: Espace de nommage de haut niveau place les fichiers “physiques” dans des noms virtuels “logiques” Logical File Name ou LFN: lfn:/grid/biomed/mytest.dat –Mouvement de fichiers: pose/prend les fichiers sur les SE déplace/réplique les fichiers entre les SE Transport URL ou TURL: gsiftp://sc003.grid.sinica.edu.tw:2811/data/biomed/mytest.dat Services de gestion dans gLite
6
Plateforme de Calcul pour les Sciences du Vivant 6 Le challenge de la gestion des données fait face à une hausse croissante de la demande de stockage Storage Element capable de gérer des pools de disques multiples –Disk Pool Manager (DPM), dCache, CASTOR Les données sont stockées sur différentes technologies de stockage L’interface principale doit cacher la complexité –GridFTP – transfert de fichiers sécurisée –Storage Resource Manager (SRM) – protocole de gestion des stockage Les données sont stockées à des endroits différents avec des noms différents Le File catalog fournit une vue uniforme des données de grille –LCG File Catalog (LFC) Une large quantité de données doit être distribuée de manière stable Un système Robuste gère le transfert des fichiers –FTS (File transfer service)
7
Plateforme de Calcul pour les Sciences du Vivant 7 ExempleStorageElement1 “User interface” LCG File Catalog (LFC) Storage Element 2 Fichiers répliqués sur 2 SE “Myfile.dat” Myfile.dat File_on_se1 File_on_se2 GUID ComputingElement
8
Plateforme de Calcul pour les Sciences du Vivant Exemple ResourceBrokerStorage Element 1 ComputingElement Input “sandbox” Input “sandbox” + Broker Info Output “sandbox” “User interface” Storage Element 2 1 st job écrit et répliques les sorties sur 2 SE Max. 10MB DataSets info LCG FileCatalog (LFC)
9
Plateforme de Calcul pour les Sciences du Vivant Exemple ResourceBrokerStorage Element 1 ComputingElement Input “sandbox” Input “sandbox” + Broker Info Output “sandbox” “User interface” Storage Element 2 2 nd job lit l’entrée depuis le SE Max. 10MB DataSets info LCG FileCatalog (LFC) garde le calcul proche du stockage
10
Plateforme de Calcul pour les Sciences du Vivant LFNStorage Element 1 “User interface” LCG FileCatalog (LFC) Storage Element 2 Le contenu est disponible sur les 2 SE “Myfile.dat” Myfile.dat File_on_se1 File_on_se2
11
Plateforme de Calcul pour les Sciences du Vivant Storage Element 1 “User interface” LCG FileCatalog (LFC) Storage Element 2 “Myfile.dat” Myfile.dat “Logical filename” File_on_se1 (“SURL”: site URL) File_on_se2 (“SURL”: site URL) “GUID” Global Unique Identifier LFN Le contenu d’un fichier ne peut pas changer il est inutile de resynchroniser les réplicas
12
Plateforme de Calcul pour les Sciences du Vivant 12 Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes
13
Plateforme de Calcul pour les Sciences du Vivant 13 Convention de nommage Logical File Name (LFN) alias créé par un utilisateur pour référencer des données e.g. “lfn:/grid/biomed/reichma/chocapic” Globally Unique Identifier (GUID) Un identifiant unique illisible qui référence une donnée e.g. “guid:f81d4fae-7dec-11d0-a765-00a0c91e6bf6” Storage URL (SURL) ou Physical File Name (PFN) La localisation physique d’un ensemble de données sur un système de stockage e.g. :// “sfn://tbed01.cern.ch/data/biomed/reichma/mytest.dat” “ srm://dpm.grid.sinica.edu.tw/grid/home/biomed/mytest.dat ” Transport URL (TURL) Localisation temporaire d’un réplica e.g. :// : / “ gsiftp://dpm.grid.sinica.edu.tw:2811/grid/home/biomed/mytest.dat ”
14
Plateforme de Calcul pour les Sciences du Vivant 14 Outline Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes
15
Plateforme de Calcul pour les Sciences du Vivant 15 Storage Element Définitions –Les types standards de SE sont: DPM dCache Castor (utilisé au CERN, ASGC...) StoRM, … –accès aux fichiers de type POSIX via Grid File Access Library(GFAL) –Espace de stockage pour les fichiers permet une gestion stable –Protocole de transfert (gsiFTP) –Interface SRM
16
Plateforme de Calcul pour les Sciences du Vivant 16 SRM (Storage Resource Manager) Fournit un Accès Uniforme Standard d’accès aux données Client User/Application Grid Middleware SRM Castor dCache DPM Storage Resource Manager
17
Plateforme de Calcul pour les Sciences du Vivant 17 Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes
18
Plateforme de Calcul pour les Sciences du Vivant 18 Les services LFC LFC = LCG File Catalogue –LCG = LHC Computing Grid –LHC = Large Hadron Collider Fournit –un lien entre LFN, GUID et SURL –Transactions, Sessions –un espace de nommage hiérarchique, des liens symboliques Tous les membres d’une VO ont les permissions écriture/lecture dans leurs répertoires Les commandes ressemblent à celles d’UNIX avec “lfc-” avant
19
Plateforme de Calcul pour les Sciences du Vivant 19 LFC Les utilisateurs accèdent tout d’abord aux données et les gèrent à travers les “fichiers logiques” Mapping par le “LFC” Défini par l’utilisateur arborescence LFC Le LFC a une structure en arborescence /grid/ / Exemple : /grid/biomed/reichma/testfiles.dat
20
Plateforme de Calcul pour les Sciences du Vivant 20 2 types de commandes Les commandes lfc –Utilisée pour interagir avec seulement le catalogue pour créer des répertoires pour lister des fichiers –Utilisés par les utilisateurs et les commandes lcg Les commandes lcg –Couplent les opérations du LFC avec les opérations de gestion –copient les fichiers de/vers/entre les SE –gèrent la réplication des données
21
Plateforme de Calcul pour les Sciences du Vivant 21 Les commandes LFC ajoute/change un commentairelfc-setcomment Mets en place des contrôle d’accèslfc-setacl Supprime un fichier/répertoirelfc-rm Renomme un répertoire/fichierlfc-rename Crée un répertoirelfc-mkdir Liste les fichiers/répertoires dans un répertoirelfc-ls Crée un lien symboliquelfc-ln Récupère les listes de contrôle d’accèslfc-getacl supprime les commentaires associéslfc-delcomment Change l’appartenance d’un fichier/répertoirelfc-chown Change les droits d’accès vers un fichier/répertoirelfc-chmod Résumé des commandes LFC
22
Plateforme de Calcul pour les Sciences du Vivant 22 Les commandes LCG Replica Management mets le statut d’un SURL à done pour une requête SRM donnéelcg-sd récupère le TURL d’un SURL donnélcg-gt réplique entre plusieurs SE un fichierlcg-rep supprime un fichierlcg-del copie un fichier local sur la grille et l’enregistre dans le lfclcg-cr copie un fichier de la grille en locallcg-cp
23
Plateforme de Calcul pour les Sciences du Vivant 23 /grid/biomed/test_SE.002 srm://castorsc.grid.sinica.edu.tw/castor/grid.sinica.edu.tw/sc/biomed/ge nerated/2006-03-09/filec025611a-4619-4730-b6e0-5261e5ec095c gsiftp:// lcg00116.grid.sinica.edu.tw:2811/flatfiles/SE00/dt/stage/filec025611a- 4619-4730-b6e0-5261e5ec095c.815277 c033f475-cc6a-4556-a42c-60fb29274524 /castor/grid.sinica.edu.tw/sc/biomed/generated/2006-03- 09/filec025611a-4619-4730-b6e0-5261e5ec095c lcg00116.grid.sinica.edu.tw/flatfiles/SE00/dt/stage/filec025611a-4619-4730- b6e0-5261e5ec095c.815277 LFN GUID SURL TURL Physical File Name Logic File Name SE LFC
24
Plateforme de Calcul pour les Sciences du Vivant 24 Gestion de données: outils bas niveau Use case: Copie d’un fichier d’un SE1 à un SE2 Disk pool Disk pool Gridftp serverN gridftp::STOR gridftp::RETR globus-url-copy gsiftp://gFTP1/.. gsiftp://gFTPn/.. SURL TURL Gridftp server2 Gridftp server3 Gridftp serverN-1 Gridftp server1 pas toujours inscrit dans l’IS SE1 SE2
25
Plateforme de Calcul pour les Sciences du Vivant 25 Use case: copie d’un fichier d’un SE1 vers une UI locale Disk pool srmcp srm://srm1.source/.. file:////mydir/MYFLE Gridftp server2 Gridftp server3 Gridftp server1 SE1 SRM server caché à l’utilisateur Exposé à l’utilisateur Gestion de données: outils moyen niveau
26
Plateforme de Calcul pour les Sciences du Vivant 26 Use case: copie d’un fichier vers un SE et enregistrement dans le LFC lcg-cr -vo MyVO file://$PWD/text_file.txtfile://$PWD/text_file.txt -d se.destination lfn:/grid/MyVO/myDIR/myFILE LFC server SRM SE1 gridftp1 gridftp2 gridftp3 pool Depuis l’IS, vous pouvez tout savoir du SE Copy Register Vous pouvez tracer vos données depuis le LFC Gestion de données: outils haut niveau
27
Plateforme de Calcul pour les Sciences du Vivant 27 Data Management –Concept général –Les conventions de nommage –Storage Elements et SRM –File Catalog et outils de DM Cas pratiques / Commandes
28
Plateforme de Calcul pour les Sciences du Vivant Répliquer des données de la grille Répliquer des données –Dupliquer le fichier toto grâce au LFN toto.test sur le SE SE.in2p3.fr lcg-rep –d SE.in2p3.fr --vo gilda lfn:toto.test Supprimer des données –Supprimer le fichier toto grâce au LFN toto.test sur le SE SE.in2p3.fr –L’option –a permet de supprimer tous les replicas lcg-del –s SE.in2p3.fr --vo gilda lfn:toto.test lcg-del -a --vo gilda lfn:toto.test
29
Plateforme de Calcul pour les Sciences du Vivant Récupérer des données de la grille Copier des données grille => UI –Mettre le fichier toto avec le LFN toto.test sur l’UI dans /myhome/ lcg-cp --vo gilda lfn:toto.test file:/myhome/toto
30
Plateforme de Calcul pour les Sciences du Vivant Soumettre des données avec le job Utiliser l’attribut InputSandbox dans le JDL Attention : on ne peut pas utiliser ce champ pour un trop grand transfert (plusieurs megabytes) InputSandbox = {“toto“, “job.sh”};
31
Plateforme de Calcul pour les Sciences du Vivant Adresser des données stockées sur la grille au job Il faut des données stockées et enregistrées sur la grille (dans le RLS) Spécifier les données au job par l’attribut InputData dans le JDL InputData = “lfn:toto” Dans le script d’éxecution de votre job, utilisez la commande – export LCG_GFAL_INFOSYS=grid004.ct.infn.it:2170 – lcg-cp --vo gilda lfn:toto.test file:`pwd`/toto
32
Plateforme de Calcul pour les Sciences du Vivant Récupérer les données résultat sur l’UI Définir le job pour récupérer les données –Le job génère des données dans le répertoire de travail du WN –A la fin du job, les données sont placées dans l’espace de stockage temporaire du RB –Vous les récupérez via “glite-wms-job-output” Eléments clé : –Vous devez connaître les noms des fichiers que vous souhaitez récupérer –OutputSandbox = {“toto", “toto.out“,”toto.err”}; –Méthode non destinée pour de gros fichiers (> centaine MB) espace de stockage temporaire limité sur le RB
33
Plateforme de Calcul pour les Sciences du Vivant Stocker les données résultat sur la grille Le programme génère des données dans un fichier sur le WN Le programme doit connaître quel est le nom du fichier sur le WN Le programme utilise les commandes lcg-cp, lcg-cr : Spécifier les données aux jobs par l’attribut outputData dans le JDL –Si aucun LFN n’est précisé, WMS en choisit un –Si aucun SE n’est précisé, le SE le plus proche est choisi OutputData = { [ OutputFile = “toto.out” ; StorageElement = “adc0021.cern.ch” ; LogicalFileName = “lfn:chocapic” ; ], [ OutputFile = “toto2.out” ; StorageElement = “adc0021.cern.ch” ; LogicalFileName = “lfn:chocapic2” ; ] }; Un fichier contenant le résultat de cette opération est créé et ajouté à la output Sandbox –DSUpload_.out
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.