Gilbert GROSDIDIER IN2P3-LAL-CNRS & CERN-LCG-GD LAL-Orsay - 09/10/2007

Slides:



Advertisements
Présentations similaires
EGEE is a project funded by the European Union under contract IST Gestion des données David Bouvet CCIN2P3 Présentation faite à partir des.
Advertisements

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks TP Data Management René Météry CS Tutorial.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Data management David Bouvet IN2P3-CC Clermont.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Quelques commandes de la grille David Bouvet.
Edit Knoops CPPM 20/01/2009 Enabling Grids for E-sciencE Gestion des données Gestion des jobs Edith Knoops.
INFSO-RI Enabling Grids for E-sciencE Gestion des Données David Bouvet CCIN2P /10/10.
INFSO-RI Enabling Grids for E-sciencE Data management Daniel Jouvenot IN2P3-LAL ORSAY - 02/02/2007.
INFSO-RI Enabling Grids for E-sciencE La gestion des données Daniel Jouvenot LAL-IN2P3-CNRS 18/06/2008.
INFSO-RI Enabling Grids for E-sciencE Statistiques d'usage d'un site de la grille LCG/EGEE Emmanuel Medernach, IN2P3 LPC.
ENT ENVOLE – Mes Dossiers Académie de la Réunion.
Subversion. 2 Subversion : Pour Quoi Faire ? Problèmes de la gestion du code dans un projet – La durée de vie du projet peut être longue : besoin de gérer.
Made with OpenOffice.org 1 Travailler en réseau intranet à l'école Un réseau : pourquoi ? Architecture du réseau Partager un dossier Enregistrer en réseau.
INFSO-RI Enabling Grids for E-sciencE Gestion des Données Présentation : G. Philippon (LAL CNRS) IPN Orsay, 7/8 Juillet 2009 Ecriture.
Quelques commandes de base I. Se déplacer dans l'arborescence Change directory (cd), print working directory (pwd) II. Lister des fichiers List (ls) III.
Guide de l'enseignant SolidWorks, leçon 1 Nom de l'établissement Nom de l'enseignant Date.
GOOGLE MAPS ANDROID API V2. INTRODUCTION TO THE GOOGLE MAPS ANDROID API V2.
Guide d’utilisation d’Europresse. Europresse : Qu’est-ce que c’est Un portail d’archives de presse Plus de 3000 sources disponibles dont environ 650 en.
Utiliser le nouveau site internet du lycée niort/
Réaliser un CD lecteur de salon (photos ou vidéos) pouvant être lu
Cours 08 SYSTÈME DE FICHIERS
Cross-Plateform Cours JavaScript
Recherche Summon - HINARI (Module 3)
Comment Sécuriser Le Système d’information de son entreprise
Titre Noms des auteurs 1. A propos de ce chablon
Session 1 6 mars 2017 Plateforme ICONICS Justine Guégan
Les commandes du système de fichiers
L’essentiel à retenir BUDI - Vision partenaires
Javadoc et débogueur Semaine 03 Version A16.
Principes de programmation (suite)
Présentation J GUIRANDE.
C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 2 février 2007
Guillaume Philippon Tutoriel git.
Soumission de jobs Tutorial Grille (LCG/EGEE)
GRIF : Grille pour la Recherche en
Configuration de routes Statiques Flottantes
Module 3 comment ranger son ordinateur ?
12 mars 2004, Lyon Reunion CAF F.Chollet 1
Surveillance des services grille par NAGIOS
Fonctionnement de la grille
David Bouvet, David Weissenbach Observatoire de Meudon, 01-02/02/2011
Soumission de jobs C. Loomis / M. Jouvin (LAL-Orsay)
Semaine #4 INF130 par Frédérick Henri.
1ers pas des utilisateurs migrés
David Bouvet IN2P3-CC Annecy - 27/09/2007
David Bouvet LCG France T2 T3 – LPNHE
Auteurs : David Bouvet, David Weissenbach
Jobs ATLAS sur la grille
Exercices: Système d’Information
Documentation technique (Linux)
Notion De Gestion De Bases De Données
Création Et Modification De La Structure De La Base De Données
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
Guide Utilisateur. Guide Utilisateur.
Gestion des fichiers Niv2
Programmation Orientée Objet
Infrastructure Opérationnelle d’EGEE
Assembleur, Compilateur et Éditeur de Liens
La facture électronique
Module 13 : Implémentation de la protection contre les sinistres
Présentation générale
Windows 7 NTFS.
Chapitre 3: Les scriptes
PRO1026 Programmation et enseignement
Infrastructure Opérationnelle d’EGEE2
Les différents modes de démarrage de Windows
Patrick Poulingeas (CRI de Limoges)
LUSTRE Integration to SRM
03/05/2019 L’organisation et la gestion des fichiers sur le site collaboratif Martine Cochet 2SitePleiadeGestionFichiers.
Support de formation Administrateur Entretiens
Backup des Postes de Travail
Transcription de la présentation:

Gilbert GROSDIDIER IN2P3-LAL-CNRS & CERN-LCG-GD LAL-Orsay - 09/10/2007 Gestion des Données Gilbert GROSDIDIER IN2P3-LAL-CNRS & CERN-LCG-GD LAL-Orsay - 09/10/2007

Plan Les principaux systèmes Les commandes de base Mettre des données sur la grille Retrouver ces données Trouver l’information Dupliquer les données Effacer les données La gestion des données au cours d’un job Données sur votre bureau Données sur la grille Le catalogue LFC Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Point suivant Les principaux systèmes mis en jeu Les commandes de base La gestion des données pendant un job sur la grille Le catalogue LFC Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Les principaux systèmes Gestion de l’espace de noms logiques : le LCG File Catalog (LFC) Garde la trace de la localisation physique des diverses copies d’un fichier sur la grille Fournit le GUID (Globally Unique Identifier) du fichier, et aussi le SURL (Storage URL) Présente une arborescence et des commandes façon « système de fichiers » C’est l’interface avec l’utilisateur Gestion de l’espace de noms physiques : le Storage Resource Manager (SRM) Utilise le GUID (ou le SURL) et nous fournit le TURL (Transport URL) C’est l’interface avec la DB et les systèmes de stockage Disques, bandes, MSS, … Les protocoles de transfert de données : rfio, gsiftp, (xroot) Utilisent le TURL Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Point suivant Les principaux systèmes mis en jeu Les commandes de base La gestion des données pendant un job sur la grille Le catalogue LFC Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Mettre des données sur la grille Copier le fichier /home/myhome/toto (ordinateur local) sur le Storage Element leSEchoisi.in2p3.fr et l’enregistrer avec le nom de fichier logique macopie.test lcg-cr -d leSEchoisi.in2p3.fr \ –l lfn:/grid/gilda/myname/macopie.test \ --vo gilda file:/home/myhome/toto La commande ci-dessus retourne le “GUID” : guid:76373236-b4c7-11d8-bb5e-eba42b5000d0 Les GUID sont permanents, les LFN non ! Storage Element – machine accessible par la grille pour le stockage de données Logical File Name – nom de fichier symbolique avec lequel vous pouvez faire référence à un fichier grille sans préciser sa localisation physique Remarque : les LFNs peuvent comporter des dossiers et sous-dossiers et l’utilisateur est libre de les organiser à sa guise Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Retrouver vos données Localisez vos données en utilisant le LFN : lcg-lr --vo gilda \ lfn:/grid/gilda/macopie.test Ou bien le GUID : guid:76373236-b4c7-11d8-bb5e-eba42b5000d0 Ces commandes retournent le SURL : sfn://leSEchoisi.in2p3.fr/grid/gilda/tutorial/data/generated/2004-11-10/file7115df45-b4c7-11d8-bb5e-eba42b5000d0 lcg-lr (listReplicas) : “replicas” car on peut avoir plusieurs copies sur des SE différents – les LFN et GUID font référence à toutes les copies Exercice inverse : obtenir une copie locale de vos données lcg-cp --vo gilda \ guid:76373236-b4c7-11d8-bb5e-eba42b5000d0 \ file:`pwd`/newcopy Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Découvrir les ressources locales Comment trouver les SEs disponibles localement ? lcg-infosites –-vo atlas se Avail Space(Kb) Used Space(Kb) Type SEs ---------------------------------------------------------- 845990 1 n.a sa3-se.egee.cesga.es 102800000 n.a n.a se201.grid.ucy.ac.cy n.a n.a n.a dublin.desy.de n.a 22095 n.a ctb04.gridctb.uoa.gr 6200000 5642131 n.a lxb1921.cern.ch Beaucoup d’autres informations peuvent être affichées le nom des serveurs LFC : utiliser l’argument lfc (au lieu de se) Toutes les ressources disponibles : argument all Autres arguments possibles : ce, closeSE, rb Attention : l’option ‘--vo’ est toujours vitale Un SE peut être valide pour une VO et pas pour une autre Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Le SE par défaut Sur un UI, si votre VO est ‘gilda’, le SE par défaut est : $VO_GILDA_DEFAULT_SE Sur un WN, c’est le closeSE utiliser la commande ‘ lcg-infosite --vo gilda closeSE ’ Dans les 2 cas, si l’on ne désire pas sélectionner à l’avance le SE (dans la commande lcg-cr, par ex.), on omet l’option -d, et le SE par défaut sera retenu Par ex., dans un job, on ne sait pas dans quel site il sera éxécuté, donc on ne sait pas quel SE il faudra spécifier On pourrait ensuite retrouver ce SE à l’aide de lcg-lr Ce n’est pas nécessaire, seul le GUID (ou le LFN) est important et devra être spécifié dans une opération de copie, de relecture, ou d’effacement Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Dupliquer les données Dupliquer vos données vers un autre SE à partir du LFN (ou GUID ou SURL) du fichier lcg-rep --vo gilda \ lfn:/grid/gilda/myname/macopie.test \ –d lautreSE.cern.ch Si vous listez maintenant ce LFN avec lcg-lr, vous obtiendrez cette liste : sfn://leSEchoisi.in2p3.fr/grid/gilda/tutorial/data/generated/2004-11-10/file7115df45-b4c7-11d8-bb5e-eba42b5000d0 srm://lautreSE.cern.ch/pnfs/cern.ch/data/gilda/generated/2005-11-28/file46034814-3021-47e0-a382-60cde5efbdf0 Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Effacer les données Pour effacer un replica sur un SE : lcg-del --vo gilda –s lautreSE.cern.ch \ lfn:/grid/gilda/myname/macopie.test Il faut spécifier le SE car s’il y a plusieurs replicas, la commande ne sait pas quel fichier effacer. Pour effacer tous les replicas d’un même fichier, il faut rajouter l’option –a Le catalogue LFC est mis à jour automatiquement Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Point suivant Les principaux systèmes mis en jeu Les commandes de base La gestion des données pendant un job sur la grille Le catalogue LFC Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

L’accès aux données dans un job Disposer des données produites dans le job (output) Récupérer simplement les données sur votre machine de bureau Rendre ces données disponibles/accessibles sur la grille Lire des données locales dans le job (input) Spécifier des données au moment de la soumission du job Disposer vos données sur la grille avant un job Accéder á vos données grille depuis l’intérieur du job Déplacer des données d’un point à un autre sur la grille Comment retrouver vos données après coup ? Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Récupérer les données localement Le job génère des données dans le répertoire de travail du WN, et vous souhaitez simplement les récupérer sur votre machine locale (UI) A la fin du job, les fichiers nouveaux sont placés dans un espace de stockage temporaire (sur le RB) Vous les récupérerez via “edg-job-get-output” Eléments clés : vous devrez spécifier les noms des fichiers que vous souhaitez récupérer dans le JDL du job par la clause : OutputSandbox = {“higgs.root", “graviton.HDF"}; méthode fortement déconseillée pour de gros fichiers (> 100MB)  espace de stockage temporaire limité Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Rendre les données disponibles sur la grille Le champ OutputData du JDL permet de spécifier où les fichiers doivent aller si aucun LFN n’est précisé, le système en choisit un si aucun SE n’est précisé, le SE le plus proche est choisi l’attribut OutputFile permet de préciser le nom du fichier local concerné OutputData = { [ OutputFile = “toto.out” ; StorageElement = “leSEchoisi.in2p3.fr” ; LogicalFileName = “lfn:/grid/gilda/theBestTotoEver” ; ], [ OutputFile = “toto2.out” ; StorageElement = “lautreSE.cern.ch” ; LogicalFileName = “lfn:/grid/gilda/theBestTotoEver2” ; ] }; A la fin du job, les fichiers seront effacés du WN et enregistrés sur le(s) SE(s) automatiquement Périmé Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Adresser les données en Input Pour vos données « locales » : C’est facile : utiliser le champ InputSandbox du JDL InputSandbox = {“input-ntuple.root“, “job.sh”}; Attention : on ne peut pas utiliser ce champ pour de trop gros transferts (qqes MB seulement) Pour vos données « grille » : Spécifiez les données grille à l’aide du champ InputData : InputData = {“lfn:/grid/gilda/myfile.dat”, “guid:f62344d9-ca25-458a-adf7-9d8150031dcd”}; Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Lire les Données en Input Le Resource Broker place les infos concernant la correspondance avec les fichiers réels dans le fichier .BrokerInfo sur le nœud d’exécution distant (WN) Dans le script d’exécution de votre job, utilisez la commande edg-brokerinfo & les commandes lcg-* pour obtenir une copie proche des fichiers uniquement si c’est nécessaire. En effet : Si elles sont déjà accessibles localement, il est inutile de faire une copie supplémentaire Si elles ne le sont pas, le CE n’a pas pu être sélectionné par le RB pour exécuter votre job Il faudra toutefois faire une copie locale sur les disques de votre WN (lcg-cp), dans votre zone de travail Sauf si vous utilisez GFAL (voir plus loin) Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Point suivant Les principaux systèmes mis en jeu Les commandes de base La gestion des données pendant un job sur la grille Le catalogue LFC Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

LCG File Catalog (LFC) Le catalogue LFC (LCG File Catalog) présente une arborescence et des commandes façon Posix : il est possible de lister les références, de créer une nouvelle arborescence, de faire des liens symboliques… Par défaut, le catalogue utilisé est le catalogue central de la VO. lcg-infosites –vo gilda lfc retourne le nom du LFC central lcg-infosites –vo gilda lfcLocal retourne la liste des catalogues locaux de la VO Pour utiliser un catalogue local : export LFC_HOST=<hostname du LFC choisi> Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Commandes LFC Elles permettent la gestion des LFNs Racine de l’arborescence d’un LFC : /grid/<nom de la VO> on peut stocker cette racine dans la variable LFC_HOME export LFC_HOME=/grid/gilda Si on définit cette variable, l’option ‘-l lfn:mylfn ’ est en fait interprétée comme ‘-l lfn:$LFC_HOME/mylfn ’ Lister les références : lfc-ls /grid/gilda/... lfc-ls $LFC_HOME/... Créer une nouveau répertoire : lfc-mkdir /grid/gilda/.../<mon rep> Autres ex. de commandes : lfc-ln, lfc-rm, lfc-rename, lfc-getacl, lfc-setacl lfc-chmod, lfc-chown, lfc-setcomment, lfc-delcomment Aide en ligne : commande ‘man lfc-xx ’ ou simplement ‘lfc-xx ’ Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Un mot sur GFAL Jusqu’ici, les fichiers accédés par le job sont toujours locaux En lecture comme en écriture C’est un handicap quand on veut lire/écrire de gros fichiers Il faut les transférer d’abord Surtout s’ils sont plus gros que l’espace disque disponible sur le WN Pour accéder directement à des fichiers distants : GFAL GFAL : pour ‘Grid File Access Library’ Cette librairie est une API C, à la norme POSIX Elle permet, directement depuis le programme en C/C++, d’accéder aux fichiers disponibles sur un SE (même lointain) Les appels possibles sont (liste non exhaustive) : gfal_open, gfal_read, gfal_write, gfal_close, … La syntaxe des noms de fichiers est la syntaxe SURL Moyen économique, il évite des transferts inutiles ou volumineux Documentation : ‘man gfal ’, ‘man gfal_open ’, … Un exemple de code C est fourni par ‘man gfal’ Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Liens utiles Projet LCG Projet EGEE (tutorial en ligne) LCG user http://lcg.web.cern.ch/LCG/ Projet EGEE (tutorial en ligne) http://www.eu-egee.org/try-the-grid LCG user http://lcg.web.cern.ch/LCG/users/users.html LCG User Guide https://edms.cern.ch/file/454439//LCG-2-UserGuide.html LCG FAQ (pas à jour mais ça aide quand même) https://edms.cern.ch/file/495216/1/LCG-Faq.html Doc diverses sur la grille https://ggus.fzk.de/pages/docu.php User Support http://www.ggus.org/ pour soumettre un ‘bug report’ (incidents sur la VO, pour un site …) Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Merci pour votre attention Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Référence (I) : edg-brokerinfo > edg-brokerinfo --help edg-brokerinfo getCE edg-brokerinfo getDataAccessProtocol edg-brokerinfo getInputData edg-brokerinfo getSEs edg-brokerinfo getCloseSEs edg-brokerinfo getSEMountPoint <SE> edg-brokerinfo getSEFreeSpace <SE> edg-brokerinfo getLFN2SFN <LFN> edg-brokerinfo getSEProtocols <SE> edg-brokerinfo getSEPort <SE> <Protocol> edg-brokerinfo getVirtualOrganization Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Référence (II) : commandes lcg-utils Gestion des réplicas. Pour l’aide en ligne : ‘man lcg-xx ’ ou plus simplement pour une aide (très) courte : ‘lcg-xx ’ lcg-cr copyAndRegister lcg-del deleteFile lcg-gt getTurl lcg-rep replicateFile lcg-lr listReplicas lcg-cp copyToLocal lcg-la listAlias lcg-lg listGuid lcg-aa addAlias lcg-ra removeAlias lcg-sd setFileStatusToDone lcg-rf registerFile lcg-uf unregisterFile Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Référence (III) : lcg-infosites > lcg-infosites --help lcg-infosites --vo voname [--is BDII] arg(s) --vo: VO name (mandatory). --is: BDII to query (default to $LCG_GFAL_INFOSYS) se: The names of the SEs supporting user's VO ce: The names of the CEs where user's VO can run closeSE: The names of the SEs associated with each CE rb: It publishes the names of the RBs available for each VO lfc (lfcLocal): Name of the LFC (local) servers tag: The names of the tags relative to the software installed all: It displays together the informations provided by ‘se, ce’ Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

Référence (IV) : SRM v2.2 APIs Data Transfer Functions srmPrepareToGet srmStatusOfGetRequest srmPrepareToPut srmStatusOfPutRequest srmCopy srmStatusOfCopyRequest srmBringOnline srmStatusOfBringOnlineRequest srmReleaseFiles srmPutDone srmAbortRequest srmAbortFiles srmSuspendRequest srmResumeRequest srmGetRequestSummary srmExtendFileLifeTime srmGetRequestTokens Space Management Functions srmReserveSpace srmStatusOfReserveSpaceRequest srmReleaseSpace srmUpdateSpace srmGetSpaceMetaData srmChangeSpaceForFiles srmStatusOfChangeSpaceForFilesRequest srmExtendFileLifeTimeInSpace srmPurgeFromSpace srmGetSpaceTokens Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay

SRMv2.2 (suite) Permission Functions Directory Functions srmSetPermission srmCheckPermission srmGetPermission Directory Functions srmMkdir srmRmdir srmRm srmLs srmStatusOfLsRequest srmMv Discovery Functions srmGetTransferProtocols srmPing Introduction à EGEE, 8-9/10/2007 - GG @ LAL-Orsay