EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Data Management René Météry CS Tutorial EGEE Marseille, 3-4 Oct 2006
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Sommaire Vision du Data Management Les services de Data Management –Storage element –Catalogues –Transfert de fichiers Les conventions de nommage Le storage element : DPM Le catalogue de fichier : LFC Le service de transfert de fichier : FTS Le service de cryptage de données : EDS et Hydra Librairies POSIX I/O : GFAL Liens
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Vision du Data Management Les services de Data Management –Storage element –Catalogues –Transfert de fichiers Les conventions de nommage Le storage element : DPM Le catalogue de fichier : LFC Le service de transfert de fichier : FTS Le service de cryptage de données : EDS et Hydra Librairies POSIX I/O : GFAL Liens
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Vision du Data Management Les fichiers sont écrits une fois, lus plusieurs fois –Si des utilisateurs éditent des fichiers alors Ils les gèrent Ils viennent peut-être juste d’en créer un nouveau –Pas d’intention de fournir un système global de gestion de fichiers 3 types de services pour le data management –Storage Element Sauvegarde les données et fournit une interface commune –Catalogues Garde une trace de où sont stockées les données –Service de transfert Planifie des transferts fiables de fichier
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Services: Storage Element Storage Element –Interface commune: SRMv1, SRMv2.1, migration à SRMv2.2 –Plusieurs implémentations venant de LCG et autres projets externes Basé sur un disque: DPM, dCache Basé sur une bande: Castor, dCache –Support des ACLs dans DPM, dans le futur dans Castor et dCache Après l’été: synchronisation des ACLs entre SEs –Librairies rfio communes pour Castor et DPM en cours d’ajout Accès au fichier à la Posix: –Grid File Access Layer (GFAL) par LCG Support ACL dans la couche SRM (actuellement uniquement dans DPM) Support pour SRMv2.2 actuellement en cours d’ajout. Ajout de thread sécurisé et d’une interface pour le système d’information –gLite I/O Supporte les ACLs venant du catalogue de fichiers et est interfacé avec Hydra pour le cryptage des données Écarté quand toutes les fonctionnalités seront dans GFAL
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Services: Catalogues Catalogues de Fichiers –LFC venant de LCG Supporte ACLs Catalogue de fichiers et de répliquas –Fireman Catalogue de fichiers, de répliquas et de méta-data Écarté quand toutes les fonctionnalités seront dans LFC Hydra: Stocke les clefs pour le cryptage des données –En cours d’interfaçage avec GFAL –Actuellement seulement 1 instance, mais dans le futur, il y aura 3 instances: au moins 2 seront disponibles pour le décryptage AMGA: Catalogue générique de Méta données –Développement commun de JRA1-NA4 (ARDA). Utilisé principalement par Biomed
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Services: Transfert de Fichiers FTS: transfert de fichier fiable, échelonnable et personnalisable –Gère les transferts à travers des canaux (channels) Connexion réseau mono-directionnel entre 2 sites –Interface Web service –Découverte des services automatique –Support pour différents utilisateurs et rôles administratifs –Ajout d’un support pour le pre-staging et un nouveau schéma de renouvellement de proxy –A moyen terme, ajout d’un support SRMv2, la délégation, le renouvellement de proxy VOMS
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Vision du Data Management Les services de Data Management –Storage element –Catalogues –Transfert de fichiers Les conventions de nommage Le storage element : DPM Le catalogue de fichier : LFC Le service de transfert de fichier : FTS Le service de cryptage de données : EDS et Hydra Librairies POSIX I/O : GFAL Liens
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Conventions de nommage Logical File Name (LFN) –Un alias est créé par l’utilisateur pour référencer une donnée ex: “lfn:/grid/cs/rmetery/file.txt” Globally Unique Identifier (GUID) –Un identifiant unique non-human-readable pour une donnée ex: “guid: f-b e-9947-f9aa854bda13” Site URL (SURL) (ou Physical File Name (PFN) or Site FN) –La localisation actuelle d’une donnée sur un système de stockage ex: “srm://pc31638.si.c-s.fr/dpm/c-s.fr/home/cs/generated/ /fileedda1a3d-215f- 4dc6-8ae7-ea1f8d7dafe4” (SRM) ex: “sfn:// pc31638.si.c-s.fr /shared/cs/generated/ /file f-54c5-4faa- bce ab8e9ef” (Classic SE)
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Conventions de nommage Transport URL (TURL) –Repère temporaire d’un replica + protocole d’accès: supporté par un SE ex: “gsiftp://pc31638.si.c-s.fr/ pc31638.si.c-s.fr :/data01/cs/ /file51849d58-fffa- 44f5-82c7-af5375eb ” ex: “rfio:// pc31638.si.c-s.fr //data01/vo/ /file51849d58-fffa-44f5-82c7- af5375eb ”
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Vision du Data Management Les services de Data Management –Storage element –Catalogues –Transfert de fichiers Les conventions de nommage Le storage element: DPM Le catalogue de fichier : LFC Le service de transfert de fichier : FTS Le service de cryptage de données : EDS et Hydra Librairies POSIX I/O : GFAL Liens
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct DPM Fournit –Le stockage pour les fichiers: système de stockage massif – sur disque ou bande –Protocole de transfert (gsiFTP) ~ Serveur FTP basé sur GSI –Accès au fichier à la POSIX Grid File Access Layer (GFAL) API Lire des parties de fichiers trop volumineux pour être copiés 2 types –“Classic” SE N’implémentant pas SRM –“SRM” SE Accès au SE virtualisé par une interface commune: SRMv1, SRMv2.1 ( v2.2 en cours ) SRM = Storage Resource Manager, interface commune d’accès au fichier
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Vision du Data Management Les services de Data Management –Storage element –Catalogues –Transfert de fichiers Les conventions de nommage Le storage element : DPM Le catalogue de fichier : LFC Le service de transfert de fichier : FTS Le service de cryptage de données : EDS et Hydra Librairies POSIX I/O : GFAL Liens
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct LFC: 2 sets de commandes LFC = LCG File Catalogue LCG = LHC Computing Grid LHC = Large Hadron Collider –Les commandes LFC sont utilisés pour interagir seulement avec le catalogue Pour créer un répertoire catalogue Lister les fichiers –Utilisés par vous et par lcg-utils lcg-utils –Couple les opérations du catalogue avec la gestion des fichiers Garde les SEs et le catalogue cohérents
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct LFC: les bases Les utilisateurs accèdent et gèrent les fichiers principalement avec les LFNs Mapping par le serveur catalogue“LFC” Défini par l’utilisateurEspace de nom LFC Le LFC a une structure en arborescence /grid/ /
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct LFC: les bases Tous les membres d’une VO ont les droits de lecture- écriture dans leur répertoire Les commandes ressemblent aux commandes UNIX avec le préfixe “lfc-” devant (souvent)
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct LFC: espace de nommage Home foo rmetery directory grid cs cnrs rmetery Unix-like system GRID VO / (root)
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct LFC: lcg-utils Fonctions de gestion de fichiers –copier les fichiers sur/à partir/entre SEs –Les fichiers peuvent être répliqués pour être "proche" des CE pour plus d’efficacité redondant en cas de Problème SE (ou upgrade) Maintient la cohérence du catalogue
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Vision du Data Management Les services de Data Management –Storage element –Catalogues –Transfert de fichiers Les conventions de nommage Le storage element : DPM Le catalogue de fichier : LFC Le service de transfert de fichier : FTS Le service de cryptage de données : EDS et Hydra Librairies POSIX I/O : GFAL Liens
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct File Transfer Service Besoin d’un moyen facile et efficace pour gérer un service de déplacement de données gLite File Transfer Service –CHANNEL: lien entre 2 SEs –Les Channels peuvent être gérés par les administrateurs de channel –Optimise l’utilisation de la bande passante du channel –Les VOs utilisant le channel peuvent appliquer leurs propres politiques pour ordonner les queues (c-a-d les jobs des professeurs sont plus importants que ceux des étudiants) Aucune interactions avec un catalogue actuellement -> les utilisateurs doivent gérer les SURL
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct FTS: sc é nario Transfer Service Source Storage Element Destination Storage Element Control Data Flow Client Soumettre une nouvelle requête Monitorer la progression Annuler la requête SOAP via https Besoin clair d’un service de transfert de données – Le client se connecte au service pour soumettre une requête – Le service maintient l’état à jour pendant le transfert – Le client peut se reconnecter périodiquement pour vérifier l’état ou annuler sa requête – Le service peut avoir connaissance d’un état global, pas seulement d’une seule requête Balancement de la charge Planification Le déplacement des fichiers est asynchrone (soumission de job) – Queue de transferts de fichiers
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Transfer Service Client Secure web service connection Database Well defined state transitions/ checkpointing Storage Elements Les jobs sont une liste d’URLs dans un format srm:// Quelques paramètres de transfert peuvent être spécifiés (streams, taille du buffer) Les utilisateurs peuvent monitorer l’état de leurs jobs grâce au jobID. Clients C en ligne de commande. APIs C, Java et Perl disponibles. Les Web Services tournent sur un container Tomcat5, les agents tournent comme des démons normaux. FTS: architecture
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct FTS: channels Le service FTS a un concept de channels Un channel est une connexion unidirectionnelle entre 2 sites Les requêtes de transfert entre ces 2 sites sont assignés à ce channel Les channels correspondent pratiquement à une connexion réseau dédiée associée à la production Mais les channels peuvent aussi prendre en compte les wildcards: –* to MY_SITE : All incoming –MY SITE to * : All outgoing –* to * : Catch all Les channels contrôlent certaines propriétés du transfert: transfert concurrent, streams gridftp. Les channels peuvent être contrôlés indépendamment: démarrée, arrêté, en cours.
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct FTS: agents VO Agents Tout job soumis au FTS est en premier lieu géré par l’agent VO L’agent VO autorise le job et change son état en “Pending“ Les agents VO peuvent effectuer d’autres tâches – naturellement elles peuvent être spécifiques à la VO: –Scheduling –Interaction avec le File catalog Channel Agents Les transferts dans un channel sont gérés par un agent de channel Les agents de channel peuvent effectuer des planifications inter- VO
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Vision du Data Management Les services de Data Management –Storage element –Catalogues –Transfert de fichiers Les conventions de nommage Le storage element : DPM Le catalogue de fichier : LFC Le service de transfert de fichier : FTS Le service de cryptage de données : EDS et Hydra Librairies POSIX I/O : GFAL Liens
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Gestion des droits Les composants de gLite 3.0 relatifs à la gestion des droits: –Encrypted Data Storage (EDS) Fournit un cryptage et décryptage des données Keystore stocke les clefs de cryptage EDS –Les composants fournissant le support aux ACLs (access control list): EDS keystore LCG file catalog (LFC) disc pool manager (DPM)
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct EDS et Hydra EDS s’occupe du cryptage/décryptage des données –Utilise un chiffrement symétrique via openssl –Utilise une base de donnée pour stocker les clefs via un service appelé Hydra –EDS a une API et une CLI qui gère les accès I/O via gLite I/O Bientôt une CLI pour la manipulation des clefs et le cryptage/décryptage des fichiers sans la couche gLite I/O Dans le futur des outils avec des accès I/O seront disponibles via GFAL Hydra - The EDS keystore –Est un service de catalogue de méta données –Est utilisé pour stocker La clef, la longueur des clefs, l’algorithme de cryptage utilisé –Supporte les ACLs pour ajouter un contrôle d’accès à granularité fine A 3 sets de Permissions (8 bits) pour l’utilisateur, le groupe et les autres A les ACLs : Permission principale (DN utilisateur ou groupe VOMS)
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct EDS et Hydra La communauté médicale est la principale utilisatrice de EDS –Elle a des requirements stricts sur la vie privée –Actuellement elle utilise EDS avec gLite I/O et FiReMan gLite I/O et FiReMan fournissent un accès au SE et permettent un contrôle d’accès à granularité fine sur les fichiers indépendamment des fonctionnalités des SEs La communauté a ses propres SEs appelés DICOM-SE –Les fichiers sont stockés sur un DICOM-SE en clair –Le cryptage se fait avant de quitter le DICOM-SE, donc Le DICOM-SE enregistre une clef dans Hydra Les données cryptée sont stockées sur un SE normal sur la grille Elles sont décryptées en mémoire de l’application finale par des routines EDS
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Vision du Data Management Les services de Data Management –Storage element –Catalogues –Transfert de fichiers Les conventions de nommage Le storage element : DPM Le catalogue de fichier : LFC Le service de transfert de fichier : FTS Le service de cryptage de données : EDS et Hydra Librairies POSIX I/O : GFAL Liens
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct GFAL Accès aux ressources de stockage de la grille et aux catalogues à la POSIX GFAL –Librairie cliente avec un accès direct aux services de grille gLite I/O –Librairie cliente communicante à travers un serveur gLite I/O
Enabling Grids for E-sciencE EGEE-II INFSO-RI Tutorial EGEE Marseille, 3-4 Oct Liens Merci aux auteurs des présentations dont je me suis inspiré. Site JRA1: Site JRA1 Data Management: areSupport areSupport