Gestion et distribution des données: de SRB à iRODS Jean-Yves Nief
06/12/07De SRB à iRODS - Workshop SDV2 Vue d’ensemble Introduction: –Inflation des données. –Virtualisation du stockage. –Chausse-trappes. SRB (Storage Resource Broker). De SRB à iRODS: –Chausse-trappes. –Virtualisation de la politique de gestion des données. iRODS (iRule Oriented Data System).
06/12/07De SRB à iRODS - Workshop SDV3 Dans notre univers du tout numérique, changements incessants: –des medias permettant de stocker les informations. –des technologies, protocoles et logiciels permettant d’écrire, lire et relire ces données. –des formats et de l’organisation de l’information au sein de ces fichiers. Qui pourra relire ce fichier dans 5 ans, 10 ans etc… ? Le paradoxe du monde numérique (c’est beau la technologie moderne!) Hymne à la déesse Ishtar, Mésopotamie, av. JC
06/12/07De SRB à iRODS - Workshop SDV4 Inflation des données: un autre problème Grands volumes d’informations produits par de nombreux projets scientifiques. Ordre de grandeur: ~ To, ~ Po, ~ Eo, millions, milliards de fichiers. Dans de nombreuses champs disciplinaires: –Physique des particules (SLAC, Fermilab, CERN …). –Astrophysique (simulations: Enzo, données: NVO, LSST …). –Science de la Terre (simulations: Terashake…, données). –Biologie et biomédical applications (BIRN, Genomics, …). –Sciences humaines et sociales. –Bibliothèques numériques (NARA, bibliothèques nationales …). Explosion des volumes de données et metadonnées.
06/12/07De SRB à iRODS - Workshop SDV5 Éparpillement des acteurs: encore un problème! Pour beaucoup de projets scientifiques: –Communautés dispersés à travers le monde. A fournir: –Authentification. –Partage des données à assurer. –Droits d’accès (groupes, individus, propriétaire). –Prise en compte d’un environnement hétérogène (OS, technologies de stockage etc…). –Assurer un politique unique de préservation des données au sein du projet: Réplication des données. Intégrité des données (historique, versions…). –etc…
06/12/07De SRB à iRODS - Workshop SDV6 Comment faire ? Accès uniforme aux données: –Virtualisation des ressources de stockage. –L’application qui gère les données doit être indépendente des: évolutions des systèmes de stockage (matériel, logiciel). modifications dans l’organisation local des fichiers (ex: serveurs employés, systèmes de fichiers …). Une solution: SRB.
06/12/07De SRB à iRODS - Workshop SDV7 Qu’est-ce que SRB ? Storage Resource Broker développé par SDSC (San Diego). Interface uniforme à des systèmes de stockage hétérogènes: remplit une très grande partie des pré-requis précédents. Outil collaboratif d’échange de fichiers. Très vaste communauté d’utilisateurs: –HEP. –Biologie, applications biomédicales. –Astrophysique, Sciences de la Terre. –Bibliothèques numériques. –Grilles de calcul. Dans le monde entier: USA, Europe, Asie, Australie.
06/12/07De SRB à iRODS - Workshop SDV8 Qu’est-ce que SRB ? Organisation logique des données découplée de l’organisation physique: Multi OS: Mac, Windows, Linux, Solaris, AIX, HP-UX … Nombreux utilitaires: applications grahiques: GUI, Web, APIs, Scommands (Scd, Smkdir, Sput …). Authentification: mot de passe, certificat. Organisation des utilisateurs par: –Type (administrateur, simple utilisateur…). –Zones, domaines, groupes. Droits d’accès sur les fichiers et collections de données. Tickets: droits temporaires d’accès. Fonctions pour effectuer la réplication des données, vérification d’intégrité. Audit. ….
06/12/07De SRB à iRODS - Workshop SDV9 SRB au CC-IN2P3 HEP BaBar Site miroir: 200 To / a CMOS, Calice Archivage des données Indra Distrib. des données, archivage Lattice QCD dizaines de To / a Astroparticle Antares Tier 0: ~200 To / a Auger Tier 0: ~10 To / a Edelweiss Tier 0: dizaines To / a SN Factory Un des élts du online: ~Go / j Biomedical BioEmergence Tier 0: projet européen Mammography Projet avec le Liris Neuroscience CHU Lyon et Strasbourg
06/12/07De SRB à iRODS - Workshop SDV10 SRB au CC-IN2P3, exemples BaBar (HEP): –transferts automatisés de cartouche à cartouche, de Californie vers Lyon. –600 To, moyenne en production: 3 To / j, pic: 5 To / j. –Encore extensible. Lattice QCD, Auger, Antares: –Référentiel central de ces expériences. –Import / export des données. Virgo (astroparticule: en déploiement): –Import / export des données. –Concaténation des petits fichiers « à la volée ». –Visualisation graphique des données à distance. Programmes développés en Perl, Python, Java, C. Travail sous différentes plateformes: Linux, Solaris, Mac, Windows. > 1 Po de données gérées par SRB courant 2008.
06/12/07De SRB à iRODS - Workshop SDV11 Au-delà de SRB Virtualisation du stockage insuffisant. Pour les applications utilisatrices de ce genre de service: –Pas de garde-fous. –Pas de garantie d’une stricte application de la politique de préservation des données. –Besoin pour un projet de gestion de données de définir une politique homogène et cohérente: Gestion des données. Gestion des ressources de stockage. Vital pour les gros projets d’archivage de données (bibliothèques numériques …). Aucun outil de grille n’a ces fonctionnalités pour l’instant.
06/12/07De SRB à iRODS - Workshop SDV12 Virtualisation de la politique de stockage Chausse-trappes typiques: –Non respect de règles préétablies.. –Plusieurs applications ou versions d’une même appli peuvent coexister au même moment. Incohérence potentielle. Solution: –Virtualisation de la politique de gestion des données. –Politique exprimée sous forme de règles au niveau des serveurs.
06/12/07De SRB à iRODS - Workshop SDV13 iRODS iRule Oriented Data Systems. Projet démarré en Janvier 2006 (mené par SDSC). Première version en Décembre 2006 (v 0.5). Open source (Attention: le fait de ne pas être « open source » n’est pas un frein !!). Financé par: NSF, NARA (National Archives and Records Administration). CC-IN2P3 (France), e-science (UK): collaborateurs.
06/12/07De SRB à iRODS - Workshop SDV14 Quelques exemples de règles Droits d’accès personnalisés: –Interdire l’effaçage de fichier dans un répertoire même par le propriétaire des fichiers. –Securité and integrité des données: Checksum automatique lancé en arrière plan (test d’intégrité). Anonymisation des fichiers à la volée même si non effectué par l’utilisateur. Enregistrement de metadonnées: –Enregistrement automatique de métadonnées associées à des fichiers (dans la base de données de iRODS ou à l’extérieur). Paramètres de transfert personnalisé: –Paramètres physiques modifiés à la volée suivant origine de l’utilisateur. Inclusions de chaînes de traitement complexes: –Transformation et traitement de fichiers images. –Réplication sur un certain nombre de sites différents. … à vos plumes …
06/12/07De SRB à iRODS - Workshop SDV15 iRODS au CC-IN2P3 Participation aux développements de iRODS. Test bed pour LSST (Chili, 2014): NCSA + SDSC (USA), CC-IN2P3 Test bed avec KEK (Japon)
06/12/07De SRB à iRODS - Workshop SDV16 Conclusion Gestion des données: beaucoup de chemin à parcourir, y compris dans les têtes: –« Je ne parlerai pas de la gestion des données car cela a été résolu il y a deux ans. » (entendu dans une conférence Grid) ????? SRB suffisant pour de très nombreux projets: –Offre un grand nombre de possibilités. –Très large communauté d’utilisateurs. –Possibilité de fédérer des grilles: interopérabilité. – … mais problème de license pour les applications commerciales. Mais iRODS ouvrent des perspectives encore plus vastes: –Outil très adaptatif. Premiers projets utilisant en prod iRODS au CC en SRB encore en production pour un certain nombre d’années: –Pas de projet de migration de SRB vers iRODS pour le moment.
06/12/07De SRB à iRODS - Workshop SDV17 Références SRB: – iRODS: –