Gestion et distribution des données: de SRB à iRODS Jean-Yves Nief.

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

Active Directory Windows 2003 Server
Comment généraliser la dématérialisation dans les cabinets ?
Couplage BASE/Outils de Data Mining Pierre LAURENCE
SRB (Storage Resource Broker)
La Gestion de la Configuration
03/05/05 - RB1 inJAC Présentation générale. 03/05/05 - RB 2 Lapproche ESUP du CMS Avoir un référentiel de documents structurés, intégré au portail en.
CSIESR-Arles 16/05/06 -F. JANNIN- B. SOR inJAC ESUP et OAI-PMH Le CMS détablissement dESUP.
Projet ORI-OAI Réseau de portails OAI Printemps dUNIT 24 mai 2007.
Projet ORI-OAI Réseau de portails OAI 27/03/2007.
La diffusion du document thèse
Le serveur NAS Network Attached Storage, (NAS) désigne un périphérique de stockage relié à un réseau dont la principale fonction est le stockage de données.
Stockage dans DIET Groupe de travail du 16 décembre 2002.
Grille Régionale Rhône-Alpes Institut des Grilles du CNRS Yonny CARDENAS CC-IN2P3 Réunion du groupe de travail grilles Projet CIRA Grenoble, le 2 Juin.
Système de stockage réseaux NAS - SAN
Active Directory Windows 2003 Server
Solution d’archivage sur mesure
Dynamisez la gestion de votre atelier CNC.
Chapitre 4 : la gestion électronique des documents
Le centre de calcul de l'IN2P3 : une architecture pour le calcul intensif et le stockage de masse Pascal Calvat.
Introduction to Information Systems
Sommaire Objectif de Peakup Principes de fonctionnement
IMD Achats Logiciel de gestion des Achats
Quel serveur pour vous?.
Environnements de travail Schéma directeur des. SDET : un méta projet du S3IT S3IT : Une démarche globale Une démarche structurante Une démarche de projet.
1 Grille de calcul et physique des particules Vincent Garonne CPPM, Marseille Novembre 2003 Contenu de la présentation Etat de lart : Grille de calcul.
Réseau de stockage étendu
Centre de Calcul de l'IN2P3 - Lyon Toulouse - Lyon, 21 décembre 2004 Les projets de grille au Centre de Calcul de l’IN2P3.
Les ouvertures au CC Pascal Calvat. Plan 2 Présentation des ouvertures Les besoins des utilisateurs Les solutions apportées par le CCIN2P3 Les ouvertures.
CAPRI 9 juin 2011 Cloud Académique Production Recherche Innovation Comité de Pilotage France-Grilles.
Méthodologie Scientifique
Module 3 : Création d'un domaine Windows 2000
La technologie Shibboleth
Réunion calcul simulations GIEC/IPCC - Prodiguer Lundi 23 Mars PRODIGUER un noeud français de distribution des données GIEC/IPCC Sébastien Denvil.
Soutenance de projet Mise en place d’une solution de reporting.
JI06 – 19 Septembre 2006 Thomas Baron – CERN – IT Gestion d’évènements avec Indico.
1 Initiation à l’utilisation de la micro-informatique Mac OS X Tiger? Mais c’est très simple! ©Alain Mancel - 12 Novembre 2007 Pour le GRETA 94.
L’environnement Labo : Laboratoire de Physique des Particules d’Annecy-le vieux: LAPP (PP, Astro) Effectif du labo : 144 personnes Nombre d’IT : 76 dont.
Initiation à Oracle Server
Les Systèmes de Gestion de Contenu (CMS) Allirand Maud Chabord Grégoire Massart Anne-Sophie 24 novembre 2006.
V- Identification des ordinateurs sur le réseau
Introduction General Chapitre 1 : Cadre général
RAPPORT VISIONNAIRE (SENEGAL) CERN-UNESCO School on Digital Libraries, Rabat, Maroc, nov CERN-UNESCO School on Digital Libraries (Rabat,
Les fermes de PCs au Centre de Calcul de l’IN2P3 Journée « ferme de PCs » 27 juin 2000 Benoit Delaunay
Étude de systèmes de fichiers distribués Théorie et pratique Cyril Séguin Directeurs de thèse Gaël Le Mahec Alain Cournier Benjamin Depardon c.
Les outils Multidimensionnels SAS ® 9 Atelier Technique SAS ® Eric WOLFF Jeudi 2 juin 2005.
Soutenance de Projet – BTS IG
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
Création d’applications distribuées.NET Ziriad Saibi Relation technique éditeurs de logiciels Microsoft France.
31/05/2007Projet Master 11 Présentation ludique de la recherche opérationnelle à la fête de la science Année universitaire 2006/2007 Sylvain FIX Julien.
Historique L’évolution des architectures du début à nos jours.
Calcul pour le spatial & le CC-IN2P3 Jean-Yves Nief (CC-IN2P3)
Présentation de la plateforme numérique collaborative dédiée aux acteurs de l’intégration 14 octobre 2015 – Préfecture à Melun.
Yannick Patois _ Journée du Libre _ 1er Novembre n° 1 Datagrid Une grille de calcul sous Linux Yannick Patois.
Proposition de possibilité d’évolution de nos spécialités Deux projets (liés) : Projet 1 : Informatique Computationnelle – Etudiants 4 e et 5 e IR Projet.
Système de récupération de données pour EMC Avamar.
1 G ÉNÉRALITÉS Notions et caractéristiques générales.
De Zotero à Mendeley : découvrir comment gérer ses références Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure.
Sextant RFS Consultants – Octobre Sextant Le logiciel d’assistance administrative indispensable à toute structure de plus d’une personne. Le premier.
Hébergement d’une infrastructure de Cloud Expérience d’un laboratoire Guillaume Philippon.
Retour d'expérience de l'utilisation du cloud comme infrastructure de service Guillaume PHILIPPON.
Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules iRODS Jean-Yves Nief, 17/04/14.
Mardi 31 mai 2016 JJS (Java Job Submission) Soumission de jobs sur grille Pascal Calvat Centre de calcul.
Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules iRODS Jean-Yves Nief (CC-IN2P3) Bruno Bzeznik (GRICAD, Université.
BABAR Georges Vasseur CEA Saclay, DSM/IRFU/SPP Workshop sur l’analyse des données au centre de calcul de Lyon 17 avril 2008.
XXII ème Congrès AIPU Évolution de l'usage des TICE au sein de l'université de Lyon 1 à travers un exemple : MathSV Sandrine CHARLES Christophe BATIER.
Grid au LAL Michel Jouvin LAL / IN2P3
Une introduction à iRODS (Jean-Yves Nief). Introduction à iRODS - JI 08 - Obernai2 Introduction à iRODS Collaborations scientifiques internationales:
Présentation au conseil scientifique. Une e-infrastructure dédiée au traitement des données Infrastructure distribuée, par les utilisateurs, pour les.
Stratégie technique G. Mathieu – V. Breton. Stratégie vers les fournisseurs de services et de ressources France Grilles2 Jouer le rôle central dans le.
Transcription de la présentation:

Gestion et distribution des données: de SRB à iRODS Jean-Yves Nief

06/12/07De SRB à iRODS - Workshop SDV2 Vue d’ensemble Introduction: –Inflation des données. –Virtualisation du stockage. –Chausse-trappes. SRB (Storage Resource Broker). De SRB à iRODS: –Chausse-trappes. –Virtualisation de la politique de gestion des données. iRODS (iRule Oriented Data System).

06/12/07De SRB à iRODS - Workshop SDV3 Dans notre univers du tout numérique, changements incessants: –des medias permettant de stocker les informations. –des technologies, protocoles et logiciels permettant d’écrire, lire et relire ces données. –des formats et de l’organisation de l’information au sein de ces fichiers. Qui pourra relire ce fichier dans 5 ans, 10 ans etc… ? Le paradoxe du monde numérique (c’est beau la technologie moderne!) Hymne à la déesse Ishtar, Mésopotamie, av. JC

06/12/07De SRB à iRODS - Workshop SDV4 Inflation des données: un autre problème Grands volumes d’informations produits par de nombreux projets scientifiques. Ordre de grandeur: ~ To, ~ Po, ~ Eo, millions, milliards de fichiers. Dans de nombreuses champs disciplinaires: –Physique des particules (SLAC, Fermilab, CERN …). –Astrophysique (simulations: Enzo, données: NVO, LSST …). –Science de la Terre (simulations: Terashake…, données). –Biologie et biomédical applications (BIRN, Genomics, …). –Sciences humaines et sociales. –Bibliothèques numériques (NARA, bibliothèques nationales …).  Explosion des volumes de données et metadonnées.

06/12/07De SRB à iRODS - Workshop SDV5 Éparpillement des acteurs: encore un problème! Pour beaucoup de projets scientifiques: –Communautés dispersés à travers le monde. A fournir: –Authentification. –Partage des données à assurer. –Droits d’accès (groupes, individus, propriétaire). –Prise en compte d’un environnement hétérogène (OS, technologies de stockage etc…). –Assurer un politique unique de préservation des données au sein du projet: Réplication des données. Intégrité des données (historique, versions…). –etc…

06/12/07De SRB à iRODS - Workshop SDV6 Comment faire ? Accès uniforme aux données: –Virtualisation des ressources de stockage. –L’application qui gère les données doit être indépendente des: évolutions des systèmes de stockage (matériel, logiciel). modifications dans l’organisation local des fichiers (ex: serveurs employés, systèmes de fichiers …). Une solution: SRB.

06/12/07De SRB à iRODS - Workshop SDV7 Qu’est-ce que SRB ? Storage Resource Broker développé par SDSC (San Diego). Interface uniforme à des systèmes de stockage hétérogènes: remplit une très grande partie des pré-requis précédents. Outil collaboratif d’échange de fichiers. Très vaste communauté d’utilisateurs: –HEP. –Biologie, applications biomédicales. –Astrophysique, Sciences de la Terre. –Bibliothèques numériques. –Grilles de calcul. Dans le monde entier: USA, Europe, Asie, Australie.

06/12/07De SRB à iRODS - Workshop SDV8 Qu’est-ce que SRB ? Organisation logique des données découplée de l’organisation physique: Multi OS: Mac, Windows, Linux, Solaris, AIX, HP-UX … Nombreux utilitaires: applications grahiques: GUI, Web, APIs, Scommands (Scd, Smkdir, Sput …). Authentification: mot de passe, certificat. Organisation des utilisateurs par: –Type (administrateur, simple utilisateur…). –Zones, domaines, groupes. Droits d’accès sur les fichiers et collections de données. Tickets: droits temporaires d’accès. Fonctions pour effectuer la réplication des données, vérification d’intégrité. Audit. ….

06/12/07De SRB à iRODS - Workshop SDV9 SRB au CC-IN2P3 HEP BaBar Site miroir: 200 To / a CMOS, Calice Archivage des données Indra Distrib. des données, archivage Lattice QCD dizaines de To / a Astroparticle Antares Tier 0: ~200 To / a Auger Tier 0: ~10 To / a Edelweiss Tier 0: dizaines To / a SN Factory Un des élts du online: ~Go / j Biomedical BioEmergence Tier 0: projet européen Mammography Projet avec le Liris Neuroscience CHU Lyon et Strasbourg

06/12/07De SRB à iRODS - Workshop SDV10 SRB au CC-IN2P3, exemples BaBar (HEP): –transferts automatisés de cartouche à cartouche, de Californie vers Lyon. –600 To, moyenne en production: 3 To / j, pic: 5 To / j. –Encore extensible. Lattice QCD, Auger, Antares: –Référentiel central de ces expériences. –Import / export des données. Virgo (astroparticule: en déploiement): –Import / export des données. –Concaténation des petits fichiers « à la volée ». –Visualisation graphique des données à distance. Programmes développés en Perl, Python, Java, C. Travail sous différentes plateformes: Linux, Solaris, Mac, Windows. > 1 Po de données gérées par SRB courant 2008.

06/12/07De SRB à iRODS - Workshop SDV11 Au-delà de SRB Virtualisation du stockage insuffisant. Pour les applications utilisatrices de ce genre de service: –Pas de garde-fous. –Pas de garantie d’une stricte application de la politique de préservation des données. –Besoin pour un projet de gestion de données de définir une politique homogène et cohérente: Gestion des données. Gestion des ressources de stockage. Vital pour les gros projets d’archivage de données (bibliothèques numériques …). Aucun outil de grille n’a ces fonctionnalités pour l’instant.

06/12/07De SRB à iRODS - Workshop SDV12 Virtualisation de la politique de stockage Chausse-trappes typiques: –Non respect de règles préétablies.. –Plusieurs applications ou versions d’une même appli peuvent coexister au même moment.  Incohérence potentielle. Solution: –Virtualisation de la politique de gestion des données. –Politique exprimée sous forme de règles au niveau des serveurs.

06/12/07De SRB à iRODS - Workshop SDV13 iRODS iRule Oriented Data Systems. Projet démarré en Janvier 2006 (mené par SDSC). Première version en Décembre 2006 (v 0.5). Open source (Attention: le fait de ne pas être « open source » n’est pas un frein !!). Financé par: NSF, NARA (National Archives and Records Administration). CC-IN2P3 (France), e-science (UK): collaborateurs.

06/12/07De SRB à iRODS - Workshop SDV14 Quelques exemples de règles Droits d’accès personnalisés: –Interdire l’effaçage de fichier dans un répertoire même par le propriétaire des fichiers. –Securité and integrité des données: Checksum automatique lancé en arrière plan (test d’intégrité). Anonymisation des fichiers à la volée même si non effectué par l’utilisateur. Enregistrement de metadonnées: –Enregistrement automatique de métadonnées associées à des fichiers (dans la base de données de iRODS ou à l’extérieur). Paramètres de transfert personnalisé: –Paramètres physiques modifiés à la volée suivant origine de l’utilisateur. Inclusions de chaînes de traitement complexes: –Transformation et traitement de fichiers images. –Réplication sur un certain nombre de sites différents. … à vos plumes …

06/12/07De SRB à iRODS - Workshop SDV15 iRODS au CC-IN2P3 Participation aux développements de iRODS. Test bed pour LSST (Chili, 2014): NCSA + SDSC (USA), CC-IN2P3 Test bed avec KEK (Japon)

06/12/07De SRB à iRODS - Workshop SDV16 Conclusion Gestion des données: beaucoup de chemin à parcourir, y compris dans les têtes: –« Je ne parlerai pas de la gestion des données car cela a été résolu il y a deux ans. » (entendu dans une conférence Grid) ????? SRB suffisant pour de très nombreux projets: –Offre un grand nombre de possibilités. –Très large communauté d’utilisateurs. –Possibilité de fédérer des grilles: interopérabilité. – … mais problème de license pour les applications commerciales. Mais iRODS ouvrent des perspectives encore plus vastes: –Outil très adaptatif. Premiers projets utilisant en prod iRODS au CC en SRB encore en production pour un certain nombre d’années: –Pas de projet de migration de SRB vers iRODS pour le moment.

06/12/07De SRB à iRODS - Workshop SDV17 Références SRB: – iRODS: –