1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA
ACI DataGRAAL – 10/01/03 2 Partenaires Communauté bases de données : PRISM – SMIS (INRIA – Univ. Versailles St Quentin) LIRMM (Univ. Montpellier) LSR-IMAG (Grenoble) LISI – (INSA Lyon) Communauté système : PARIS (IRISA) LRI - Equipe Cluster (Université Paris 11) REMAP (LIP - ENS Lyon) LIP6 (Université Paris 6) Apache ID – IMAG HP Labs Applications : CERS IN2P3
ACI DataGRAAL – 10/01/03 3 Contexte 2 types de grands systèmes distribués Les Grilles de calcul ou « GRID » Les systèmes de Calcul Global Les systèmes Pair à Pair Les systèmes distribués à grande échelle Grands sites de calcul, Clusters PC <1000 Stables Identification individuelle Confiance ~ Volatiles Pas dident individuelle Pas de confiance Caractéristiques des nœuds : Problématique
ACI DataGRAAL – 10/01/03 4 Problèmes ouverts dans la gestion des données Qualité de service dans laccès aux données Efficacité des accès Disponibilité Tolérance aux fautes Hétérogénéité des sources Persistance Modèles de partage Ecritures multiples Protocoles de cohérence Problématique
ACI DataGRAAL – 10/01/03 5 DataGRAAL : Les objectifs 1.Gestion des données à très large échelle exploratoire 2.Multi-communautaire : Profiter/confronter les expériences des BD, système, applications animation 3.Identification de thématiques/concepts communs 4.Maquettes dexpérimentation Objectifs
ACI DataGRAAL – 10/01/03 6 DataGRAAL : les applications Stockage : Grande quantité Dispersion des données Hétérogénéité Objectifs
ACI DataGRAAL – 10/01/03 7 Coopération entre communautés Communauté système Issus des expérience des systèmes répartis et pair-a-pair Protocole de localisation Placement, déploiement Protocole de cohérence Détection et gestion des fautes Communauté bases de données Gestion de grandes quantités de données Hétérogénéité Mobilité Médiation traditionnellement, architecture faiblement distribué Complémentarité
ACI DataGRAAL – 10/01/03 8 Coopération (2) Applications physique des particules physique des plasmas simulation de grands systèmes physiques Idée de la coopération : faire se rencontrer des communautés différentes contexte : stockage distribué de grandes quantités de données Complémentarité
ACI DataGRAAL – 10/01/03 9 Atouts des partenaires PRiSM/INRIA langage de requêtes, fouille de données exploitation de grandes quantités de données LSR Eclatement d un SGBD en un ensemble de services (persistance, duplication, …) Connaissance approfondie des architectures de SGBD LISI Systèmes dinformation à large échelle LIRMM médiation, exploitation de résultats venant de nombreuses sources Complémentarité BD
ACI DataGRAAL – 10/01/03 10 Atouts des partenaires (2) IRISA / PARIS Maîtrise des mémoires partagées Partage de mémoire pair-è-pair Expérimentations avec JXTA LRI Calcul haute performance sur P2P Tolérance aux fautes LIP6 Modèle de cohérence hiérarchiques Gestion des fautes dans environnement asynchrone Systèmes multi-agents LIP ReMaP Environnement de type grille Traitement de grande masses de données Redistribution dynamique des données et tolérance aux pertes Complémentarité Système
ACI DataGRAAL – 10/01/03 11 Atouts des partenaires (3) HP Labs environnement de grappe virtuelle forte volatilité Laboratoire ID expérience architecture grande grappes administration, gestion déploiement efficace d applications sur un grand nombre de nœuds Complémentarité Infrastructures
ACI DataGRAAL – 10/01/03 12 Atouts des partenaires (4) IN2P3 expérience dans la gestion de grandes quantités de données élément central de Datagrid CESR fusion de plusieurs grandes bases en une seule requêtes hétérogènes à traiter, stockage réparti CEA expériences grandeur nature modélisation du climat, de la terre forte complexité des données grand nombre de sites Complémentarité Applications
ACI DataGRAAL – 10/01/03 13 Identification des tâches (provisoire) Tâche 1 : Besoins applicatifs (Tâche transversale) Moteurs : CEA / CESR / IN2P3 Tâche 2 : Déploiement de données Moteurs : LRI / LIP / LIP6 / LISI Tâche 3 : Accès efficace aux données Moteurs : PRISM / LIRMM / LIP / LSR Tâche 4 : Partage de données Moteurs : IRISA / LIP / LIP6 / PRISM / LSR Tâche 5 : Modèle de cohérence Moteurs : IRISA/ LIP6 / PRISM / LSR Tâche 6 : Tolérance aux fautes Moteurs : LIP6 / LRI / LIP Tâche 7 : Apport des approches multi-agents Moteurs : LIP6 / IRISA Axes
ACI DataGRAAL – 10/01/03 14 Tâche 1 : Besoin applicatif CEA, CESR, IN2P3 « Retour » dexpérience de DataGrid Capacité de stockage – 5-8 PetaOctects / année 10 PetaOctects de disque Puissance de calcul – PC rapides Répartition du volume ? Grain. Quelles disponibilités, persistance ? Mode de partage ? Axes
ACI DataGRAAL – 10/01/03 15 Tâche 2 : Déploiement LRI : XtremWeb LISI : Technique de cache Web LIP6 : Algorithmes de placement de données / observation LIP : DIET+IBP - Redistribution, Placement Axes
ACI DataGRAAL – 10/01/03 16 Tâche 2 : déploiement (2) Constat : Placement de données très statique Exploration 1 : vers plus de dynamicité Nécessité de contrôler lenvironnement Ressources disponibles Détection de fautes en environnement asynchrone (pb algorithmique) Transport dinformation de contrôle à large échelle (filtrage, propagation épidemique) Accumulation de données pertinentes (vision partielle) Prise de décision Problème de validité des informations Exploration 2 : Lien avec le placement des tâches Axes
ACI DataGRAAL – 10/01/03 17 Tâche 3 : Accès PRISM : Accès efficace en fonction du profil LIRMM : Adaptation dynamique des vues LIP : Distribution de requêtes Co-ordonnancement
ACI DataGRAAL – 10/01/03 18 Tâche 4 : Partage PRISM : Mode de partage transactionnelle IRISA / LIP6 / LISI Partage à grain fin (page / objet) LIP Gestion de versions de données immutables Axes
ACI DataGRAAL – 10/01/03 19 Tâche 4 : partage (2) Versionning vs. données modifiables Limite du partage en lecture dans P2P Approche de partage « volontaire » limitée Le partage avec de nombreux écrivains Augmenter la complexité - Quelles applications ? Des tendances récentes : Partage (en lecture) forcé (ex. Edonkey) Partage avec un nombre réduit décrivains (Ivy …) Axes
ACI DataGRAAL – 10/01/03 20 Tâche 5 : Cohérence Modèle de cohérence sur mémoire partagée répartie (IRISA / LIP6 / LISI) LISI DosMos IRISA Cohérence au relâchement Cohérence multi-thread (DSM-PM2) LSR Réplication LIP6 Modèle hiérarchique (CLRC) Axes
ACI DataGRAAL – 10/01/03 21 Tâche 5 : Cohérence (2) Avenir des mémoires partagées réparties ? Application à large échelle Travail coopératif, couplage de code Hétérogénéité Tolérance aux fautes Axes
ACI DataGRAAL – 10/01/03 22 Tâche 6 : Tolérance aux fautes PRISM : Redondance dynamique LIP 6 : Détection de fautes hiérarchique (RTT-FD) Réplication dynamique (DARX) LRI : Journalisation de messages + mémoire de canal MPICH-V LIP : Code redondant Reconstruction dynamique LSR Axes
ACI DataGRAAL – 10/01/03 23 Tâche 6 : Tolérance aux fautes (2) Gestion de lincertitude des informations vers un système « indulgent » ? Choisir la bonne stratégie (types de réplication, point de reprise, journalisation) en fonction de plusieurs critères : Applicatif (type de fautes, nombre de fautes, temps de recouvrement) Environnemental : surcoût, charge des machines et du réseau, MTBF… Axes
ACI DataGRAAL – 10/01/03 24 Tâche 7 : Approche multi-agent LIP6 : Plate-forme DARX : Fiabilité des agents, réplication Dynamicité IRISA/LIP6 Service de partage de mémoire sur DARX Axes
ACI DataGRAAL – 10/01/03 25 Tâche 7 : Approche multi-agent (2) Un agent est une entité physique ou virtuelle : capable dagir sur elle-même et sur son environnement, capable de percevoir son environnement, mais ne dispose que dune représentation partielle de cet environnement (et parfois aucune), peut communiquer avec dautres agents, poursuit un objectif individuel, qui possède des compétences et peut offrir des services, … Propriétés dun agent = autonomie, proactivité, adaptabilité, sociabilité, mobilité, … Agent une alternative pour le large échelle ? Axes
ACI DataGRAAL – 10/01/03 26 Organisation Réunions régulières Plénières (2 par an) Par tâche (~5 par an) Site Web : Suivi des réunions (transparents) Lien vers les projets du domaine Mailing list : Organisation
ACI DataGRAAL – 10/01/03 27 Déroulement Première réunion de suivi 10/02/03 – Paris Retour positif (M. Cosnard, P. Fraigniaud) Importance de lACI (thématique, nb de partenaires) Animation primordiale => importance du site Web Identifier des thématiques avec des moteurs forts Attention à la dispersion Lien avec lACI GRID2 (éviter les doublons) Publier Séminaire de jours (30-31/01/03) Définition de thèmes de travail Responsables Définition dun échéancier (future réunion technique avec thème) Organisation
ACI DataGRAAL – 10/01/03 28 Déroulement 22 avril journée ACI Grid à IPDPS Préparation dun Poster + 1 recto-verso (anglais) Fin de laction Écriture d un document commun (Livre) École sur la gestion de données à grande échelle (formation permanente CNRS) – Mai 2004 Organisation Bretagne (Port aux Rocs)