Étude de systèmes de fichiers distribués Théorie et pratique Cyril Séguin Directeurs de thèse Gaël Le Mahec Alain Cournier Benjamin Depardon c.

Slides:



Advertisements
Présentations similaires
Le stockage DAS,NAS,SAN.
Advertisements

Sous-projet IV Communications Placement/Ordonnancement.
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Serveur jeu Le serveur fait partie d'un logiciel de jeu en ligne multi joueur en architecture client serveur. Il répond à des demandes.
Microsoft Office Groove Le contexte Une utilisation des postes de travail en très grande évolution chez les professionnels. Des lieux de travail.
Une solution personnalisable et extensible
Le serveur NAS Network Attached Storage, (NAS) désigne un périphérique de stockage relié à un réseau dont la principale fonction est le stockage de données.
CLUSTERING Grappe d'ordinateurs.
PLAN du COURS Introduction Structure des Systèmes Informatiques
Reference Model of Open Distributed Processing
NFE 107 : Urbanisation et architecture des systèmes d'information
wireless sensor networks
Système de stockage réseaux NAS - SAN
Module 1 : Préparation de l'administration d'un serveur
Réalisée par :Samira RAHALI
Calcul distribué pour l'imagerie médicale
~ Veille technologique ~ Les réseaux pair-à-pair

Un nouveau monde d’échange sur Internet ????
Le projet Mai 2014.
La résolution de problèmes grâce à la technologie de l'information
Réseau de stockage étendu
L’APPLICATION DE P2P DANS UN RESEAUADHOC
Sécurité et Vie Privée Dans les Réseaux Sociaux
LEGO – Rennes, 18 Septembre 2006 Un outil de monitoring pour le déploiement dynamique de JuxMem Loïc Cudennec IRISA / INRIA, PARIS project-team Stage de.
Un serveur de données au format ROOT.
Fadwa AMRI Fanny COUTURIER Virginie ROMAIN.
GDS – Paris, 13 Octobre 2006 Un outil de monitoring pour le déploiement dynamique de JuxMem Loïc Cudennec IRISA / INRIA, PARIS project-team Stage de M2RI.
Outil de gestion des cartes grises
CEDCOM architecture haute performance pour des applications “big data” Tanguy Raynaud Projet CEDAR.
“Software defined Storage”
Mastère Professionnel Systèmes de Communication et Réseaux
Étude d’un protocole de partage de travail entre systèmes Pair à Pair
Adapting to changing resource performance in grid query processing Anastasios Gounaris Jim Smith Norman W. Paton Paul Watson Rizos Sakellariou University.
D. E ZEGOUR Institut National d ’Informatique
CAPRI 9 juin 2011 Cloud Académique Production Recherche Innovation Comité de Pilotage France-Grilles.
1 IFT 099 Introduction à la programmation. 2 Plan du cours (sem. 1) 1.Introduction - les ordinateurs 2.La programmation procédurale 3.La programmation.
Big Data.
LE DATA WAREHOUSE.
Introduction au socle MEAN
DE SOLUTIONS DE SELF-HOSTED CLOUD
Réunion calcul simulations GIEC/IPCC - Prodiguer Lundi 23 Mars PRODIGUER un noeud français de distribution des données GIEC/IPCC Sébastien Denvil.
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
Clustering. Le Clustering est une technique qui consiste à assembler virtuellement plusieurs machines afin de les faire travailler en parallèle. Cela.
COMPARAISON ENTRE GNUTELLA ET FREENET
L’enseignement de spécialité SLAM
ANNEE SCOLAIRE 2005 / FONCTIONNEMENT DU RESEAU DU COLLEGE Tous les ordinateurs du collèges, portables et fixes sont dans un réseau. Cela signifie.
BTS SIO SISR Session 2014 Parayre David-Alexandre
Projet serveur Active Directory
Cluster d’équilibrage de charge réseau
Outil de Supervision Réseau
La vision Microsoft : le S + S Thomas Serval Directeur de la Division Plateforme et Ecosystème.
Un segment peut contenir plusieurs gènes les gènes sont nombreux et/ou en interaction leurs effets sont inégaux et instables les mutations se fixent séquentiellement.
Contexte de l’apparition du Cloud
Projet du fin d’études Conception et développement d’une application web pour la gestion d’un tour opérateur Réalisé par : Mohamed Yosri YAHYAOUI.
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
Historique L’évolution des architectures du début à nos jours.
MP2P PROTOCOLE & SYSTÈME DE STOCKAGE REDONDANT COACHING 3 – 21/05/2015 Julien DUBIEL – Mathieu CORRE – Francis VISOIU MISTRIH.
MP2P PROTOCOLE & SYSTÈME DE STOCKAGE REDONDANT COACHING 2 – 30/04/2015 Julien DUBIEL – Mathieu CORRE – Francis VISOIU MISTRIH.
Analyse, élaboration et exploitation d’une Base de Données
Presentée par: Asmae ETTAHIRI
1 G ÉNÉRALITÉS Notions et caractéristiques générales.
1 Cloud computing L’impact du cloud computing sur la sécurité des informations de l’entreprise Jean-Marc Boursot - Ankeo - Thierry.
Retour d'expérience de l'utilisation du cloud comme infrastructure de service Guillaume PHILIPPON.
Free Powerpoint TemplatesPage 1 Logiciel de Gestion de stock Réalisé par: Gattoufi Houda Ejmil Hamza Hached Ridha Ben Miled Naser Nouri Aymen Salhi Rim.
Rappel : les différentes architectures de stockage Attachement direct NAS SAN.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Déploiement de la solution de supervision FAN au sein de société CBI et de ses filiales au Maroc et en Afrique.
Proposition pour une plate-forme expérimentale pour la valorisation et l’exploitation des données scientifiques M. Daydé CNRS/INS2I - IDGC.
Transcription de la présentation:

Étude de systèmes de fichiers distribués Théorie et pratique Cyril Séguin Directeurs de thèse Gaël Le Mahec Alain Cournier Benjamin Depardon c

SysFera c  Start-up spin-off de l'INRIA créée en 2010  Spécialisée dans les solutions logicielles pour centres de calcul  Lauréate du concours Oséo (entreprise publique qui finance les PME innovantes)  Clients : centres de calcul publics/privés

Sommaire c  Introduction  Systèmes de fichiers distribués  Expérimentation  Conclusion

Introduction c  Les applications du calcul scientifique manipulent de gros volumes de données (dizaine(s) téra-octet/jour/application)  Calcul scientifique  Big Data  Besoins de stockage, partage et analyse des données adaptés  De nombreuses solutions existent  Objectif : déterminer les solutions adaptées en fonction de l'usage des données et des contraintes des applications

Gestion de gros volumes de données c  Protocoles réseaux de type NAS (centralisés): – NFS – AFS – IFS  Systèmes de fichiers distribués (décentralisés)

c Qu'est-ce qu'un Système de fichiers ?

c Qu'est-ce qu'un Système de fichiers distribué ?  Un système de fichiers distribué est une organisation logique d’un ensemble de fichiers destiné à fédérer des ressources de stockage au travers d’un réseau.

Architecture d'un DFS c  Métadonnées : Info sur les données (taille, droits, emplacement, …)  Gérées de manière distribuée ou centralisée  Serveurs de métadonnées : – Gèrent et stockent les métadonnées – Gèrent les requêtes clientes  Serveurs de données  Clients

Fonctionnalités d'un DFS  Extensibilité  Transparence – Interaction avec le système – Accessibilité du système – Détection de pannes  Performances (débits I/0, requêtes/s,...) c

Présentation des DFSs étudiés c  HDFS : utilisé par Yahoo!, Facebook, Twitter, …  Lustre : utilisé sur les plate-formes de calculs distribués  CEPH : intégré au noyau Linux  IRODS : utilisé par IN2P3, CERN  Gluster : populaire, projets indépendants  Moose : académique, projets indépendants

Évaluation de DFSs c  Évaluation sur :  Extensibilité  Transparence  Performances  Objectifs :  Caractériser les DFSs  Choisir le DFS approprié en fonction du type d'application

Évaluation fonctionnelle des DFSs c

Évaluation expérimentale des DFSs c  Que peut-on évaluer ?  La consommation CPU et mémoire  Débits Lecture/Écriture  Utilisation de la bande passante  Requêtes/seconde  …  Objectifs  Évaluer les débits en fonction de la taille des fichiers  Identifier quel(s) système(s) offre(nt) les meilleurs débits en fonction des tailles de fichiers (xMB, 100xMB, xGB)

Protocole c  1 volume de données de 5GB – 1 donnée de 5GB – 100 données de 50MB – données de 500KB  4 serveurs de stockage  Expérimentations effectuées sur Grid5000  Expérimentations reproductibles : – Phénomènes incontrôlables – Combien d'itérations ?  66 itérations réalisées sur un cluster à Sophia Antipolis

Résultats en moyenne c

Médianes des résultats c

Résultats écriture c

Résultats lecture c

Conclusion & Perspectives c  Évaluation qualitative et quantitative d'un ensemble de DFSs  Transparence  Extensibilité  Débits lecture/écriture  Début de caractérisation  Guider un utilisateur dans le choix d'un DFS  Concevoir un méta gestionnaire de données – Prise en compte du placement de données – Adéquation du système de fichiers aux applications – Introduction des gestionnaires type cloud  Analyse de différents types d'applications

Questions ? c Merci de votre attention