Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parEdith Lefèvre Modifié depuis plus de 9 années
1
Étude de systèmes de fichiers distribués Théorie et pratique Cyril Séguin Directeurs de thèse Gaël Le Mahec Alain Cournier Benjamin Depardon c
2
SysFera c Start-up spin-off de l'INRIA créée en 2010 Spécialisée dans les solutions logicielles pour centres de calcul Lauréate du concours Oséo (entreprise publique qui finance les PME innovantes) Clients : centres de calcul publics/privés
3
Sommaire c Introduction Systèmes de fichiers distribués Expérimentation Conclusion
4
Introduction c Les applications du calcul scientifique manipulent de gros volumes de données (dizaine(s) téra-octet/jour/application) Calcul scientifique Big Data Besoins de stockage, partage et analyse des données adaptés De nombreuses solutions existent Objectif : déterminer les solutions adaptées en fonction de l'usage des données et des contraintes des applications
5
Gestion de gros volumes de données c Protocoles réseaux de type NAS (centralisés): – NFS – AFS – IFS Systèmes de fichiers distribués (décentralisés)
6
c Qu'est-ce qu'un Système de fichiers ?
7
c Qu'est-ce qu'un Système de fichiers distribué ? Un système de fichiers distribué est une organisation logique d’un ensemble de fichiers destiné à fédérer des ressources de stockage au travers d’un réseau.
8
Architecture d'un DFS c Métadonnées : Info sur les données (taille, droits, emplacement, …) Gérées de manière distribuée ou centralisée Serveurs de métadonnées : – Gèrent et stockent les métadonnées – Gèrent les requêtes clientes Serveurs de données Clients
9
Fonctionnalités d'un DFS Extensibilité Transparence – Interaction avec le système – Accessibilité du système – Détection de pannes Performances (débits I/0, requêtes/s,...) c
10
Présentation des DFSs étudiés c HDFS : utilisé par Yahoo!, Facebook, Twitter, … Lustre : utilisé sur les plate-formes de calculs distribués CEPH : intégré au noyau Linux IRODS : utilisé par IN2P3, CERN Gluster : populaire, projets indépendants Moose : académique, projets indépendants
11
Évaluation de DFSs c Évaluation sur : Extensibilité Transparence Performances Objectifs : Caractériser les DFSs Choisir le DFS approprié en fonction du type d'application
12
Évaluation fonctionnelle des DFSs c
13
Évaluation expérimentale des DFSs c Que peut-on évaluer ? La consommation CPU et mémoire Débits Lecture/Écriture Utilisation de la bande passante Requêtes/seconde … Objectifs Évaluer les débits en fonction de la taille des fichiers Identifier quel(s) système(s) offre(nt) les meilleurs débits en fonction des tailles de fichiers (xMB, 100xMB, xGB)
14
Protocole c 1 volume de données de 5GB – 1 donnée de 5GB – 100 données de 50MB – 10 000 données de 500KB 4 serveurs de stockage Expérimentations effectuées sur Grid5000 Expérimentations reproductibles : – Phénomènes incontrôlables – Combien d'itérations ? 66 itérations réalisées sur un cluster à Sophia Antipolis
15
Résultats en moyenne c
16
Médianes des résultats c
17
Résultats écriture c
18
Résultats lecture c
19
Conclusion & Perspectives c Évaluation qualitative et quantitative d'un ensemble de DFSs Transparence Extensibilité Débits lecture/écriture Début de caractérisation Guider un utilisateur dans le choix d'un DFS Concevoir un méta gestionnaire de données – Prise en compte du placement de données – Adéquation du système de fichiers aux applications – Introduction des gestionnaires type cloud Analyse de différents types d'applications
20
Questions ? c Merci de votre attention
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.