Gestion des données persistantes (1/2)

Slides:



Advertisements
Présentations similaires
Stockage et sauvegarde
Advertisements

Module Systèmes d’exploitation
ACTIVE DIRECTORY. Qu'est-ce un service d'annuaire ?: Un service d'annuaire peut être comparé à un agenda téléphonique, celui- ci contient au départ des.
Le stockage DAS,NAS,SAN.
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Introduction aux environnements répartis
Introduction aux réseaux informatiques
Serveur jeu Le serveur fait partie d'un logiciel de jeu en ligne multi joueur en architecture client serveur. Il répond à des demandes.
DUDIN Aymeric MARINO Andrès
CLUSTERING Grappe d'ordinateurs.
Applications et Techniques
26/03/2017 Fonctionnement d ’un cluster sous AIX grâce à HACMP : High Availability Cluster Multi-Processing Raphaël Bosc, IR5.
Stockage dans DIET Groupe de travail du 16 décembre 2002.
Gestion de la tolérance de pannes
Architecture de réseaux
Logical Volume Management
NFE 107 : Urbanisation et architecture des systèmes d'information
Système de stockage réseaux NAS - SAN
Module 13 : Implémentation de la protection contre les sinistres
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Redundant Array of Inexpensive Disks
Etude des Technologies du Web services
SECURITE DU SYSTEME D’INFORMATION (SSI)
Comment faire tourner plusieurs logiciels ou programmes à la fois ? « Le multitâche » par Bernard Maudhuit.
Module 1 : Préparation de l'administration d'un serveur
Gestion des Périphériques
Gestion des données persistantes (complément)
1 Sécurité Informatique : Proxy Présenter par : Mounir GRARI.
Module 16 : Implémentation de serveurs Windows 2000
Introduction aux plates formes
Cloud Computing et mesures de performances
Indexation 1. Concepts de base 2. Arbre B 3. Indexes secondaires.
Gestion des bases de données
Module 4 : Création et gestion de comptes d'utilisateur
Création et gestion de comptes d'utilisateur
Interoperabilité des SI - Urbanisation
Programmation concurrente
SSO : Single Sign On.
Projet de Conception n° 5
Module 7 : Accès aux ressources disque
Par Bernard Maudhuit. On peut tout sauvegarder et on doit tout sauvegarder sur des éléments physiques externes à lordinateur CD SVCD DVD et double couche.
Réseau de stockage étendu
Projet de Master première année 2007 / 2008
EPID-CPI-ISAIP Philippe Bancquart - mise à jour 24/02/ page 1 Gestion des transactions SQLServer.
Progrès technique et logique économique : leur liaison interne
Faculté des sciences économique et gestion de Nabeul
Systèmes de gestion de bases de données NFP 107 Les techniques du contrôle de concurrence Philippe Rigaux
Introduction Les niveaux de RAID offrent un large choix d’alternatives qui permettent de choisir un rapport performance/sécurité différent. Il est aussi.
Partage de mémoire à très grande échelle sur des réseaux pair-à-pair
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
Outil de gestion des cartes grises
Nouvelles technologies de système de fichiers dans Microsoft Windows 2000 Salim Shaker Ingénieur de support technique Support technique serveur Microsoft.
La sécurité dans les réseaux mobiles Ad hoc
CEDCOM architecture haute performance pour des applications “big data” Tanguy Raynaud Projet CEDAR.
La réplication dans les réseaux mobiles ad hoc
Ouvrir une session sur le domaine llumiere Renseigner les champs utilisateurs et mot de passe. Depuis n’importe quel ordinateur du lycée connecté au domaine,
Module 8 : Surveillance des performances de SQL Server
Introduction à l’Architecture n-tiers et Orientée Service
Supports de formation au SQ Unifié
Plan Définitions et exemples Composants de cluster
Page 1 Restauration des données simplifiée MODE BLOC DEDUPLICATION SAN Sauvegarde Haute Performance pour les environnements les plus exigeants.
“Software defined Storage”
Modèles et protocoles de cohérence des données en environnement volatil Grid Data Service IRISA (Rennes), LIP (Lyon) et LIP6 (Paris) Loïc Cudennec Superviseurs.
D. E ZEGOUR Institut National d ’Informatique
1 Détection et tolérance aux fautes dans JuxMem Sébastien Monnet IRISA / PARIS Lyon, 05/12/2003.
Période de formation en entreprise
LA SECURITE DES SYSTEMES D'INFORMATION INTRODUCTION Nouvelle et indispensable dimension des systèmes informatiques : –Extensions des systèmes vers tous.
Module 3 : Gestion des fichiers de base de données
1 G ÉNÉRALITÉS Notions et caractéristiques générales.
Transcription de la présentation:

Gestion des données persistantes (1/2) IFSIC Master - SDR - Nov/Déc 2007 Adrien Lebre - IRISA - projet PARIS Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 1/36

Sommaire Les systèmes de fichiers Les systèmes de fichiers distribués Généralités Terminologie en environnement réparti Les baies RAID Les systèmes de fichiers distribués Différentes architectures De NFS au système de fichiers parallèle E/S parallèles, les bibliothèques d’accès Accès séquentiel vs accès parallèle MPI I/O vs les stratégies de réordonnancement Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 2/36

Système de fichiers Généralités (1) Méthode d'organisation des données persistantes sur un médium durable (disque dur , CD-ROM, clé USB, …). L’unité est le fichier lui même organisé en une séquence d’octets (  les données). Structure hiérarchique de répertoires : un répertoire peut contenir un ou plusieurs fichier(s). Chaque objet (répertoire, fichier) est identifié par un nom et possède des propriétés dépendantes du système de fichiers (date création/modification, droits d’accès, …  les méta-données ). Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 3/36

Système de fichiers Généralités (2) Abstraction : le système de fichiers (vue logique, tableau)  … vs le disque (vue physique) inode   blocs de données   Nom : Cours_PGC.pdf Taille : 60Ko Date modification : 20 Nov 2006 …  méta-données Un fichier : /home/alebre/cours_PGC.pdf Bras de lecture/écriture Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 4/36

Système de fichiers Du PC au HPC Sauvegarder et accéder à des informations Minimiser les temps d'accès (en temps, opération coûteûse, ~8ms) Tolérance aux pannes (journalisation des opérations, RAID) Mono-utilisateur (simple) Nœud HPC (SMP): Multi-utilisateur (Concurrence des accès, équité ) Plus grande quantité de données, contrainte de performance Grappe/Grille : « Nommage » / accès distant / cohérence / … Contraintes similaires mais en environnement distribué ! (tolérance au pannes / passage à l’échelle) Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 5/36

Système de fichiers Terminologie (1) Transparence (concept de « nommage », accéder au données) En local : Un fichier = un nom textuel  un identifiant (inode) En réparti : Sans transparence : le tûple « hôte : nom » (les URLs en partie) Transparence de situation : le nom ne comporte aucune information sur la situation (opération de montage à la NFS) Inconvénient : chacun des nœuds peut avoir une structure qui diffère. La mise en place d’un espace de nommage global est complexe (fichiers spécifique à chacune des machines, ex: /etc/hostname) Transparence à la mobilité : le nom du fichier n’a pas à être modifié lorsque sa situation géographique au sein du réseau évolue. C’est le niveau d’abstraction le plus élevés (certains réseaux P2P, freenet…) Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 6/36

Système de fichiers Terminologie (2) Sémantique de partage (cohérence des données) Définit quand et comment les modifications effectuées par un processus sont observables par les autres. 4 niveaux de sémantique : Sémantique UNIX : toute modification qui survient sur un bloc d’un fichier est vue instantanément sur l’ensemble des autres processus. Une « seule image » du fichier à un instant donné dans toute l’architecture distribuée. Sémantique de session : une session est définie comme l’ensemble des opérations exécutées entre l’ouverture et la fermeture du fichier par un processus. Plusieurs images disponibles sur l’architecture, les modifications sont propagées à la fermeture Comparable au plateforme de travail collaboratif CVS, SVN (update/commit) Inconvénients : lecture erronée du fichier, intervention humaine parfois nécessaire pour régler les confits (Andrew FS et ses descendants CODA, intermezzo) Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 7/36

Système de fichiers Terminologie (3) Sémantique de partage (cohérence des données) 4 niveaux de sémantique : Sémantique dite « immuable » : lorsqu’un fichier devient partagée, le fichier est alors accessible uniquement en lecture. La mise en place d’un verrou rend toute modification impossible. Des systèmes ? Streaming video ? Sémantique transactionnelle : toute session sur un fichier est une transaction au sens base de données. Lorsqu’un client ouvre un fichier, celui ci est verrouillé et aucun autre nœud ne peut y accéder jusqu’à sa fermeture. Sémantique fondée sur le modèle UNIX identique mais l’unité est le bloc !  Byte Range Locking (GFS, GPFS, …) Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 8/36

Système de fichiers Terminologie (4) Méthode d’accès à distance et gestion de cache (performance et passage à l’échelle) Selon la sémantique de partage définie, une structure à base de gestionnaire de cache peut permettre : De réduire les accès aux unités de stockage (cache « serveur ») De réduire les données transitant sur le réseau (cache « client ») D’éviter de saturer le nœud stockant la/les ressource(s)  Amélioration du passage à l’échelle ! Les gains apportés par les caches dépendent : De leur emplacement : propagation des écritures, tolérance au pannes, (ex: le cache client) De la granularité d’accès : + elle est grande + le cache est efficace + les opérations du maintien de la cohérence sont coûteuses si la sémantique est forte Des algorithmes de mise à jour et du maintien de la cohérence Comparable sous plusieurs aspects à la problématique des DSMs. Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 9/36

Système de fichiers Terminologie (5) Méthode d’accès à distance et gestion de cache Maintien du cache, 2 principales approches : statefull vs stateless Statefull : Le nœud qui stocke la ressource est en charge du maintien de la cohérence. Il connaît l’ensemble des processus qui accède au données et exploite un protocole d’invalidation ou de mise à jour afin de garder les images stockées sur les différents caches dans un état cohérent. Stateless : Le nœud qui stocke la ressource (le fichier) ne possède aucune information sur le client. Ce dernier propage selon la sémantique définie, les modifications. Dans tous les cas, compromis entre granularité / sémantique de partage / architecture matérielle (latence réseau, bande passante, …) Et lorsqu’un nœud subit une défaillance ? Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 10/36

Système de fichiers Terminologie (6) Tolérance aux pannes et systèmes de fichiers distribué Statefull, crash : d’un «client», il faut prévenir le «serveur» afin qu’il désalloue l’espace mémoire. d’un «serveur», après avoir redémarré le serveur, il est primordiale d’effectuer une phase de dialogue avec l’ensemble des nœuds «potentiellement» client. Stateless : D’un «client» : le serveur n’est pas impacté. L’image du fichier reste dans un état cohérent. D’un «serveur» : il suffit simplement de le redémarrer D’une manière plus générale un fichier est dit : Récupérable si en cas d’erreur, il est possible de retrouver son dernier état cohérent Robuste s’il est en mesure de subvenir à une détérioration du support de stockage. Un fichier récupérable n’est pas obligatoirement robuste et vice versa. Journalisation des opérations = récupérable Réplication (« mirroring »,…) = robustesse Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 11/36

Système de fichiers Terminologie (7) Tolérance aux pannes et systèmes de fichiers distribué Disponibilité : un fichier est « disponible » si quelque soit la panne, il est accessible quand un processus en a besoin. Le fait de ne pas pouvoir accéder à une ressource par un client, peut être vue comme une erreur qu’il est nécessaire de prévoir (défaillance matérielle, verrou bloquant, …) La réplication (sauvegarde de plusieurs images pour assurer la disponibilité) doit également être prise en compte lors de la conception d’un système de fichiers distribué. Si elle est transparente d’un point de vue utilisateur, elle implique une synchronisation de chacune des images (cohérence entre toutes les images). Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 12/36

Système de fichiers Terminologie (8) Passage à l’échelle : Capacité à un système à s’adapter à une forte progression de son taux de charge. Pour un système de fichiers distribué : Nombre de clients pouvant être supportés Coût du trafic et de l’analyse de chaque requête Les principaux freins sont : Sémantique de partage, Mode d’accès séquentiel vs parallèle Congestion et latence des unités de stockages Congestion et latence du réseau Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 13/36

Solutions de stockages Baies RAID Apport du matériel : Redundant Arrays of Inexpensive Disks (1988) Exploitation de plusieurs unités de stockages pour améliorer : Les performances (répartition/fragmentation des informations) agrégation des débits, recouvrement des temps d’accès Et/ou la tolérance au pannes (redondance des informations) Code d’erreur, bloc de parité L’utilisateur de la machine ne voit qu’un seul grand disque logique auquel il accédera de façon tout à fait habituelle. La transparence d’accès est apporté soit par une structure : Matérielle, l’ensemble des disques est connecté à un contrôleur (RAID matériel)  efficacité,  onéreuse, figée, Logicielle, service interne à l’OS (RAID logiciel, /dev/mdadm)  malléable, prix  Surcoût CPU MDADM : Multiple Devices Admin Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 14/36

Solutions de stockages Baies RAID Plusieurs combinaisons ont été proposées selon les objectifs attendus : performance, fiabilité et coût associé. 8 assemblages principaux numérotées de 0 à 7 ont été définis (1994) RAID 0 : répartition des données de manière à paralléliser les accès. Critère recherché : performance Les fichiers sont découpés en blocs de taille fixe répartis sur les différentes unités (« stripping »). Selon le découpage des données et les modes d’accès, il est possible de traiter les accès en parallèle. + la granularité est fine, + les accès peuvent être parallélisés mais + le nombre d’accès est important  Trouver le bon compromis n’est pas toujours facile Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 15/36

Solutions de stockages Baies RAID RAID 1 : duplication des données sur les différentes unités Critère recherché : fiabilité / disponibilité Les fichiers sont copiés («mirroring» ) sur les différentes unités. Lors d’un défaillance de l’un des disques, le contrôleur désactive instantanément le disque incriminé. Selon le nombre de réplicats restant la solution RAID bascule dans un mode dégradé où la tolérance aux pannes n’est potentiellement plus assurée. L’opération de maintenance consiste à changer l’unité endommagée et de synchroniser la nouvelle unité avec les autres disques.  mécanismes de reprise simple et «rapide »  Espace de stockage (*2) RAID 2 : proche du RAID 0 mais exploite des codes ECC («  Error Checking and Correcting »). Technique relativement peu utilisée. RAID 2: Striping au bit : 4 bits + 3 bits de parité => 7 bits Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 16/36

Solutions de stockages Baies RAID RAID 3 et 4 : Raid 0 avec bloc de parité (XOR, 3 disques au minimum) Critère recherché : fiabilité et performance (sécurité !) Les fichiers sont répartis sur les différentes unités, un unité est exploitée pour stocker la parité (unité de découpage : RAID 3, le bit / RAID 4, le bloc) Lors d’un défaillance de l’un des disques, il est possible de reconstruire les fichiers Espace de stockage par rapport au RAID 1, « Parallélisation » des accès en lecture Ecritures parallèles coûteuses (goulet d’étranglement sur le disque de parité) «Single point of failure », si le disque de parité subit une défaillance, l’intégrité des données ne peut plus être vérifiée. Après avoir changé l’unité, il est nécessaire de recalculer l’ensemble des parités. RAID 5: RAID 4 mais la parité est répartie Chacun des disques stocke soit des données soit des bits de contrôle (corrigeant ainsi le principal défaut des RAID 3 et 4). Les écritures restent toujours onéreuses RAID 6 : RAID 5 mais avec 2 parités (encore peu utilisé) RAID 3 et RAID 4 sont peu utilisés Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 17/36

Solutions de stockages Baies RAID - combinaison Les disques sont répartis en deux ensembles. Les données sont réparties sur le premier ensemble et le second ensemble est une copie du premier. Ensemble A Ensemble B (miroir) RAID 1+0 Les disques sont regroupés deux à deux afin d’effectuer du RAID 1. Les données sont alors réparties sur les disques virtuels. Quel est la solution la plus avantageuse ? RAID 1 Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 18/36

Solutions de stockages Baies RAID - combinaison Repose sur la même idée, les unités sont groupées par trois en RAID 5 et les groupes sont montés entre eux en RAID 0. D’un point de vue général, Les solutions basées sur du RAID 1+0 et RAID 5+0 sont celles qui sont le plus souvent mises en œuvre. L’évolution des prix des disques durs et de leur taille laissent à penser que les solutions à base de RAID 1, plus facile à mettre en oeuvre, vont de plus en plus être utilisées. Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 19/36

Systèmes de fichiers Un premier bilan Les briques élémentaires ont été définies. Vers une mise en œuvre d’un système de fichiers distribuée (« Distributed File System ») Les systèmes d'échanges et le WEB (KaZaA, mldonkey,…) Passage à l'échelle meilleur Mode READ ONLY (fichiers multimédias) Pas ou peu de cohérence Agrégation des ressources (CPU, réseau et espace de stockage) Architectures de calculs (grappes et grilles) Rapidité d'accès aux informations nécessaire Passage à l'échelle efficace Utilisation optimisée de l'architecture matérielle sous-jacente Cohérence, tolérance aux pannes Sécurité (au niveau d'un cluster et entre sites distants) Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 20/36

Sommaire Les systèmes de fichiers Les systèmes de fichiers distribués Généralités Terminologie en environnement réparti Les baies RAID Les systèmes de fichiers distribués Différentes architectures De NFS au système de fichiers parallèle E/S parallèles, les bibliothèques d’accès Accès séquentiel vs accès parallèle MPI I/O vs les stratégies de réordonnancement Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 21/36

Systèmes de fichiers distribués Différentes architectures 2 modèles : à bases de messages (« Network Area Storage ») à accès directes (« Storage Area Network »)  Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 22/36

Systèmes de fichiers distribués Différentes architectures Modèle à bases de messages Des machines jouent le rôle de serveurs et exportent des fichiers. Les machines qui souhaitent accéder aux données « montent » les systèmes de fichiers exportés. Les solutions basées sur le protocole NFS reposent sur ce modèle.  Pas ou peu de contrainte vis à vis de l’architecture sous-jacente. Les performances sont souvent mises à défaut. Modèle à accès direct Les solutions basées sur ce modèle exploitent des protocoles intégrés aux baies de disques actuelles (SCSI, fibre optique). Ils permettent en autre d’accéder de manière concurrente aux données. Le système d’IBM GPFS repose sur ce modèle. Utilisation excellente des capacités de chacune des unités de stockage. Solutions très onéreuses en plus d’être propriétaires. Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 23/36

Systèmes de fichiers distribués Différentes architectures Combinaison des deux modèles : Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 24/36

Systèmes de fichiers distribués NFS Système Network File System Modèle client/serveur centralisé (au dessus du protocole RPC). Système d’export des partitions locales au serveur Solution la plus déployée : LANs, grappe de petite et moyenne taille (<200 nœuds) SUN 1985 Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 25/36

Systèmes de fichiers distribués De NFS au système de fichiers // Système « Network File System » Plusieurs versions : NFS V2 : protocole à échange de messages « simple », 2 types d’opérations (méta et données) NFS V3 : apport des opérations asynchrones pour les écritures (version la plus utilisée) NFS V4 : amélioration de la tolérance au pannes, sécurité, encapsulation de requêtes  Le standard : largement accepté par la communauté,  « stateless » jusqu’à la V3, configuration et administration simple Performances limitées : goulet d’étranglement sur le disque, au niveau des interfaces réseaux, (passage à l’échelle relativement limité). « Single Point Of Failure ».  Paralléliser l’architecture pour obtenir un meilleur débit et réduire les effets de goulet d’étranglement (passage à l’échelle !) Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 26/36

Systèmes de fichiers distribués NFS parallèle « Parallélisation » de Network File System D’un serveur centralisé au serveur de méta-informations et des serveurs de données. Striping des données sur les serveurs de données 123 1 2 3 Name : toto Taille : 3 Créé le : 17/11/2006 Serveur de stockage Serveur de stockage Serveur de stockage Name : toto Taille : 3 Créé le : 17/11/2006 Serveur NFSp Serveur NFS Réseau d'interconnexion Client NFS Client NFS Réseau d'interconnexion Architecture NFSp Client NFS Client NFS Légende : Données réelles Méta-informations Architecture NFS Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 27/36

Systèmes de fichiers distribuées NFS parallèle NFSp (Pierre Lombard - 2001) Agrégation des débits « Spoofing » UDP 1 2 3 Serveur de stockage iod Serveur de stockage Serveur NFSp Client NFS Client NFS Client NFS nfspd iod 5 4 6 Réseau d'interconnexion Inconvenient de l’approche ? Client NFS Client NFS Client NFS Client NFS Serveur de stockage iod Serveur de stockage iod Client NFS Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 28/36

Systèmes de fichiers distribués NFS parallèle Serveur de stockage Iod NFSp : bilan Meilleure utilisation des espaces de stockages d’une grappe (RAID logiciel) Agrégation des débits (principalement en lecture) Point de centralisation : le méta-serveur (charge CPU, « SPOF »,…)  Goulet d’étranglement pour les écritures qui transitent toutes par le méta-serveur Nfspd Serveur NFSp Groupe 1 Groupe 2  Multiplier/distribuer le méta-serveur (redondance + équilibrage de charge) Client NFS Client NFS Serveur NFSp Client NFS Serveur de stockage iod nfspd Client NFS Réseau d'interconnexion Réseau d'interconnexion Client NFS Serveur de stockage iod Client NFS Client NFS Serveur de stockage iod Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 29/36

Systèmes de fichiers distribués NFS parallèle Distributed NFSp : Lombard / Lebre / Avila (2002  2005) Les métas sont affectées au serveur qui créé le fichier (puis reexportées via NFS). Difficulté : synchroniser les méta-serveurs : protocole dNFSp 10 9 1 2 3 Retour vers les clients Serveur NFSp Serveur dNFSp Serveur NFS Serveur de stockage Réseau d'interconnexion Réseau d'interconnexion Client NFS 5 6 7 8 Client NFS Client NFS Serveur de stockage Client NFS Client NFS Client NFS Serveur de stockage Client NFS Serveur NFSp 4 Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 30/36

Systèmes de fichiers distribués NFS parallèle vs PVFS NFSp : Bilan Juin 2006 (France / Brésil / Pologne) Deux approches : espace utilisateur / noyau (Linux 2.4 et 2.6) Compatible NFS Version 2 et 3 Plusieurs articles : http://nfsp.imag.fr « Parallélisation » de NFS, plusieurs propositions : Expand NFS (Univ. Madrid Espagne, modification du client) Parallel NFS (IBM, modification du client et du serveur, NFS V4.1 ?) … Parallel Virtual File System PVFS 1 (1996-2003) Interconnexion directe entre les clients et l’ensemble des serveurs (méta + données) Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 31/36

Systèmes de fichiers distribués Parallel Virtual File System PVFS 1 : Interconnexion directe clients/serveurs de données PVFS 1 : concept de Stream I/O, dans une requete plusieurs demandes. PVFS 2 : meilleure intégration des bibliothèques comme MPI IO, Byte Range Locking … bcp de choses mais toujours en cours de développement. PVFS V2 : Implémentation modulaire Distribution des méta-données Réplication du serveurs … En cours de développement http://www.pvfs.org Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 32/36

Système de fichiers distribués Lustre, le dernier «challenger » Lustre, (Linux Cluster) : Travaux initiés fin 1999 (Cluster File System Inc.) Fiabilité, passage à l’échelle, performance, management, flexibilité (1000 nœuds) Basé sur les Object Based Disks (du bloc à l’objet)  déléguer au maximum la gestion des données au niveau des disques (allocation, placement, cache,cohérence …) Répartition « paramétrable » par fichier. Equipe déjà de très grandes grappes (LLNL, CEA, … ). En cours de développement : http://www.lustre.org Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 33/36

Systèmes de fichiers distribués Un deuxième bilan Enormément de modèles/solutions proposés ! Système de fichiers « génériques » : NFS, NFSp et dérivés, AFS, CODA, INTERMEZZO, GFS, GPFS, PFS, PVFS, ClusterFS, xFS, Lustre, … Système de fichiers dédiés à la problématique des E/S parallèles : Vesta, Galley, PIOFS, PIOUS, …… Séparation des nœuds de calcul et des nœuds de stockages. Vers une architecture à 3 niveaux : Système de sauvegarde, d’archivage (« backup »). Système de stockage dédié à la grappe (système de fichiers parallèles). Disques locaux de chaque nœud.  Un système de fichiers qui a pour but d’exploiter les disques locaux de manière efficace et coordonné : un système de fichiers pour SSI ? Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 34/36

Système de fichiers HPC Références (1/2) Distributed File Systems : Concepts and examples par Levy et Silberschatz, 1990 http://portal.acm.org/citation.cfm?id=98169 RAID: high-performance; reliable secondary storage par Chen, Lee, Gibson, Katz et Patterson, 1994 http://citeseer.ist.psu.edu/chen94raid.html L’archive sur les travaux de recherches en E/S parallèles (Parallel I/O Archive, bibtex de plus de 1Mo !, 1081 articles le 20 novembre 2006) http://www.cs.dartmouth.edu/pario/ De nombreux mémoires et thèses en français (google): Pierre Lombard, Renaud Lachaize, Brice Goglin, ... Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 35/36

Systèmes de fichiers distribués Références (2/2) NFSp : http://nfsp.imag.fr « Improving the Performances of a Distributed NFS Implementation », par P. Lombard, Y. Denneulin, O. Valentin, A. Lebre. Paru dans les proceedings de la conférence Parallel Processing and Applied Mathematics en 2003 (LNCS 3019). PVFS : http://www.pvfs.org «PVFS: A Parallel File System For Linux Clusters» par P. H. Carns, W. B. Ligon III, R. B. Ros et R. Thakur. Paru dans les proceedings de la 4ème éditions Linux Showcase and Conference en 2000, (Best Paper Award). De Sprite à XFS « The sprite network operating system » par J. Ousterhout, A. Cherenson, F. Douglis, M. Nelson at B. Welch. Paru dans IEEE Computer en 1998 « Beating the I/O bottleneck: A case oor log-structured file systems  » par J. Ousterhout et F. Douglis. Paru dans un rapport de recherche de l’université de Berkeley en 1992. « The Zebra Striped Network File System » par J. Hartman et J. Ousterhout. Paru dans High Performance Mass Storage and Parallel I/O: Technologies and Applications en 1993. « Serverless network file systems » par T. E. Anderson, M. D. Dahlin, J. M. Neefe, D. A. Patterson, D. S. Roseli et R. Y. Wang. Paru dans un rapport de recherche de l’université de Berkeley en 1995. Lustre : http://www.lustre.org « Lustre, Building a file system for 1000 node clusters» par P. Schwan. Paru dans les proceedings du Linux Symposium en 2003 Adrien LEBRE Systèmes distribués: des réseaux aux grilles IFSIC-M2R Novembre 2007 36/36