Introduction à la sauvegarde réseau Présentation des solutions NAS et SAN Kevin CORNILLEAU, IR3 6 janvier 2009
Introduction à la sauvegarde réseau Le contexte Les principes o Les FS partagés et répartis o Objectifs du stockage de données o Calcul du MTBF Les technologies o Le RAID o SCSI o Fibre Channel Des solutions o Les NAS o Les réseaux SAN Kevin CORNILLEAU IR3 6 janvier 2009
Le contexte technique et historique
Les systèmes de stockage Définition Les systèmes de stockage sont un ensemble d'équipements informatiques - ordinateur, connexion réseau, médias de stockage - et de logiciels appropriés, responsables du stockage à long terme de grandes masses d'informations et de leur accès. Kevin CORNILLEAU IR3 6 janvier 2009
Le contexte Petit historique des supports de stockage Kevin CORNILLEAU IR3 6 janvier 2009 "emprunté" à
"Notre civilisation a produit plus d'informations durant ces 30 dernières années que pendant les 5000 ans qui les ont précédées." Jacques Péping in Solutions de stockage
Le contexte Explosion des données en volume comme en importance Évolution rapide du monde de l'informatique Taux d'augmentation des données de 50 à 100% / an o augmentation du nombre de postes de travail o augmentation des puissances de calcul o numérisation des données o informatisation des tâches Kevin CORNILLEAU IR3 6 janvier 2009
Le contexte Explosion des données en volume comme en importance Aujourd'hui 1 Go ~ 10 centimes. Prise de concience de l'importance des données Baisse du coût à l'achat, mais pas nécessairement à la gestion Kevin CORNILLEAU IR3 6 janvier 2009
Le contexte Explosion des données en volume comme en importance Où mettre les données ? o une ou plusieurs machines ? o quel type de media ? Comment organiser les données ? Comment gérer les données ? o les conserver o préserver leur intégrité o répondre aux besoins de croissance Comment permettre aux utilisateurs d'y accéder ? Kevin CORNILLEAU IR3 6 janvier 2009
Le contexte Problème de la centralisation des informations Phénomène de balancier : reflet des modes de travail : modèle des terminaux autour d'un serveur central : distribution de l'information sur les postes de travail personnels Aujourd'hui : travail collaboratif, serveurs de sauvegarde centralisée Kevin CORNILLEAU IR3 6 janvier 2009
Les principes intervenant dans le stockage de données
Les systèmes de fichiers répartis Principes de bases Les informations peuvent être réparties sur plusieurs machines Architecture client/serveur o Statuts non exclusifs Système de fichiers virtuel o Transparence de l'emplacement o Réalisé sous UNIX par la création d'une structure d'adressage du fichier vnode indépendante du système de gestion de fichiers Kevin CORNILLEAU IR3 6 janvier 2009
Évolutions de l'accès aux fichiers Vers les systèmes de fichiers répartis Jusqu'au années 70 Kevin CORNILLEAU IR3 6 janvier 2009
Le mainframe est remplacé par plusieurs mini-ordinateurs Chacun des mini-ordinateurs est relié à quelques dizaines de terminaux Ceux-ci peuvent communiquer grâce à un réseau éthernet Kevin CORNILLEAU IR3 6 janvier 2009 Évolutions de l'accès aux fichiers Vers les systèmes de fichiers répartis
Apparition des PC et workstations Les postes de travail sont autonomes Pas de travail collaboratif Kevin CORNILLEAU IR3 6 janvier 2009 Évolutions de l'accès aux fichiers Vers les systèmes de fichiers répartis
Apparition des réseaux locaux reliant les stations de travail et des workgroups Création d'"entités d'administration" Partage de fichiers à l'intérieur d'un groupe Kevin CORNILLEAU IR3 6 janvier 2009 Évolutions de l'accès aux fichiers Vers les systèmes de fichiers répartis
Extension du réseau local à des réseaux hétérogènes Répartition des petites tâches en local et traitements plus lourds aux calculateurs Révolution en capacité et volume Aucun changement logique dans les modes de travail Kevin CORNILLEAU IR3 6 janvier 2009 Évolutions de l'accès aux fichiers Vers les systèmes de fichiers répartis
Le stockage de données Objectifs de la gestion du stockage de données Les solutions d'accès aux données sont très fortement sollicitées. Intégrité o offrir une durée de vie infinie aux données o "les données doivent survivre aux incidents matériels" Sécurité o contrôler qui accède aux données et avec quel niveau de droit Kevin CORNILLEAU IR3 6 janvier 2009
Le stockage de données Objectifs de la gestion du stockage de données Performance o l'architecture doit être dimensionnée en rapport avec les performances attendues Transparence o l'utilisateur accédant aux données n'a pas à savoir : les accès concurrents où et comment les données sont stockées Limitation des coûts o une bonne architecture de stockage doit permettre le stockage de grands volumes pour des coûts réduits Kevin CORNILLEAU IR3 6 janvier 2009
Les systèmes de fichiers partagés Concept Les informations sont "partagées" sur plusieurs machines/supports selon des critères o faible latence pour les petits transferts o haut débit pour les transferts importants Kevin CORNILLEAU IR3 6 janvier 2009
Évaluation de la durée de vie d'un disque Le MTBF Mean Time Between Failures Indice de calcul de la durée de fonctionnement moyenne d'un système entre 2 pannes Evalué en fonctionnement "normal" /!\ MTBF différent de la durée de vie de disques ! Kevin CORNILLEAU IR3 6 janvier 2009
Exemple d'application o soit un disque avec un MTBF d'1 million d'heures o sa durée de vie est de quelques années o Si nous avons 1000 disques de ce type qui fonctionnent pendant 5 ans o Notons que l'homogénéité est respectée ! Kevin CORNILLEAU IR3 6 janvier 2009 Évaluation de la durée de vie d'un disque Le MTBF
Les technologies du stockage de données
Les technologies employées Redundant Array of Inexpensive Disks Combiner plusieurs disques durs en une seule unité de stockage Une partie de l'espace est souvent réservée pour faire de la redondance Avantages o souplesse o tolérance aux pannes o performance Soutenu par le RAB (Raid Advisory Board) Kevin CORNILLEAU IR3 6 janvier 2009
Rappels sur le RAID RAID 0 Concaténation des espaces disques Travail parallèle de n disques Rapidité des accès Aucune protection (moins fiable qu'un seul disque) Kevin CORNILLEAU IR3 6 janvier 2009 "emprunté" à
Rappels sur le RAID RAID 1 Copie miroir Capacité = Capacité du plus petit élément de la grappe Accepte défaillance de n-1 éléments Coûts élevés Kevin CORNILLEAU IR3 6 janvier 2009 "emprunté" à
Rappels sur le RAID RAID 1/0 ou RAID 10 Concaténation et copie miroir Au moins 4 disques Bonne tolérance aux pannes Bonnes performances lors de la reconstruction Capacité = n*c/2 Coûteux Kevin CORNILLEAU IR3 6 janvier 2009
Rappels sur le RAID RAID 0+1 Concaténation et copie miroir Au moins 4 disques 1 disque défectueux => défaut de la grappe Reconstruction longue et coûteuse Intérêt : sauvegarde instantanée Capacité = n*c/2 Kevin CORNILLEAU IR3 6 janvier 2009 "emprunté" à
Rappels sur le RAID RAID 5 Protection des données par calcul de parité répartie Au moins 3 disques Capacité = (n-1)*c Bonnes performances en lecture Pénalité en écriture Accepte défaillance de n-1 éléments Meilleurs performances pour 5, 9 et 14 disques Kevin CORNILLEAU IR3 6 janvier 2009 "emprunté" à
Démonstration de la technologie RAID
Ce que nous venons de faire... Kevin CORNILLEAU IR3 6 janvier 2009
Les technologies employées La technologie SCSI Small Computer System Interface Interface parallèle très utilisée pour les périphériques de stockage Jusqu'à 640 Mo/s Longueur jusque 20m On lui préfère aujourd'hui des liaisons FC Kevin CORNILLEAU IR3 6 janvier 2009 Connecteurs SCSI broches "emprunté" à
Les technologies employées Le protocole Fibre Channel Kevin CORNILLEAU IR3 6 janvier 2009 Protocole indépendant du support (fibre/cuivre) Conçu pour les superordinateurs, il est devenu le standard des réseaux SAN
Les technologies employées Le protocole Fibre Channel Kevin CORNILLEAU IR3 6 janvier topologies : o point à point : les périphériques sont reliés directement entre eux. o en boucle (Arbitred Loop ou FC-AL) : tous les périphériques sont reliés (max. 126). La boucle est réalisée par un élément hub. o switchée ou commutée (Fabric) : on utilise dans ce cas un switch Fibre Channel (max. théorique 16 millions).
Les technologies employées Le protocole Fibre Channel Kevin CORNILLEAU IR3 6 janvier 2009 Composé de 5 couches Interface avec les applications Bas-niveau : transport des données
Les technologies employées La media Fibre Channel 2 types de fibre o multinode o mononode Coeur de l'ordre de la dizaine de microns Débit de 1 à 8 Gbit/s Sur plusieurs kilomètres (répéteurs possibles) Support des protocoles de type canal d'entrée/sortie et réseau Kevin CORNILLEAU IR3 6 janvier 2009 Fibre optique image sous licence Creative Commons "emprunté" à Hustvedt,
Les technologies employées Le switch Fibre Channel Kevin CORNILLEAU IR3 6 janvier 2009 Rôle similaire au switch ethernet Chaque device fibre est appelé noeud Chaque noeud possède un numéro d'identification unique appelé World Wide Name et permettant son identification dans le réseau
Des solutions Présentation des NAS et SAN
Les solutions SAN et NAS Présentation Répondent aux aspects suivant : performance sécurité et intégrité souplesse de gestion économie Kevin CORNILLEAU IR3 6 janvier 2009
NAS Présentation Network Attached Storage Périphérique du réseau de stockage Fournit un gros volume de stockage à des clients réseaux hétérogènes Kevin CORNILLEAU IR3 6 janvier 2009
NAS Présentation Généralement composés de DD Plusieurs interfaces : o SCSI o FC o SAS, SATA, IDE Technologie RAID employée pour la fiabilisation Un OS spécifique (par exemple NASLite) Un NAS peut être intégré à un SAN Kevin CORNILLEAU IR3 6 janvier 2009 Le choix est fait en fonction du rapport coût/performance recherché
NAS Principe de fonctionnement Ressource directement disponible sur le réseau ethernet Intègre le support de systèmes de fichiers réseau tels que CIFS (Common Internet File System), NFS (Network File System) ou AFP (AppleShare File Protocol) Joue le rôle de serveurs de fichiers partagés Kevin CORNILLEAU IR3 6 janvier 2009
SAN Présentation Storage Area Network : réseau dédié au stockage S'appuie sur le protocole FC Composé : o d'un ou plusieurs fabrics o de plusieurs baies (bandes ou disques) o de serveurs o de hubs/bridges fibres Utilisation du support fibre OU cuivre Kevin CORNILLEAU IR3 6 janvier 2009
SAN Réseau de stockage "type" Kevin CORNILLEAU IR3 6 janvier 2009
SAN La baie de stockage Kevin CORNILLEAU IR3 6 janvier 2009
SAN La baie de stockage Schéma de câblage d'une baie SAN Câblage fibre Redondance des éléments et des accès Kevin CORNILLEAU IR3 6 janvier 2009 Schéma de câblage d'une baie EMC² Clariion
SAN La baie de stockage Kevin CORNILLEAU IR3 6 janvier 2009
SAN Principe de fonctionnement Le SAN fournit un accès bas niveau aux disques. Volumes directement accessibles en mode bloc depuis les systèmes de fichiers des serveurs. Un serveur "voit" l'espace de stockage comme son propre disque dur. /!\ Importance de la configuration des LUNs, du masking et du zoning. Kevin CORNILLEAU IR3 6 janvier 2009
SAN Le zoning Mise en relation logique de 2 éléments au sein du réseau Géré à l'intérieur d'un fabric par le switch Utilisé notamment pour éviter les risques de collisions de trames fibres o On isole les cartes fibres les unes des autres. Kevin CORNILLEAU IR3 6 janvier 2009
Dans cet exemple : pas de zoning SAN Le zoning Kevin CORNILLEAU IR3 6 janvier 2009 Host 1 Baie disque Host 2Host 3 LIBRAIRIELIBRAIRIE Switch A Switch B AB
SAN Le zoning Kevin CORNILLEAU IR3 6 janvier 2009 Host 1 Baie disque Host 2Host 3 LIBRAIRIELIBRAIRIE Switch A Switch B AB Réalisation du zoning minimum pour le serveur 1
SAN Le masking Kevin CORNILLEAU IR3 6 janvier 2009 Gestion des autorisations d'accès aux LUNs Géré au niveau de la baie o par des logiciels embarqués sur la baie de disque et/ou installés sur les serveurs Permet d’autoriser ou non la visibilité des LUNs aux hosts On administre généralement des ensembles dans lesquels on ajoute le/les serveur(s) et le/les LUN(s) auxquels ils ont accès.
SAN Exemple de fonctionnement La baie est opérationnelle Détection/correction d'erreurs à la volée effectués sur les I/O de chaque disque (polynôme de Reed Solomon, au niveau des secteurs) Le micro-logiciel exécute à intervales réguliers une série d'autotests Si le taux d'erreurs détecté dépasse un seuil le disque est mis en faute Kevin CORNILLEAU IR3 6 janvier 2009
SAN Exemple de fonctionnement Le disque est reconstruit sur le spare (quelques heures) Une nouvelle pièce est commandée Lorsque le disque est remplacé, il est à nouveau reconstruit à partir du spare Au bout de quelques heure, le spare redevient inutilisé Kevin CORNILLEAU IR3 6 janvier 2009
SAN Les avantages du SAN Mutualisation des espaces de stockage Pas de baie "dédiée" à un serveur et donc pas de limitation de l’espace disponible dans cette baie Réseau dédié performant (2Gb/s, 4Gb/s et 8Gb/s) Evolutivité Ajout de périphérique de stockage possible sans limitation théorique Support d'environnements hétérogènes Divers logiciels et devices peuvent cohabiter au sein d'un SAN /!\ Vérification nécessaire grâce aux matrices de compatibilité Kevin CORNILLEAU IR3 6 janvier 2009
SAN Les inconvénients du SAN Relativement complexe à mettre en œuvre, l'administration nécessite de bonnes connaissances Sollicitation de prestataires souvent nécessaire L’environnement est mutualisé, une modification implique facilement plusieurs serveurs et/ou baies de stockage Coût du matériel important Switch, cartes fibres, etc. Kevin CORNILLEAU IR3 6 janvier 2009
Récapitulatif Comparaison des différentes architectures de stockage Kevin CORNILLEAU IR3 6 janvier 2009
Bibliographie Quelques références, pour aller plus loin... Logiciels de stockage de données par Guy Chesnot (2000), Vuibert Solutions de stockage par Jacques Péping (1998), Eyrolles Linux Administration, Tome 1 & 2 par Jean-François Bouchaudy (2007), Eyrolles Linux Magazine, n°106 Kevin CORNILLEAU IR3 6 janvier 2009
Merci