Page 1 Ze File System ? Ou pas :/. Page 2 Contexte Comment ZFS est entré au laboratoire ? Remplacement d’un cluster, service de fichiers Tru64/CFS/AdvFS.

Slides:



Advertisements
Présentations similaires
Formation - Fedora et VMware
Advertisements

Module Systèmes d’exploitation
Administration des bases de données
Découverte de SQL Server par la pratique pour les administrateurs expérimentés Module 6 : Protection des données Bertrand Audras Microsoft Technology Center.
Comment Protéger les bases SQL avec System Center Data Protection Manager 2007.
GEF 435 Principes des systèmes dexploitation Structure des systèmes dexploitation (Tanenbaum 1.7)
Le serveur NAS Network Attached Storage, (NAS) désigne un périphérique de stockage relié à un réseau dont la principale fonction est le stockage de données.
Structure des tables de la HDB – Outil de gestion de larchivage Groupe Bases de Données : JM. Rochat – J.Guyot – J.Chinkumo. 26 janvier 2014 Réunion ESRF/Soleil.
Module 6 : Gestion et analyse du système DNS
Systèmes d’Exploitation
Logical Volume Management
simulateur de réseau de machines UML connectées par WiFi mode ad-hoc
Sélection automatique d’index et de vues matérialisées
Système de stockage réseaux NAS - SAN
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Retour sur l'allocation d'espace Exemple sur une table facture (sans les tables associées) N° fact, N° Client, N° Cde, date Cde, date fact, date réglement,
Copyright © 2012.Orditech Sa. Tous droits réservés. 1 Titre du cours - Pied de page Présentation dun cas concret VMWare /NetApp.
Créer une animation simple Gif avec ImageReady.
Gérer les tablespaces et les fichiers de données
Administration de SharePoint
sauvegarde de base de données
Module 6 : Gestion de données à l'aide du système de fichiers NTFS
Gestion de données à l'aide du système de fichiers NTFS
Configuration de Windows Server 2008 Active Directory
Module 6 : Gestion de données à l'aide du système de fichiers NTFS
L’utilisation des bases de données
FICHIERS : Définition : Algorithme général:
Création de bases de données
Module 3 : Analyse des performances du serveur
Module 7 : Accès aux ressources disque
Réseau de stockage étendu
Sécurité Informatique Module 05
EPID-CPI-ISAIP Philippe Bancquart - mise à jour 24/02/ page 1 Gestion des transactions SQLServer.
Protéger Exchange avec System Center Data Protection Manager 2007
Fichiers de données Fichiers de contrôles Fichiers de journalisations Fichiers de paramètres d’initialisation.
Gérer la sécurité des mots de passe et les ressources
Nouvelles technologies de système de fichiers dans Microsoft Windows 2000 Salim Shaker Ingénieur de support technique Support technique serveur Microsoft.
Module 8 : Surveillance des performances de SQL Server
Travailler avec des processus
Bases de données Open Source Pierre Crépieux 13/03/2008.
Plan Définitions et exemples Composants de cluster
Objectifs A la fin de ce chapitre, vous pourrez : présenter l'utilisation d'opérations de chargement de données par chemin direct décrire l'utilisation.
Créer des packages.
Système d’exploitation 2 Unix User
Composants de l'architecture Oracle
(Ou groupes d ’utilisateurs)
Offre DataCenter & Virtualisation Laurent Bonnet, Architecte Systèmes Alain Le Hegarat, Responsable Marketing 24 Novembre 2009.
La mémoire virtuelle Dans laquelle un ordinateur exécute des programmes dont les besoins en mémoires dépassent la mémoire disponible. Par exemple des.
Projet OASIS PCfEngine Encadrant : M. Keryell Date : Mercredi 02 Mars 2005 Pascal Virmaud.
Logs, backup, maintenance
Structure de stockage et relations
Module 3 : Création d'un domaine Windows 2000
Sécurité des Systèmes Informatique
COMPARAISON DES SYSTEMES DE GESTION DE FICHIERS LINUX / WINDOWS NT
Les bases du protocole Modbus
Chapitre 17 Sauvegardes.
Installation d’un serveur en réseau. Vmware Qu’est-ce que c’est ? - C’est un logiciel qui permet de virtualiser une machine par le biais d’une autre.
Module 3 : Gestion des fichiers de base de données
Scénario Les scénarios permettent de modifier la position, taille … des calques au cours du temps. Son fonctionnement est très proche de celui de Macromedia.
ACL SID ACE DACL SACLAD ACL : Access Control List Liste spécifiant pour chacun de ses éléments : Qui / Quel groupe ? Quelles autorisation / interdiction.
1 G ÉNÉRALITÉS Notions et caractéristiques générales.
Retour d'expérience de l'utilisation du cloud comme infrastructure de service Guillaume PHILIPPON.
FACTORY systemes Module 2 Section 1 Page 2-3 Installation d’Industrial SQL FORMATION InSQL 7.0.
Journées informatique IN2P3/Dapnia, Lyon Septembre 2006 Consolidation des serveurs par virtualisation Retour d’expérience sur l’utilisation de VMware.
Rappel : les différentes architectures de stockage Attachement direct NAS SAN.
Catalogues de fichiers de données. David Bouvet2 Problématique Possibilité de répliquer les fichiers sur divers SE  nécessité d’un catalogue de fichiers.
1DSM - DAPNIA / MW0901 Lustre au DAPNIA. 2DSM - DAPNIA / MW0901 Machines utilisées –2 PC DELL de bureau optiplex GX280 : NODE08 : P4 à 3,2 Ghz – 2Mo de.
Samba contrôleur de domaine Linux – Ubuntu Samba
Chapitre 3 Administration des accès aux ressources
Imane Malass Icube, University of Strasbourg and CNRS 1 1 Développement d’un convertisseur de temps hybride avec une résolution de 10 ps et une large dynamique.
Transcription de la présentation:

Page 1 Ze File System ? Ou pas :/

Page 2 Contexte Comment ZFS est entré au laboratoire ? Remplacement d’un cluster, service de fichiers Tru64/CFS/AdvFS à travers NFS/Samba. Philosophie cluster haute disponibilité : pas remise en cause. Le choix de SUN cluster

Page 3 La technologie ZFS Zettabyte File System 128 Bit file system - 16 million de million de fois un file system 64 bits(Enorme capacité) Notion de Pool – partage de la bande passante (I/O) et de la capacité Performance accrue par rapport à des file system traditionnels (Filesystem + VM + RAID) Système transactionnel– Copy on Write (COW) Snapshots (ro) and Clones (rw) End to End Data Integrity – Data Checksumed Facile à administrer (beaucoup de services intégrés) ZFS est il si innovant ?

Page 4 Pool et dataset

Page 5 Pool et dataset créés par des commandes zfs pas besoin de fdisk/format et newfs/mkfs. Montage automatique pas besoin de modifier un/etc/vfstab ou d’utiliser la commande “mount”. Checksum activé/désactivé à la demande (pas forcement recommandé). Quotas centralisés. L’administration simplifiée Compression activée ou désactivée à la demande (atomicité : fichier). NFS/Samba intégré en tant que services natifs associés au dataset. Snapshots et clonage faciles à mettre ne place (1 commande) Backup (Full et incrementaux liés aux snapshots)

Page 6 Autres points notables Checksum total sur toutes les datas (atomicité = bloc). Disk Scrubbing = nettoyage des incohérences. Transaction objet (opération de commit via le COW) WAFL : les données peuvent être écrites n’importe où sur les disques Pas d’écriture/modification de bloc par bloc mais aggrégation des transactions (transaction group). ZFS Intent Log (ZIL) RAIDZ Taille des stripes variable Ajout et suppression des disques dynamique et à chaud Toutes les écritures sont full stripes

Page 7 Tous les appels à ZFS via le système sont loggués comme transaction par le ZIL. Les enregistrements contiennent des informations suffisantes pour être rejouées après un crash. Les logs sont de taille variable, en fonction de la structure. ZIL Write : a) small write - les données sont écrites dans le journal, les commit sont périodiques. b) large write - les données sont écrites sur le disque et un pointeur vers les données est écrit dans le journal. Pendant le montage du poolZFS contrôle le journal correspondant – si le journal n’est pas vide alors, le système a probablement planté. ZIL, quesako ? ZIL permet des gains de performance en particulier pour les bases de données Une idée : le ZIL en nvram

Page 8 Largeur des stripes totalement dynamique. Les données et la parité peuvent être réparties sur un nombre de disque variable, un des paramètres est la taille de ces données. Toutes les écritures sont ”full stripe”. Pas de mécanisme de « read-modify-read » comme en RAID5 Stripping dynamique : Les données et les parités sont automatiquement redistribuées à l’enlèvement ou l’ajout de disques. Permet d’utiliser des disques “bas de gamme”, l’intégrité, les performances et la redondance sont quand même assurées. Quid du RAIDZ ? RAIDZ2 plus fort que le RAIDZ

Page 9 RAID5 vs RAIDZ

Page 10 Mais comment peut-on décider que chaque bloc, indépendamment de sa localisation physique, est un stripe complet? En fait, ça n'est possible que parce que ZFS est à la fois un système de fichiers et un outil de gestion de volumes, conscient aussi bien de la structure logique que de l'architecture physique des devices sous-jacents. Full stripe ? RAIDZ – pas vraiment un RAID: parité et données sont mélangées. Jeff Bonwick - “You have to traverse the filesystem metadata to determine the RAIDZ geometry”. Darcy - “True RAID levels don’t require knowledge of higher-level applications”.

Page 11 Les choses sérieuses commencent, enfin !!!! Merci Mr SUN 2 sun xfire 4150, 16Go Disques système R0+1 Carte sas 1 myrinet 10Gb/s

Page 12 lalcluster11/root % zpool status zfspool1 pool: zfspool1 state: ONLINE scrub: none requested config: NAME STATE READ WRITE CKSUM zfspool1 ONLINE raidz2 ONLINE c1t74d0 ONLINE c1t75d0 ONLINE c1t76d0 ONLINE c1t77d0 ONLINE c1t78d0 ONLINE c1t79d0 ONLINE c1t80d0 ONLINE c1t81d0 ONLINE c1t82d0 ONLINE logs mirror ONLINE c1t83d0 ONLINE c1t84d0 ONLINE spares c1t85d0 AVAIL Un pool de test

Page 13 Une configuration à l’arrache ! 1)Couche sun cluster sur zfs 2)Fencing à off 3)Quorum soft 4)Pas de gfs car zfs est un lfs 5)Toutes les confs dans les pools

Page 14 Un bench sinon rien ! lalcluster11/root % more test.sh #!/bin/sh echo "Rm all test file" rm./testfile* echo "Write 2560 MO file bs=8k" time dd if=/dev/zero of=./testfile8k bs=8k count= echo "Read 2560 MO file bs=8k" time dd if=./testfile8k of=/dev/null bs=16k echo "Write 2560 MO file bs=16k" time dd if=/dev/zero of=./testfile16k bs=16k count= echo "Read 2560 MO file bs=16k" time dd if=./testfile16k of=/dev/null bs=16k echo "Write 2560 MO file bs=32k" time dd if=/dev/zero of=./testfile32k bs=32k count=81920 echo "Read 2560 MO file bs=32k" time dd if=./testfile32k of=/dev/null bs=32k echo "Write 2560 MO file bs=64k" time dd if=/dev/zero of=./testfile64k bs=64k count=40960 echo "Read 2560 MO file bs=64k" time dd if=./testfile64k of=/dev/null bs=64k Un script basique : Un fichier de 2.5Go Des blocs de taille variable Ecriture + lecture Serveur de fichier actif Lecture 1.5 Go/s Écriture 1Go/s

Page 15 Encore des chiffres …. Ahhhhh, les beaux effets de cache … On peut utiliser une synchro forcée avec Iozone (fsync()) et là les chiffres ne sont plus les même.

Page 16 NFS/Cifs ? Performants ? Les premiers tests furent largement décevants …. Le tarball de la mort. (fsync + commit nfs create/write + WriteBack Acknowledge…) NFSv3 en production uniquement. La seule performance brute, les fichiers d’échange des machines virtuelles ZFS over NFS: 343s ext3 over NFS: 15s ZFS over NFS w/ZIL disabled: 13s Option inconcevable !!

Page 17 ZFS evil tuning Les champs d’action possible : CHECKSUMSCHECKSUMS : A ne pas toucher sinon …. ARCSIZEARCSIZE : beaucoup de mémoire, L2ARC dispo ZFETCHZFETCH : ZFS met en oeuvre un mécanisme de prefetch appelé zfetch : son rôle est d’anticiper les lectures VDEVPFVDEVPF : attention à l’efficacité de la profondeur du cache lorsque les données sont “dispersées” sur les disques. Vouloir trop cacher les metadata peut être alors pénalisant. MAXPENDMAXPEND : FLUSHFLUSH : NFS is bad !! ZILZIL : séparé ou nvram METACOMPMETACOMP : # I/O HW dépendant IMMSZIMMSZ : pour les DB

Page 18 Allons encore plus loin ! Test de la carte : Sun Flash Accelerator F20 PCIe Card Performances de lecture supérieures à opérations d'E/S par seconde Capacité de stockage de 96 Go Idée : utilisation de cette carte pour optimiser le L2ARC Et le nombre d’I/O s’envole ….

Page 19 Et les ACLs dans tout cela ? Le file system ZFS basé uniquement sur les ACLs. Tous les fichiers ont une ACL. Tous les contrôle d’accès sont régis par ces 2 règles précédentes. Les Fichiers conservent les fameux bits de permission, mais ceux ci sont construits à partir des ACLs. Ce modèle d’ACL est basé sur une compatibilité NFSv4 (contrairement à Advfs), Beaucoup de similitude avec le modèle d’ACLs “windows”.

Page 20 Un modèle complexe lalcluster11/root % ls -Va testfile16k -rw-r--r-- 1 root root May 18 01:23 testfile16k lalcluster11/root % more setacl_tree.sh #!/bin/sh GROUP=baomgrs chmod A0+group:$GROUP:read_data/execute/add_file/write_ data/add_subdirectory/append_data/write_xattr/write_ attributes/write_acl/write_owner:file_inherit/dir_inherit: all ow.

Page 21 Conclusion Un vaste sujet à couvrir en peu de temps. ZFS a-t-il tenu toutes ces promesses ? Un système de fichier peut il être générique ? ZFS et Oracle, une liaison dangereuse ? Merci de votre attention.