Retour d’expérience sur BeeGFS à l’université de Bourgogne TutoJRES n°18 Le stockage distribué 02/05/2016 Retour d’expérience sur BeeGFS à l’université de Bourgogne Antoine Migeon Centre de calcul et Messagerie Pôle des Systèmes d'Information et des Usages du Numérique
Le cluster de calcul du CCUB 250 nœuds, 170 Tflops (CPU + GPU + Phi) 1 Gb Eth pour le stockage et le management Infiniband QDR pour le DMP (grappes de 36 nœuds) 3 systèmes de stockage Home = 10 Tio = NetApp Scratch = 410 Tio = BeeGFS / Transtec Archive = 700 Tio = SGI DMF (+ Dell)
Historique du scratch au CCUB 2006 : IBM GPFS – 4 To 2008 : Sun X4540 – 40 Tio (NFS) 2010 : Panasas PAS 8 – 60 Tio (pNFS) 2015 : BeeGFS – 410 Tio
BeeGFS CCUB Objectif : 180 To, 3 Go/s, 20000 IO/s Offre Transtec : 3 nœuds avec chacun 2 extensions SAS (= 36U) 312 disques 3 To NL-SAS en raid 10 = 410 Tio utiles 21 SSD en raid 10 = 4 To pour metadata Saturation des 3 liens 10 Gb/s (cartes Infiniband) 2014.01.r14
BeeGFS CCUB Mesure avec fhgfs-ctl –storagebench blocksize write read 2 Go/s → 250000 IOPS 3,8 Go/s → 950000 IOPS 512k 10,6 Go/s → 20700 IOPS 11,1 Go/s → 21600 IOPS
Support BeeGFS Environ 7000 €TTC / nœud pour 5 ans Support réactif, en anglais 2 incidents en 14 mois Problème sur contrôleur raid, perte disque : IO error Problème metadata suite à panne d’onduleur : Mauvaise taille affichée : fhgfs-ctl –refreshentryinfo Impossible de supprimer certains dossiers : fhgfs-fsck –runOnline et suppressions de quelques fichiers
En plus Client mount on Intel Xeon Phi (Knights Corner) High Availability based on Shared Storage NFS Export Linux Software RAID (mdraid) Tuning Hadoop Connector (evaluation version)
14 mois plus tard 150 To de consommés (car quotas à 8 Tio / user) Lecture : 400 Mo/s en moyenne Écriture : 100 Mo/s en moyenne
Quelques remarques Installation et configuration simple et rapide des serveurs et des clients Un seul espace de nommage, répartition des metadata par dossier Compilation des client à la volée (au boot) Stable, pas de HA mais IO en attente si un nœud et down Quotas block et chunk (~fichier) (configuration bof)
Quelques remarques Monitoring succinct mais suffisant (stat par client, stat correctement rapportée au kernel), manque peut être une vue des IOPS globale Jamais de ralentissement sur les meta (ls, cd, etc.), donc utilisateurs satisfaits Il manque les snapshots
mdtest -- started at 02/25/2015 11:20:03 -- mdtest-1.9.3 was launched with 48 total task(s) on 48 node(s) Command line used: /fhgfs/data/antoine/mdtest -n -d /fhgfs/data/antoine/testdir -i 5 -I 400 -z 2 -b 8 -L -u -F Path: /fhgfs/data FS: 409.2 TiB Used FS: 9.5% Inodes: 0.0 Mi Used Inodes: -nan% 48 tasks, 1401600 files SUMMARY: (of 5 iterations) Operation Max Min Mean Std Dev --------- --- --- ---- ------- File creation : 105085.657 96748.362 101318.084 3293.947 File stat : 329580.789 319931.620 325857.199 3600.292 File read : 128377.513 121699.256 125498.269 2204.424 File removal : 72963.081 70956.648 72052.643 639.581 Tree creation : 431.044 360.584 402.711 22.989 Tree removal : 110.454 108.038 109.381 1.000 -- finished at 02/25/2015 11:24:11 --
fhgfs-ctl --storagebench # fhgfs-ctl --storagebench --alltargets --write --blocksize=512K --size=20G --threads=30 Write benchmark results: Min throughput: 339014 KiB/s nodeID: copland03.u-bourgogne.fr [ID: 52089], targetID: 29515 Max throughput: 386313 KiB/s nodeID: copland03.u-bourgogne.fr [ID: 52089], targetID: 863 Avg throughput: 355378 KiB/s Aggregate throughput: 10661348 KiB/s # fhgfs-ctl --storagebench --alltargets --read --blocksize=512K --size=20G --threads=30 Read benchmark results: Min throughput: 659565 KiB/s nodeID: copland02.u-bourgogne.fr [ID: 43142], targetID: 46690 Max throughput: 868367 KiB/s nodeID: copland03.u-bourgogne.fr [ID: 52089], targetID: 64164 Avg throughput: 741029 KiB/s Aggregate throughput: 11115436 KiB/s
fhgfs-ctl --storagebench # fhgfs-ctl --storagebench --alltargets --write --blocksize=4K --size=20G --threads=30 Write benchmark results: Min throughput: 128394 KiB/s nodeID: copland03.u-bourgogne.fr [ID: 52089], targetID: 863 Max throughput: 133269 KiB/s nodeID: copland02.u-bourgogne.fr [ID: 43142], targetID: 12592 Avg throughput: 130741 KiB/s Aggregate throughput: 1961120 KiB/s # fhgfs-ctl --storagebench --alltargets --read --blocksize=4K --size=20G --threads=30 Read benchmark results: Min throughput: 127692 KiB/s nodeID: copland03.u-bourgogne.fr [ID: 52089], targetID: 863 Max throughput: 129601 KiB/s nodeID: copland01.u-bourgogne.fr [ID: 1893], targetID: 2090 Avg throughput: 128457 KiB/s Aggregate throughput: 3853710 KiB/s
IOR Run began: Tue May 3 22:20:43 2016 Command line used: /soft/IOR/2.10.3/openmpi/intel/13.1.3/IOR -A 1 -N 72 -a POSIX -b 8g -d 1 -t 4k -o /fhgfs/data/antoine/IORtestdir/IORtestfile.AB -w -r -s 1 -i 1 -F -C Machine: Linux orff036.u-bourgogne.fr Summary: api = POSIX test filename = /fhgfs/data/antoine/IORtestdir/IORtestfile.AB access = file-per-process ordering in a file = sequential offsets ordering inter file=constant task offsets = 1 clients = 72 (2 per node) repetitions = 1 xfersize = 4096 bytes blocksize = 8 GiB aggregate filesize = 576 GiB Operation Max (MiB) Min (MiB) Mean (MiB) Std Dev Max (OPs) Min (OPs) Mean (OPs) Std Dev Mean (s) --------- --------- --------- ---------- ------- --------- --------- ---------- ------- -------- write 3109.52 3109.52 3109.52 0.00 796036.04 796036.04 796036.04 0.00 189.68355 EXCEL read 2992.92 2992.92 2992.92 0.00 766186.65 766186.65 766186.65 0.00 197.07332 EXCEL Max Write: 3109.52 MiB/sec (3260.56 MB/sec) Max Read: 2992.92 MiB/sec (3138.30 MB/sec) Run finished: Tue May 3 22:27:14 2016
compilebench ./compilebench -D test_verdi007/ -i 10 -r 30 intial create total runs 10 avg 7.11 MB/s (user 0.66s sys 2.17s) create total runs 5 avg 8.05 MB/s (user 0.64s sys 2.14s) patch total runs 4 avg 13.75 MB/s (user 0.33s sys 1.10s) compile total runs 7 avg 64.41 MB/s (user 0.19s sys 0.53s) clean total runs 4 avg 628.75 MB/s (user 0.03s sys 0.06s) read tree total runs 2 avg 9.07 MB/s (user 0.74s sys 2.31s) read compiled tree total runs 1 avg 26.15 MB/s (user 0.87s sys 3.07s) delete tree total runs 2 avg 10.04 seconds (user 0.30s sys 0.65s) no runs for delete compiled tree stat tree total runs 4 avg 4.84 seconds (user 0.28s sys 0.45s) stat compiled tree total runs 1 avg 5.28 seconds (user 0.28s sys 0.51s)