Architectures de grappes de PC Philippe Augerat ID-IMAG CIMENT 9 MAI 2000
Grappe « BEOWULF » : Une grappe (cluster) est une collection de machines interconnectées, utilisée comme une ressource de calcul unifiée Une grappe « Beowulf » se définit par les propriétés suivantes : composants à grande diffusion composants réseau à faible coût système d ’exploitation « open source » hardware non propriétaire logiciel « open source » CIMENT 9 MAI 2000
Applications : projet du CEA : calcul haute performance intégration de machines performantes et d'un réseau commuté performant - perspective de changement d'échelle projet GRID : parallélisme faiblement couplé, du débit de calcul sur 6 mois plutôt que sur 24 heures. serveur WEB : faible charge CPU, importance de la mémoire HP : mélanger les usages CIMENT 9 MAI 2000
Medium size (240,000 cells) Fluent CFD computation. CIMENT 9 MAI 2000
Des grappes de référence : le Top500 Sandia 592 procs alphas, myrinet, linux, #44 NCSA 256 pentiums, myrinet, NT, #68 Cornell 256 pentiums, giganet, NT, #198 Los Alamos 140 alphas, Ether100/1000, linux, #265 Paderborn 192 pentiums, SCI, solaris, #351 Bonn 144 pentiums, myrinet, linux, #454 Chiba, Los Lobos, CEA, FSL, … en 2000 CIMENT 9 MAI 2000
Technologies : SMP biproc quadriproc Mono ? IA64 Processeur Pentium Alpha SCI Réseau Ethernet Giganet, ServerNet, ... Myrinet NT Linux OS Solaris,... CIMENT 9 MAI 2000
Machines/OS Une majorité de SMP CIMENT 9 MAI 2000
PIII / Alpha Performances P III Xeon 500 Mhz : Coût Dual CPU : adressage 32 bits STREAM Copy : 188 MB/sec SpecFP95 : 15.1 Peak MFLOPS : 500 Coût Dual CPU : ~6K$ (512K L2) Logiciels Linux: beaucoup Performances Alpha 21264 677 Mhz : adressage 64 bits STREAM Copy : 1087 MB/sec SpecFP95 : 48.4 Peak MFLOPS : 1354 Coût Dual CPU : ~15K$ (4M L2) Logiciels Linux : quelques uns CIMENT 9 MAI 2000
Architecture d ’un PC Intel : Pentium III Xeon 500 Mhz cache L1 ... ... <=2 Mo Cache L2 Bus système100 Mhz/800 Mo/s Mémoire <=8Go Contrôleur mémoire et pont E/S 100 Mhz 800 Mo/s 266 Mo/s Bus E/S CIMENT 9 MAI 2000 PCI 64 BITS ou 2 bus PCI 32 BITS
SMP : Pour : Contre : diminue la taille de l ’interconnexion forme plus compacte rapport prix/performance plus intéressant Contre : accès sur le bus système/mémoire stressé composants plus chers Peut ajouter à la complexité logicielle CIMENT 9 MAI 2000
Souhaité et facultatif : La meilleure offre en : vitesse des processeurs hiérarchie mémoire (vitesse, cache, …) bus PCI (64 bits, vitesse, nombre,..) CIMENT 9 MAI 2000
Prix Estimations par poste : Myrinet : 1,5 k$ ServerNet/Giganet/SCI : 1.5 k$ Gigabit Ethernet : 1 k$ Pentium bi procs : 6 k$ CIMENT 9 MAI 2000
L’interconnexion réseau Infiniband SCI HIPPI VIA ATM Fibre Channel Myrinet WDM PCI ... Ethernet FDDI SCSI ... ... SAN LAN WAN MAN CIMENT 9 MAI 2000
Interconnexion : statistiques CIMENT 9 MAI 2000
La technologie Myrinet Commutation de paquets Topologie très souple Carte réseau muni d ’un processeur RISC pilotant plusieurs contrôleurs DMA Local memory PCI bus PCI BRIDGE DMA controller Host interface RISC processor Packet Interface network CIMENT 9 MAI 2000
La technologie SCI réseau à capacité d’adressage adressage des mémoires distantes lecture/écriture distante sans interrompre le processeur distant plus de nécessité de programmation par échanges de messages Topologie en grille CIMENT 9 MAI 2000
La technologie VIA Une interface logicielle dont l’objectif est de limiter les accès au système et les copies de buffers. Peut être implémentée en hardware application application données VI contrôle contrôle Standard industriel proposé par Microsoft, Intel, Compaq. Aujourd’hui par Dell, Intel, Compaq Système d ’exploitation Système d ’exploitation données Contrôleur réseau Contrôleur réseau VIA Architecture TCP/IP Architecture VIA CIMENT 9 MAI 2000
Les autres candidats Memory channel : espace d ’adressage mémoire unique bonne latence passage à l ’échelle par SMP donc limité SupperHIPPI, FibreChannel, Infiniband, ATM, WDM, Quadrics, ... offre cluster balbutiante ou de luxe CIMENT 9 MAI 2000
D ’un coup d’œil CIMENT 9 MAI 2000
Évolutions ? Topologie ? CIMENT 9 MAI 2000
SCI : pour/contre Myrinet : pour/contre manque de maturité monopolise le CPU quelle fiabilité en cas de panne d ’un nœud espace d ’adressage mémoire unique latence/messages de petite taille Myrinet : pour/contre Plus grande maturité intégrateurs en France bande passante ? Autant de MPI/drivers/firmwareque de grappes CIMENT 9 MAI 2000
Comparatifs SCI/Myrinet P II 450 Mhz carte scali 2D 32bits/33Mhz PALLAS BENCHMARK Myrinet : P II 450 Mhz carte Lanai 4 32bits/33Mhz CIMENT 9 MAI 2000
SCI/Myrinet (2) * P III 500 Mhz IS benchmark de tri faisant parti des NAS parallel benchmarks communications collectives de petits paquets FT benchmark opérant plusieurs transformées de Fourrier communications collectives de gros paquets (1 MO pour 8 processeurs) CIMENT 9 MAI 2000
SCI/Myrinet (3) BT benchmark de multiplication de matrices spéciales - 80% de calcul communications non bloquantes de paquets de taille 100 ko pour 8 processeurs LU benchmark de factorisation de matrice - 80 % de calcul communications bloquantes de petits paquets de 3 ko pour 8 processeurs CIMENT 9 MAI 2000
Les autres possibles ServerNet II Giganet VIA orienté haute disponibilité : contrôle d ’erreurs en hardware, redondance support de Compaq Giganet disponible sur NT/linux débit/messages de grande taille Mais quelle maturité ? Quel avenir pour VIA ? CIMENT 9 MAI 2000
Les autres possibles (Double) Fast Ethernet Gigabit Ethernet standard le moins cher Mais latence importante et très forte utilisation du CPU (en attendant VIA et des cartes avec processeur) Gigabit Ethernet standard, plusieurs fournisseurs de moins en moins cher switches 64 ports CIMENT 9 MAI 2000
Logiciels gestionnaire de batch/ressources compilateurs MPI pile TCP/IP outils de trace et de debug intégration et portabilité Linux-NT outils de déploiement et d ’administration systèmes de fichiers pile VIA image unique de système CIMENT 9 MAI 2000
Besoins logiciels (1) un (ou plusieurs) MPI adapté aux applications thread aware (MPI/Pro, ScaMPI) faible latence (ScaMPI) bande passante élevée (BIP, MPI/PRO) très diffusé (MPICH, LAM) outils de déploiement pour stations : Rembo, HP Toptools, Norton Ghost pour clusters : scali, alinka, Compaq CMU outils propriétaires type IBM PSSP (?) CIMENT 9 MAI 2000
Besoins logiciels (2) gestionnaire de batch/ressources outils de trace PBS Condor LSF Codine ... outils de trace Totalview Vampir portabilité : MPI/pro MPI sur Ethernet Fast messages CIMENT 9 MAI 2000
Besoins logiciels (3) systèmes de fichiers NFS système de fichiers IRIX, True64, … réseau de stockage en amont image unique de système (autres thèmes) migration de processus mémoire partagée distribuée interface utilisateur unique administration centralisée espace d ’entrées/sorties partagé espace de processus unique pile VIA VIA hardware : Giganet, Server Net Myrinet et certaines cartes Ethernet fast et gigabit CIMENT 9 MAI 2000
L’intégrateur/vendeur support scientifique support technique maintenance intégration hardware intégration software Minimum : intégration hardware et validation par déploiement du système et de benchmarks CIMENT 9 MAI 2000
Des options coûteuses : Racks contrôle souhaité (BIOS, wake on line, boot PXE, lien série, …) concentrateurs d ’alimentation électrique écrans, switchs d ’écran ? disques locaux des serveurs supplémentaires : contrôle, login, fichier, développement, scheduler CIMENT 9 MAI 2000
Où en est on ? (1) Coopérations avec des constructeurs HP : « cluster du pauvre » Microsoft : portage sur NT et metacomputing Compaq IBM, BULL, SGI, DELL Myrinet, Dolphin Utilisation et benchmarks de grandes grappes et des dernières générations de matériel CIMENT 9 MAI 2000
Où en est on ? (2) Budget : INRIA 2,5 MF Région ? MF MENRT (UJF 400 INPG 400) ENS-LYON 300 CNRS ? Solution en deux phases : Ethernet (+) puis SCI et/ou Myrinet CIMENT 9 MAI 2000
Evolution contexte grappe 3D SCI mesh Administration simplifiée True64/IRIX/AIX --> LINUX Grappe Linux 140 alphas #113 dans le TOP 500 Grappe Linux 144 pentiums #356 Réseaux de stockage Grappe NT 256 pentiums #198 Switch Myrinet 128 ports VIA sur Ethernet Compilateurs Digital sur Linux IA 64 InfiniBand Linux SMP 1998 1999 2000 2001 CIMENT 9 MAI 2000
A venir : Collaborations industrielles à conclure Benchmarks au niveau Athapascan Rédiger l ’appel d ’offre (pour septembre) : décrire les paramètres de l ’architecture de machine De nouvelles problématiques de recherche, ex. autour de « l ’image unique de système » CIMENT 9 MAI 2000
Contact/infos : Philippe.Augerat@imag.fr http://grappe200.imag.fr CIMENT 9 MAI 2000