Réseau Local 10 Gb/s : Expérience LAL Michel Jouvin LAL, Orsay jouvin@lal.in2p3.fr http://grif.fr LCG France, Annecy 18 Mai 2009
Agenda Le contexte et les besoins en 2006 LAG et 10 GbE Les choix techniques L’histoire du déploiement au LAL Expérience et performance Le tuning Les problèmes Internet 10 Gb/s Evolutions possibles 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
Le Contexte LAL = plusieurs batiments distants de quelques centaines de mètres Batiment principal long de plus de 200m Mise en place d’un réseau en étoile autour de la salle machine 1 point de concentration (switch) par « zone » de bureau 1 seule concentration à 2 niveaux 1 lien fibre entre le point de concentration et le cœur de réseau Depuis 98, cœur de réseau constitué par un switch à crossbar non bloquant Ports Gb/s avec les points de concentration et les principaux serveurs (fichiers et interactifs) Serveurs de groupes connectés à 1 Gb/s sur des switches avec un uplink 1 Gb/s (36 pour 1) à partir de 2005 Postes de travail à 100 Mb/s sur les switches de concentration 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
Les Besoins en 2006 Perspective de plusieurs 100 TB en 2009 Besoin de débit réseau important si on veut pouvoir consolider de grand volume sur un seul serveur Analyse de données Atlas suppose 5 MB/s/job Connection 1 Gb/s = ~10 jobs : suffisant pour un WN 8 cores, pas pour un disk server Avec le développement de GRIF/LAL, augmentation du nombre de serveur (WNs) à 1 Gb/s Ratio 36:1 limite les performances Dans un contexte d’analyse intense, ratio ideal < 2:1 (si 750 Mb/s max par serveur), 4:1 maximum admissible Switch cœur de réseau ancien (8 ans) et plein Routage entre machines grille et machines internes Infrastructure physique partagée Routage effectué par le CISCO 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
LAG et 10 GbE… LAG (Link Aggregation) : combinaison de plusieurs liens physiques pour offrir un lien « virtuel » offrant la somme du débit de chaque lien +: Disponible sur de nombreux switches, interopérable, permet d’utiliser du HW peu cher +: Les serveurs ont toujours au moins 2 interfaces GbE -: Inégalité de qualité des implémentations -: une connexion n’utilise qu’un seul lien physique, voire toutes les connexions entre 2 machines suivant l’algorithme de hachage disponible Ex: inopérant dans un contexte FTS où sources et destinations sont les mêmes et communiquent sur une seule connexion. -: Problème de câblage et de nombres de port sur le cœur de réseau si on souhaite offrir 10 Gb/s entre un switch de concentration et le cœur de réseau. 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
… LAG et 10 GbE 10 GbE : hardware spécifique plutôt récent et plus couteux au port +: Mise en œuvre très simple : 10 GbE disponible pour toutes les connexions +: Combinable avec le LAG pour offrir plus… -: Coût 1 port 10 GbE > 10 ports 1 GbE -: Aucun serveur avec des ports 10 GbE standard Carte extension requiert un bus PCI Express (PCI-E et non PCI-X) -: Connectique cuivre banalisée (RJ45) pas encore disponible (en cours en 2009 ?) -: Connectique fibre ou cuivre CX4 (Infiniband) CX4 = 15m maxi Fibre : le XFP (GBIC) aussi cher que la carte sur un serveur Sans TCP Offline Engine (TOE), requiert une très gros puissance CPU (# 2 cœurs puissants) TOE historiquement mal supporté par les kernels Linux TOE = driver spécifique 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
Choix Techniques (2006) Cœur de réseau 10 GbE autour d’un switch/router Extreme Network BD8810 (utilisé en swtich) 2 fois moins chers que ses concurrents pour les ports 10 GbE et plutôt moins cher pour le chassis/controlleur Capacité de 32 ports 10 Gb/s non bloquants Carte 48 ports 1 GbE (non bloquante) 1 switch de concentration par rack de 36 machines Connection 10 GbE du switch au cœur de réseau Ratio 3,6:1 : limite supérieure… Switch 3COM 5500 : possibilité de 2 ports 10 GbE en LAG Connection 10 GbE des disk servers au cœur de réseau Maintient d’une connexion 1 GbE des switches concentrateur de postes de travail 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
Le Déploiement au LAL Automne 2006 : Switch BD 8810 avec 48 ports GbE et 12 ports 10 GbE Connexion des switches de concentration de rack à 10 GbE Hiver 2007 : Connexion des 3 premiers serveurs de disques (Thumper) Cartes Intel/PRO + PCIX : désastre (1.5 Gb/s) Automne 2007 : remplacement des cartes Intel/PRO par des cartes Neterion + ajout de 2 Thumpers 5-6 Gb/s (voir plus loin) Hiver 2008 : Ajout de 7 racks et 12 ports 10 GbE Hiver 2009 : +8 ports 10 GbE (1 carte, bloquante) Automne 2009 (prévu) : remplacement chassis par 8 ports 96 Gb/s (au lieu de 48) Carte 8 ports 10 GbE non bloquante Récupération des cartes existantes 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
Expérience / Performance Les cartes serveurs très inégales Bus PCI Express requis : PCI-X (Xun 4500) half-duplex entraine une forte dégradation des perfs si envoi et réception simultané Eviter les cartes Intel : ancienne génération a de très mauvaise performance, la nouvelle sans TOE Très bonne performance mais utilise au moins 2 cœurs 3 Ghz Bonne expérience Myrinet avec ou sans TOE > 7 Gb/s full duplex Bons échos de Chelsio TOE = driver spécifique donc contraintes sur les kernels Source rarement disponible Bien sûr, rien n’est définitif… 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
Expérience / Performance Tests BD8810 avec générateur de trames Dans le cadre du projet CARRIOCAS : infrastructure 40 Gb/s longue distance + LUSTRE Démontré les très bonnes performances du BD8810 : totalement non bloquant niveau 2 et 3, y compris avec ACL, jumbo frame, VLAN… Quelques pbs de performance avec le LAG 10 Gb/s, en particulier quand plusieurs ports sur la même carte Aucun problème depuis la mise en service Contrôleur redondant, alims N+1 3 COM 5500 : bon switch niveau 2 (non bloquant) mais peu de fonctionnalités avancés Pas de tag-based VLAN, seulement VLAN par port +: garantie HW à vie par échange standard, mise à jour FW gratuite 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
Le Tuning Bonne performance TCP requiert une augmentation des buffers Kernel et des kernels récents TCP window importante Stratégie de retry adaptative en cas d’erreur Stratégie basée sur la division par 2 de TCP window a des conséquences catastrophiques sur les performances globales Pas mal de documentation sur internet… Jumbo Frame peut significativement améliorer les performances sur des disk servers (gros transfert) Utilisation de frame jusqu’à 9000 bytes Associé au path MTU discovery permet de continuer à utiliser une frame evitant toute fragmentation sur le trajet Pas encore en production au LAL : aucun pb mais manque de temps… 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
Les Problèmes Pas de PXE en 10 GbE : nécessité d’un double attachement pour installation initiale et réinstallation Sous réseaux différents si actifs tous les 2 Basculement de la configuration active Solution mise en œuvre au LAL Géré par Quattor PXE sur l’interface 1 GbE au boot permet une réinstallation simple Cablage fibre optique Fibre (fragile) se prête mal au passage en vrac dans un faux plancher Privilégier des tableaux de brassage prêt des racks Coût pas totalement négligeable Connectique LC devenue standard pour toutes les infrastructures (FC, 10 GbE…) Utiliser de la fibre multi-mode si moins de 300m car permet l’utilisation de n’importe quelle longueur d’onde 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
Internet 10 Gb/s En // avec le LAN 10 GbE, LAL a déployé des connexions 10 Gb/s externes Début 2008, lien dédié (VLAN) LAL-CCIN2P3 LCG/SRM pour les transferts FTS Régulièrement utilisé à plus de 2 Gb/s Fin 2008 (RENATER 5), passage à 10 Gb/s de la liaison Internet générique, utilisé par le traffic général, traffic grille non FTS CC (CMS/ILC) Depuis 2008, mise en place de GRIFOPN, un ensemble de VLAN dédié au traffic interne entre les machines grille de GRIF Réseau privé, complet depuis février 2009 Liaison terminale manquante (en cours) pour le LPNHE IRFU limité à 5 Gb/s Etude en cours pour utiliser les jumbo frames sur GRIFOPN Certains liens déjà utilisés à plus de 3 Gb/s 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
Evolutions Possibles… Double attachement 1 GbE des WNs si besoin pour l’analyse Indispensable au-delà de 8 cœurs par machine Coût non négligeable : 2 switches de concentration par rack, 2x le nombre de port 10 Gb/s sur le core switch Peu de sens de le faire partiellement sauf à dédier certains WNs à l’analyse : faisabilité ? Gérabilité ? Avantage/inconvénient de solutions blade : impact en terme de multiplication des ports d’uplink 10 Gb/s Difficile de dépasser 64 ports 10 GbE à un coût « raisonnable » Attendre la disponibilité du 100 Gb/s ? Uplink 10 GbE des switches de concentration des poste de travail Beaucoup de PT ont un interface 1 GbE Pas envisagé à court terme car très forte distinction serveur/PT au LAL Tous les serveurs en salle machine 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008
… Evolutions Possibles Plus de routage pour une meilleure segmentation des traffics +: Aucun impact sur les performances avec des matériels comme le BD8810 +: routage donne plus de possibilité pour le contrôle du traffic et la régulation (ACL, QoS…) -: contraignant sur le cablage (actuellement indifférencié) 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008