Réseau Local 10 Gb/s : Expérience LAL

Slides:



Advertisements
Présentations similaires
Impact de la virtualisation sur le poste de travail, les serveurs, la salle machine et les programmes? Poste de travail? +Windows et Linux simultanés -Mémoire.
Advertisements

Evaluation de requêtes Quelques résultats préliminaires 1 Amin Mesmoudi.
Parcours de Professionnalisation Epreuve E6 BTS SIO OPTION SISR Ngouma Lorris.
SRT 2 NTP. Nécessité ● Les ordinateurs utilisent des horloges à quartz – Peu de précision – Tendance à dériver – Parfois plusieurs secondes par jour.
Thomas Stuck session : Soutenance du rapport de stage.
Facilité d'Analyse au CC-IN2P3 (LAF) Renaud Vernet Journées LCG France 22 novembre 2010.
Vers une scolarité numérique Projets de l’UFR Médecine.
Présentation LabPlus v3. Solution novatrice en Technologies de l’information Solution novatrice en Technologies de l’information Application pour la Gestion.
25/09/2016DRT du CRDP de l'académie de Lyon1 OCSInventory Expression du besoin Présentation OCS Démonstrations des fonctionnalités de base Déploiement.
Le système Raid 5 Table des matières Qu'est ce que le RAID ? Les objectifs Le raid 5 Les avantages et les inconvénients Les composants d’un Raid.
29 Octobre P. 1 SNL Yvelines – projet de site Internet Projet de site internet à l’usage des membres actifs Présentation aux GLS.
Réseau LCG-France LCG France 11/2008 Centre de Calcul de l'IN2P3/CNRS.
La mise en réseau des ordinateurs à l'école Sources : Educnet christian.caleca.free.fr.
ALICE February/March exercise summary Latchezar Betev WLCG Collaboration Workshop 22 April 2008.
Sommaire : I.Introduction II.Fibre optique (pr é sentation g é n é ral de la fibre) III.Les techniques de transmissions -Multiplexage temporelle (TDM)
Baccalauréat professionnel SEN
ARCHITECTURE RESEAUX.
appareil de mesure (pHmètre P310 Chauvin-Arnoux) Pierre DIEUMEGARD,
La technologie des mémoires
Nouvelle norme sans fil …
Chapitre 2 Conducteurs électriques
Multifonctions A3 couleur Konica Minolta
Technologie wifi.
V12N avec Xen et IBM BladeCenter
Davide Canali Sr. Threat Analyst – Proofpoint Inc.
LAN Médias cch_ccnp.
WAN LAN INTERNET Cable or DSL or Vsat or BLR modem Router Switch
SNMP - Comment calculer l'utilisation de la Bande passante
COOLING EUDET Julien Giraud – 3 Décembre , 2010
de la pêche de loisir du bar ?
Le nœud de grille de calcul de l'IPHC dans CMS
Veille technologique Nassima Mahcer 17 MAI 2017.
Configuration de Voice VLAN
Support – info Sauvegarde des données locales des postes clients
Les nouveautés dans les modèles de Calcul au LHC
Les cartes réseau. Sommaire Généralités Support de l’information
GRIF : Grille pour la Recherche en
Routage S 2 - Questionnaire N°1 - Réponses
Projet de participation CMS au GRIF
QoS - Configuration de NBAR (Network-Based Application Recognition)
Installation des OS par réseaux (PXE)
Séquence 1 : séance 3 Comment peut-on disposer d’un espace numérique permettant de stocker toutes sortes de documents pouvant être utilisés par n’importe.
Séquence n°1 : Séance 3 Problème posé :
Direction commerciale
Institut Universitaire Virtuel de Formation des Maîtres
Présentation de la carte graphique
Plan 1- C’est quoi le commerce électronique ??
Estimation du coût d'utilisation de CPU d'un cloud hébergé sur radiateurs P. Hennion 22 juin 2016.
Integrated Business intelligence
Stockage iSCSI.
LES RESEAUX.
GRIF : Site EGEE au Service de la Recherche en IdF
Module 13 : Implémentation de la protection contre les sinistres
Architecture matérielle des ordinateurs
Le contrôle budgétaire
Déploiement Windows 10 Forum du CEG 2017 Polyvalence Qualité
Distribution spécialisée Réponses (suite)
Représentant technique Représentant scientifique
Michel Jouvin Comité des utilisateurs 14 Mai 2007
Michel Jouvin LAL/Orsay
DC04 CMS Objectif Status Planning
Comité Scientifique GRIF
Efficacité des jobs CMS en 2010
Les différents modes de démarrage de Windows
L’analyse de la valeur des projets informatiques
LCG – France et ALICE Bilan 2006 Planning fevrier 2007
Comité Scientifique GRIF
Backup des Postes de Travail
Michel Jouvin LAL/Orsay
Transcription de la présentation:

Réseau Local 10 Gb/s : Expérience LAL Michel Jouvin LAL, Orsay jouvin@lal.in2p3.fr http://grif.fr LCG France, Annecy 18 Mai 2009

Agenda Le contexte et les besoins en 2006 LAG et 10 GbE Les choix techniques L’histoire du déploiement au LAL Expérience et performance Le tuning Les problèmes Internet 10 Gb/s Evolutions possibles 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

Le Contexte LAL = plusieurs batiments distants de quelques centaines de mètres Batiment principal long de plus de 200m Mise en place d’un réseau en étoile autour de la salle machine 1 point de concentration (switch) par « zone » de bureau 1 seule concentration à 2 niveaux 1 lien fibre entre le point de concentration et le cœur de réseau Depuis 98, cœur de réseau constitué par un switch à crossbar non bloquant Ports Gb/s avec les points de concentration et les principaux serveurs (fichiers et interactifs) Serveurs de groupes connectés à 1 Gb/s sur des switches avec un uplink 1 Gb/s (36 pour 1) à partir de 2005 Postes de travail à 100 Mb/s sur les switches de concentration 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

Les Besoins en 2006 Perspective de plusieurs 100 TB en 2009 Besoin de débit réseau important si on veut pouvoir consolider de grand volume sur un seul serveur Analyse de données Atlas suppose 5 MB/s/job Connection 1 Gb/s = ~10 jobs : suffisant pour un WN 8 cores, pas pour un disk server Avec le développement de GRIF/LAL, augmentation du nombre de serveur (WNs) à 1 Gb/s Ratio 36:1 limite les performances Dans un contexte d’analyse intense, ratio ideal < 2:1 (si 750 Mb/s max par serveur), 4:1 maximum admissible Switch cœur de réseau ancien (8 ans) et plein Routage entre machines grille et machines internes Infrastructure physique partagée Routage effectué par le CISCO 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

LAG et 10 GbE… LAG (Link Aggregation) : combinaison de plusieurs liens physiques pour offrir un lien « virtuel » offrant la somme du débit de chaque lien +: Disponible sur de nombreux switches, interopérable, permet d’utiliser du HW peu cher +: Les serveurs ont toujours au moins 2 interfaces GbE -: Inégalité de qualité des implémentations -: une connexion n’utilise qu’un seul lien physique, voire toutes les connexions entre 2 machines suivant l’algorithme de hachage disponible Ex: inopérant dans un contexte FTS où sources et destinations sont les mêmes et communiquent sur une seule connexion. -: Problème de câblage et de nombres de port sur le cœur de réseau si on souhaite offrir 10 Gb/s entre un switch de concentration et le cœur de réseau. 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

… LAG et 10 GbE 10 GbE : hardware spécifique plutôt récent et plus couteux au port +: Mise en œuvre très simple : 10 GbE disponible pour toutes les connexions +: Combinable avec le LAG pour offrir plus… -: Coût 1 port 10 GbE > 10 ports 1 GbE -: Aucun serveur avec des ports 10 GbE standard Carte extension requiert un bus PCI Express (PCI-E et non PCI-X) -: Connectique cuivre banalisée (RJ45) pas encore disponible (en cours en 2009 ?) -: Connectique fibre ou cuivre CX4 (Infiniband) CX4 = 15m maxi Fibre : le XFP (GBIC) aussi cher que la carte sur un serveur Sans TCP Offline Engine (TOE), requiert une très gros puissance CPU (# 2 cœurs puissants) TOE historiquement mal supporté par les kernels Linux TOE = driver spécifique 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

Choix Techniques (2006) Cœur de réseau 10 GbE autour d’un switch/router Extreme Network BD8810 (utilisé en swtich) 2 fois moins chers que ses concurrents pour les ports 10 GbE et plutôt moins cher pour le chassis/controlleur Capacité de 32 ports 10 Gb/s non bloquants Carte 48 ports 1 GbE (non bloquante) 1 switch de concentration par rack de 36 machines Connection 10 GbE du switch au cœur de réseau Ratio 3,6:1 : limite supérieure… Switch 3COM 5500 : possibilité de 2 ports 10 GbE en LAG Connection 10 GbE des disk servers au cœur de réseau Maintient d’une connexion 1 GbE des switches concentrateur de postes de travail 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

Le Déploiement au LAL Automne 2006 : Switch BD 8810 avec 48 ports GbE et 12 ports 10 GbE Connexion des switches de concentration de rack à 10 GbE Hiver 2007 : Connexion des 3 premiers serveurs de disques (Thumper) Cartes Intel/PRO + PCIX : désastre (1.5 Gb/s) Automne 2007 : remplacement des cartes Intel/PRO par des cartes Neterion + ajout de 2 Thumpers 5-6 Gb/s (voir plus loin) Hiver 2008 : Ajout de 7 racks et 12 ports 10 GbE Hiver 2009 : +8 ports 10 GbE (1 carte, bloquante) Automne 2009 (prévu) : remplacement chassis par 8 ports 96 Gb/s (au lieu de 48) Carte 8 ports 10 GbE non bloquante Récupération des cartes existantes 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

Expérience / Performance Les cartes serveurs très inégales Bus PCI Express requis : PCI-X (Xun 4500) half-duplex entraine une forte dégradation des perfs si envoi et réception simultané Eviter les cartes Intel : ancienne génération a de très mauvaise performance, la nouvelle sans TOE Très bonne performance mais utilise au moins 2 cœurs 3 Ghz Bonne expérience Myrinet avec ou sans TOE > 7 Gb/s full duplex Bons échos de Chelsio TOE = driver spécifique donc contraintes sur les kernels Source rarement disponible Bien sûr, rien n’est définitif… 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

Expérience / Performance Tests BD8810 avec générateur de trames Dans le cadre du projet CARRIOCAS : infrastructure 40 Gb/s longue distance + LUSTRE Démontré les très bonnes performances du BD8810 : totalement non bloquant niveau 2 et 3, y compris avec ACL, jumbo frame, VLAN… Quelques pbs de performance avec le LAG 10 Gb/s, en particulier quand plusieurs ports sur la même carte Aucun problème depuis la mise en service Contrôleur redondant, alims N+1 3 COM 5500 : bon switch niveau 2 (non bloquant) mais peu de fonctionnalités avancés Pas de tag-based VLAN, seulement VLAN par port +: garantie HW à vie par échange standard, mise à jour FW gratuite 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

Le Tuning Bonne performance TCP requiert une augmentation des buffers Kernel et des kernels récents TCP window importante Stratégie de retry adaptative en cas d’erreur Stratégie basée sur la division par 2 de TCP window a des conséquences catastrophiques sur les performances globales Pas mal de documentation sur internet… Jumbo Frame peut significativement améliorer les performances sur des disk servers (gros transfert) Utilisation de frame jusqu’à 9000 bytes Associé au path MTU discovery permet de continuer à utiliser une frame evitant toute fragmentation sur le trajet Pas encore en production au LAL : aucun pb mais manque de temps… 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

Les Problèmes Pas de PXE en 10 GbE : nécessité d’un double attachement pour installation initiale et réinstallation Sous réseaux différents si actifs tous les 2 Basculement de la configuration active Solution mise en œuvre au LAL Géré par Quattor PXE sur l’interface 1 GbE au boot permet une réinstallation simple Cablage fibre optique Fibre (fragile) se prête mal au passage en vrac dans un faux plancher Privilégier des tableaux de brassage prêt des racks Coût pas totalement négligeable Connectique LC devenue standard pour toutes les infrastructures (FC, 10 GbE…) Utiliser de la fibre multi-mode si moins de 300m car permet l’utilisation de n’importe quelle longueur d’onde 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

Internet 10 Gb/s En // avec le LAN 10 GbE, LAL a déployé des connexions 10 Gb/s externes Début 2008, lien dédié (VLAN) LAL-CCIN2P3 LCG/SRM pour les transferts FTS Régulièrement utilisé à plus de 2 Gb/s Fin 2008 (RENATER 5), passage à 10 Gb/s de la liaison Internet générique, utilisé par le traffic général, traffic grille non FTS CC (CMS/ILC) Depuis 2008, mise en place de GRIFOPN, un ensemble de VLAN dédié au traffic interne entre les machines grille de GRIF Réseau privé, complet depuis février 2009 Liaison terminale manquante (en cours) pour le LPNHE IRFU limité à 5 Gb/s Etude en cours pour utiliser les jumbo frames sur GRIFOPN Certains liens déjà utilisés à plus de 3 Gb/s 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

Evolutions Possibles… Double attachement 1 GbE des WNs si besoin pour l’analyse Indispensable au-delà de 8 cœurs par machine Coût non négligeable : 2 switches de concentration par rack, 2x le nombre de port 10 Gb/s sur le core switch Peu de sens de le faire partiellement sauf à dédier certains WNs à l’analyse : faisabilité ? Gérabilité ? Avantage/inconvénient de solutions blade : impact en terme de multiplication des ports d’uplink 10 Gb/s Difficile de dépasser 64 ports 10 GbE à un coût « raisonnable » Attendre la disponibilité du 100 Gb/s ? Uplink 10 GbE des switches de concentration des poste de travail Beaucoup de PT ont un interface 1 GbE Pas envisagé à court terme car très forte distinction serveur/PT au LAL Tous les serveurs en salle machine 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008

… Evolutions Possibles Plus de routage pour une meilleure segmentation des traffics +: Aucun impact sur les performances avec des matériels comme le BD8810 +: routage donne plus de possibilité pour le contrôle du traffic et la régulation (ACL, QoS…) -: contraignant sur le cablage (actuellement indifférencié) 22/09/201818/5/09 LAL and GRIF Site Report - HEPiX - CERN 2008