Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parAgnès Nadine Lefèvre Modifié depuis plus de 8 années
1
MONITORING RÉSEAU AVEC PERFSONAR EN FRANCE : DÉPLOIEMENT ET EXPLOITATION Frédéric Schaer, CEA / DSM / IRFU / SEDI / LIS
2
DÉPLOIEMENT 2
3
RAPPELS 2 hôtes distincts recommandés pour wLCG Bandwith Latency Services réseau httpd/apache Des services démarrent des tests à la demande De nombreux ports ouverts perfsonarPS : validé pour CentOS5, i686 Fonctionne sous SL perfsonarMDM : validé pour RHEL, Debian, i686 etx86_64 Fonctionne sous SL, debian squeeze (wheezy ?) 3
4
DÉPLOIEMENT : PERFSONAR MDM V3.3 : 03/12/2010 4
5
DÉPLOIEMENT – MÉTHODES 5
6
DÉPLOIEMENT : PERFSONAR PS V3.2.2 : 20/04/2012 6
7
DÉPLOIEMENT : 3 METHODES La méthode netinstall-CD Pas d’intégration au système de déploiement Centos et non SL ou RHEL Configs NTP/DNS/iptables/sudo/ssh/… ? La méthode LiveCD Soit disant la méthode classique Mêmes reproches que netinstall En plus : mises à jour de sécurité ?? Le netinstall re-engineering Permet d’utiliser l’OS de son choix Etude du kickstart du netinstall officiel Réécriture dans le système de déploiement Appliqué à l’IRFU pour puppet : très peu de choses à faire au final (v3.2.2) Appliqué pour quattor pour la version 3.2.1 Nécessite de ré-étudier les nouveaux KS pour les nouvelles releases (bugfixs). 7
8
DEPLOIEMENT PERFSONAR-PS - BIS 8
9
VERSIONS PERFSONAR ET MESHES Quattor : v3.2.1 Bidouille wLCG pour utiliser des MESH o Casse l’accès au registry global Attention : o Redéfinit les serveurs NTP et DNS o Stoppe les firewalls Netinstall/manuelle/puppet/yum : permet d’utiliser la v3.2.2+ Contient des bug fixes Toujours la même bidouille wLCG v3.3rc2 depuis le 14/3/2013 Contient une gestion native des mesh RHEL 6.4 ? Mais wLCG est-il prêt à l’utiliser ? Mais toujours en RC 9
10
EXPLOITATION 10
11
LES MYTHES - 1 Un firewall diminue les performances perfsonar Injustifié Firewall IRFU : o Iptables statefull 30 règles en input 2300 MO acceptés en 1J 2100 MO droppés ET logués 20 règles en output IRFU IN2P3-CC o 892Mbits/s en moyenne o 0 à 4ms latency o Mais problèmes NTP/latence négative CPPM IN2P3-CC o 810Mbits/s en moyenne o 2 à 4ms Choix des perfsonar difficile, cf après 11
12
LES MYTHES - 2 12
13
LES MYTHES – 2 BIS
14
MYTHES - 3 Un (full) mesh, c’est bien (?) Actuellement : 1 test de bandwith *gigabit* de 30s toutes les 18000s o 600 slots disponibles o 11 slots utilisés par la MESH FR Pour 100 sites o 1gbit utilisé durant 1/6 du temps sur chaque site Dans chaque sens Sans compter les tests de latence MESH FR + config locale IRFU ->all T1s o “Throughput tests will be running 12% of the time” Last but not least : tests perfsonar-PS bidirectionnels ! o PS@IRFU teste IRFU CPPM en bidirectionel MAIS ! o PS@CPPM teste CPPM IRFU o Démultiplication de la bande passante utilisée ?? 11 sites, x11 ? 14
15
PROBLEMES A RÉGLER Problèmes NTP Certains tests affichent une latence négative (ex. IRFU CC) Utilisation de serveurs ntp différents. Filtrage NTP DCS@IRFU... Beaucoup de perfsonars ne fonctionnent pas (correctement) Pas en bidirectionnel (que que soit l’initiateur de test) o clrperf-owamp.in2p3.fr, psonar1.lal.in2p3.fr Pas en bidirectionnel (seulement sur certains réseaux ?) o perfsonar1.icepp.jp : NOK côté CC, OK pour IRFU, OK côté japon vers CC ! Certains perfsonars semblent dysfonctionner @LPNHE o Reboot => amélioration des choses (5 minutes) o Tests erratiques : connection timeouts, closed Debugging = coordination o 2 administrateurs système ( source et destination ) o 1 admin réseau o Du temps ? 15
16
PROBLÈMES À RÉGLER - 2 Résultats perfsonar incohérents avec stats kernel 1 test = 1gbit/s * 30s = 125 MiB/s * 30s = 3750MiB Output ifconfig après 24H : Qui, officiellement et durablement, gère les meshs ? Pour l’instant atlas/Eric Lançon (officiel ?) Aidé parfois de Victor@LPNHE (non officiel) Pourquoi le mesh wLCG est-il vide ? CF Fichier wlcg ici : CF Fichier wlcg ici : https://grid-deployment.web.cern.ch/grid-deployment/wlcg-ops/perfsonar/conf/ https://grid-deployment.web.cern.ch/grid-deployment/wlcg-ops/perfsonar/conf/ Mais bon, cf mythe 3… Quelles procédures de déploiement des mesh ? Validations de syntaxe ? Validation de la politique de tests ( * -> * ?) ? 16
17
PROBLEMES À RÉGLER – BANDWITH http://perfsonar.racf.bnl.gov:8080/exda/?page=25&cloudName=LHC-FR Bwth < 10mbits/s | NA Bwth < 100mbits/s Probleme resultats 1 numéro par site 0 vers 10, initié par 0 10 vers 0, initié par 10 17
18
PROBLEMES À RÉGLER – PACKET LOSS http://perfsonar.racf.bnl.gov:8080/exda/?page=25&cloudName=LHC-FR No test OR > 10 pour 600 < 10 pour 600 Probleme resultats Latence moyenne < 2 pour 600 Paquets perdus : (couleur) paquets perdus 0->10 avec 0 comme initiateur 18
19
PROBLEMES À RÉGLER – PACKET LOSS Interprétation : Quelques pertes IRFU->* LAL ne schedule aucun test Mais LAL répond aux tests extérieurs LPNHE, LPC et CPPM (4,5,7) répondent aux tests entrants initiés à l’extérieur mais ne réussissent PAS à inititier sur les autres perfsonars des tests entrant o Filtrage sortant ?? http://perfsonar.racf.bnl.gov:8080/exda/?page=25&cloudName=LHC-FR 19
20
PROBLEMES À RÉGLER – PACKET LOSS http://perfsonar.racf.bnl.gov:8080/exda/?page=25&cloudName=LHC-FR 30 minutes plus tard… aucune perte de paquet (jaune) détectée. 20
21
BASIC DEBUGGING Bandwith : Latency : bwctl -f m -t 30 -i 1 -x -w 5M -c perfsonar03 owping lpnhe-gs9085.in2p3.fr 21
22
QUESTIONS EN SUSPENS Un wiki « perfsonar wLCG ops FR » est-il opportun ? La France peut/veut elle pousser ps-MDM (seule) ? « confidentialité » ? A part les emails ? 22
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.