MONITORING RÉSEAU AVEC PERFSONAR EN FRANCE : DÉPLOIEMENT ET EXPLOITATION Frédéric Schaer, CEA / DSM / IRFU / SEDI / LIS
DÉPLOIEMENT 2
RAPPELS 2 hôtes distincts recommandés pour wLCG Bandwith Latency Services réseau httpd/apache Des services démarrent des tests à la demande De nombreux ports ouverts perfsonarPS : validé pour CentOS5, i686 Fonctionne sous SL perfsonarMDM : validé pour RHEL, Debian, i686 etx86_64 Fonctionne sous SL, debian squeeze (wheezy ?) 3
DÉPLOIEMENT : PERFSONAR MDM V3.3 : 03/12/2010 4
DÉPLOIEMENT – MÉTHODES 5
DÉPLOIEMENT : PERFSONAR PS V3.2.2 : 20/04/2012 6
DÉPLOIEMENT : 3 METHODES La méthode netinstall-CD Pas d’intégration au système de déploiement Centos et non SL ou RHEL Configs NTP/DNS/iptables/sudo/ssh/… ? La méthode LiveCD Soit disant la méthode classique Mêmes reproches que netinstall En plus : mises à jour de sécurité ?? Le netinstall re-engineering Permet d’utiliser l’OS de son choix Etude du kickstart du netinstall officiel Réécriture dans le système de déploiement Appliqué à l’IRFU pour puppet : très peu de choses à faire au final (v3.2.2) Appliqué pour quattor pour la version Nécessite de ré-étudier les nouveaux KS pour les nouvelles releases (bugfixs). 7
DEPLOIEMENT PERFSONAR-PS - BIS 8
VERSIONS PERFSONAR ET MESHES Quattor : v3.2.1 Bidouille wLCG pour utiliser des MESH o Casse l’accès au registry global Attention : o Redéfinit les serveurs NTP et DNS o Stoppe les firewalls Netinstall/manuelle/puppet/yum : permet d’utiliser la v Contient des bug fixes Toujours la même bidouille wLCG v3.3rc2 depuis le 14/3/2013 Contient une gestion native des mesh RHEL 6.4 ? Mais wLCG est-il prêt à l’utiliser ? Mais toujours en RC 9
EXPLOITATION 10
LES MYTHES - 1 Un firewall diminue les performances perfsonar Injustifié Firewall IRFU : o Iptables statefull 30 règles en input 2300 MO acceptés en 1J 2100 MO droppés ET logués 20 règles en output IRFU IN2P3-CC o 892Mbits/s en moyenne o 0 à 4ms latency o Mais problèmes NTP/latence négative CPPM IN2P3-CC o 810Mbits/s en moyenne o 2 à 4ms Choix des perfsonar difficile, cf après 11
LES MYTHES
LES MYTHES – 2 BIS
MYTHES - 3 Un (full) mesh, c’est bien (?) Actuellement : 1 test de bandwith *gigabit* de 30s toutes les 18000s o 600 slots disponibles o 11 slots utilisés par la MESH FR Pour 100 sites o 1gbit utilisé durant 1/6 du temps sur chaque site Dans chaque sens Sans compter les tests de latence MESH FR + config locale IRFU ->all T1s o “Throughput tests will be running 12% of the time” Last but not least : tests perfsonar-PS bidirectionnels ! o teste IRFU CPPM en bidirectionel MAIS ! o teste CPPM IRFU o Démultiplication de la bande passante utilisée ?? 11 sites, x11 ? 14
PROBLEMES A RÉGLER Problèmes NTP Certains tests affichent une latence négative (ex. IRFU CC) Utilisation de serveurs ntp différents. Filtrage NTP Beaucoup de perfsonars ne fonctionnent pas (correctement) Pas en bidirectionnel (que que soit l’initiateur de test) o clrperf-owamp.in2p3.fr, psonar1.lal.in2p3.fr Pas en bidirectionnel (seulement sur certains réseaux ?) o perfsonar1.icepp.jp : NOK côté CC, OK pour IRFU, OK côté japon vers CC ! Certains perfsonars semblent dysfonctionner o Reboot => amélioration des choses (5 minutes) o Tests erratiques : connection timeouts, closed Debugging = coordination o 2 administrateurs système ( source et destination ) o 1 admin réseau o Du temps ? 15
PROBLÈMES À RÉGLER - 2 Résultats perfsonar incohérents avec stats kernel 1 test = 1gbit/s * 30s = 125 MiB/s * 30s = 3750MiB Output ifconfig après 24H : Qui, officiellement et durablement, gère les meshs ? Pour l’instant atlas/Eric Lançon (officiel ?) Aidé parfois de (non officiel) Pourquoi le mesh wLCG est-il vide ? CF Fichier wlcg ici : CF Fichier wlcg ici : Mais bon, cf mythe 3… Quelles procédures de déploiement des mesh ? Validations de syntaxe ? Validation de la politique de tests ( * -> * ?) ? 16
PROBLEMES À RÉGLER – BANDWITH Bwth < 10mbits/s | NA Bwth < 100mbits/s Probleme resultats 1 numéro par site 0 vers 10, initié par 0 10 vers 0, initié par 10 17
PROBLEMES À RÉGLER – PACKET LOSS No test OR > 10 pour 600 < 10 pour 600 Probleme resultats Latence moyenne < 2 pour 600 Paquets perdus : (couleur) paquets perdus 0->10 avec 0 comme initiateur 18
PROBLEMES À RÉGLER – PACKET LOSS Interprétation : Quelques pertes IRFU->* LAL ne schedule aucun test Mais LAL répond aux tests extérieurs LPNHE, LPC et CPPM (4,5,7) répondent aux tests entrants initiés à l’extérieur mais ne réussissent PAS à inititier sur les autres perfsonars des tests entrant o Filtrage sortant ?? 19
PROBLEMES À RÉGLER – PACKET LOSS 30 minutes plus tard… aucune perte de paquet (jaune) détectée. 20
BASIC DEBUGGING Bandwith : Latency : bwctl -f m -t 30 -i 1 -x -w 5M -c perfsonar03 owping lpnhe-gs9085.in2p3.fr 21
QUESTIONS EN SUSPENS Un wiki « perfsonar wLCG ops FR » est-il opportun ? La France peut/veut elle pousser ps-MDM (seule) ? « confidentialité » ? A part les s ? 22