Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting Mai 2009
Plan 1)Contexte et rappels des problèmatiques 2)Monitoring des sites EGEE et LCG 3)Monitoring Régional: (NagiosRegional+Dashboard) 4)Interaction avec lOAT (Operation Automation Team) et évolution EGI/NGI 5)Prochaines actions
1)Contexte et rappels des problèmatiques La présentation / léchange/ la corrélation des données de monitoring restent les challenges majeurs du monitoring dune grille Liés aux operations: Qui à la charge de surveiller? Ne pas oublier les utilisateurs Solutions choisies par EGEE: Nagios + ActiveMQ Que font les autres Regions/Grilles ? Présentation des données: OSG: UWA avec netvibes ou igoogle Monitoring régionalisé/centralisée des jobs Technologies souvent utilisées: DB + XML. Peut être investigué sur eXist ( db.org/webdb.pdf)?
2)Monitoring au niveau des sites EGEE et LCG Tous les sites certifiés ont un outil de monitoring local pour surveiller leurs ressources A grains plus ou moins fins Avec ou sans actions correctrices Avec ou sans alarmes Avec ou sans graphes de performance Encore besoin déchanger dans ce domaine: création dun repository ROC-fr en cours Template quattor prêt (verrou technique/politique à lever) Visios/tutoriaux
3)Monitoring Régional: (NagiosRegional+Dashboard) Disparition des tests SAM => Installation dun Nagios Regional. Nagios Regional installé sur une machine virtuelle au CC Surveille tous les sites dépendants du ROC français Utilise les sondes développées par le projet EGEE (OAT) Utilisation de NDOutils: les résultats des sondes sont stocké dans une DB mysql. Besoin dun outil pour les opérations capable de synthétiser tous les résultats de monitoring=> Développement dun Dashboard Régional L'idée est d'avoir une vue synthétique et la possiblité de rajouter n'importe quelle source d'info (+ création de tickets - outils de contacts )
3)Nagios Regional: Linterface
3)Nagios Régional: La DB mysql mysql> select nagios_services.display_name, nagios_hosts.display_name, output from nagios_servicestatus, nagios_services, nagios_hosts where nagios_services.service_object_id=nagios_servicestatus.service_object_id and nagios_services.host_object_id=nagios_hosts.host_object_id and nagios_services.display_name like "org.bdii%" and nagios_servicestatus.last_time_critical like " %" and nagios_servicestatus.check_command like "ncg_check_native%"; | display_name | display_name | output | | org.bdii.Published | bdii.egee.fr.cgg.com | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | bdii.grif.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Freshness | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Published | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Services | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Freshness | grid07.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Published | lyobdii.in2p3.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | nansbdii.in2p3.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | topbdii.cci.ucad.sn | CRITICAL: GlueServiceEndpoint=NULL | rows in set (0.03 sec) Cyril peux tu ajouter un commentaire sur le mail envoyer à lOAT concernant loptimisation de la DB?
3 ) Nagios Régional => Nagios Site: Echange de données avec ActiveMQ
3)Dashboard Régional
4)Interaction avec lOAT et évolution EGI/NGI Interaction avec lOAT LOAT semble peu intéressé par le dashboard developpé au CC Ladoption par le projet EELA va peut etre faire avancer les choses? Sinon, comment améliorer les choses? Nagios Régionale: Version définitive pour Juillet, dici la commentaires envoyés sur la version actuelle pour éviter de futur problèmes Facile à installer MAIS difficile à utiliser (beaucoup de sondes en erreurs: il faut connaitre chacune de ses sondes et les adapter) Larchitecture de la Base de donnée nest pas optimisée ….a pousuivre Evolution EGI/NGI GOC DB va perdurer. CIC aussi La NGI Française va devoir mettre en place son infrastructure de monitoring: Rédaction dun document décrivant linfrastructure de monitoring en cours, pour: formaliser les demandes de la région à ses sites (options/obligations). informer des intentions et besoins faire létat de lart dans ce domaine et justifier les solutions choisies pour cette infrastructure.
5)Prochaines actions actions achevées depuis Novembre: tutorial nagios: Template quattor pour nagios + NCG production de rpms nagios pour différentes version de SL production de rpm de sonde nagios tester nagiosgraph Installation dun nagios regional Création dun repository (à valider, ou à mettre dans Prochaines actions) Tester les échanges de données monitoring entre site et ROC via ActiveMQ (à faire avec le site GRIF la semaine prochaine) Prochaines actions: Verous à lever concernant les templates Quattor pour Nagios: 2 versions de templates à merger (Refus de la communauté Quattor davoir 2 versions de templates pour une même fonctionnalité: action à entreprendre avec le Groupe Monitoring GRIF) Bloquant pour 1 site Adapter le Nagios régional désolidariser le dashboard du CIC (En cours - Prototype pour EELA en novembre) remplacer linterface du dashboard avec les tests SAM par une interface avec les sondes nagios (du nagios régional) En cours - intégration des infos Nagios d'ici Juin Rédiger le document decrivant linfrastructure de monitoring Refaire un bilan de létat et des besoins des sites
FIN
Réf + Anciens slides :
OAT Strategy: site-level monitoring using nagios Septembre 2008 NCG (Nagios Configuration Generator): generates a nagios configuration for a grid site using GOCDB and BDII
Etat des sites Francais : homogénéité des sites? -OS: SL3/SL4 32bits/64bits OUI -installer : Yaim, quattor, Homemade tool, vendor product OUI -Fabric monitoring tools: Nagios, script, ganglia, cacti, centreon, lemon, nothing (only one site) NON/MAIS -Les sites qui nutilisent pas Nagios veulent bien lessayer au moins pour les services grille -Certains sites ont déjà utilise NCG -Network monitoring tools: mrtg, extra, cacti, nagios, cricket, homemade tool, snmp, nothing (3 sites) NON mais comment partager? -Security monitoring: firewall, snort IDS, Extra, logs, tripwire, fail2ban, jack the ripper, outils internes, centralised syslog with script, ntop, prelude, log parsing, nothing (3sites) NON mais comment partager? -external tools used to verify site and Alarms: SAM, GGUS, CIC portal alerts, gstat, appel, sync, Monalisa, AtlasDashboard, GOCdb, GridView NON mais cest le contexte actuel qui veut ca: lintegration de tous ces outils serait une bonne chose.
Etat des sites Francais : Resources grilles=resources locales ? -Same Network : Yes 36% -Same team: YES 45% -Same monitoring: Yes 55% -time to develop component in your fabric Management tools to integrate easily the monitoring part: Maybe 1 (not full time) -time to develop probes: (not full time) -maybe 1 -2 for nagios -1 for lemon -1 for bioinformatics probes -All sites Ok to integrate grid probes developed by the community -Vobox monitoring: 55% NO -publish grid probes at ROC level: 36% NO (should be 100% yes ? ) -Evolution foreseen at site: Try nagios, Adding test to nagios, update nagios to version3, migration vers nagios, evolving with nagios -issue encounter with monitoring tool: flooding s when network failure
Etat des sites Français: Conclusion Les sites Francais semblent en adéquation avec les projets EGEE et WLCG -Volonté des sites -dutiliser nagios -de garder la maîtrise de ce qui est monitoré chez eux -restreindre le nombre des outils de monitoring -Pour partager: -repository commun -documentation -training Mais la collaboration avec les projets EGEE et WLCG (OAT) pas toujours facile: -Repository ne contient pas toujours les bonnes versions. -Etics ne permet pas de faire ce quon veut -NCG pas facile à integrer avec une configuration Nagios existante -quattor: template en cours de création: les templates actuels sont trop compliqués.
le groupe de travail monitoring LCG-fr et SA1-fr Mandat: collecter les besoins des responsables des sites et de services de la région, recenser les pratiques des sites et les outils de monitoring utilisés, représenter et défendre les intérêts de la région dans les différents groupes de travail existants au sein de WLCG-EGEE sur un sujet connexe (OAT)OAT identifier les standards qui doivent être suivis ainsi que les outils pertinents à tous les niveaux (services, site et région), proposer aux responsables des sites, des services grid et de lopération régionale de la grille EGEE un ensemble d'outils répondant à leurs besoins, proposer, si besoin, des améliorations sur les outils et procédures dalertes au niveau des sites, au niveau de la région établir, sil y a lieu, un plan pour la poursuite de ses travaux au-delà de la période initiale des 6 premiers mois.