Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting Mai 2009
Plan 1) Contexte et rappels des problèmatiques 2) Monitoring des sites EGEE et LCG 3) Monitoring Régional: (Nagios Regional+Dashboard) 4) Interaction avec l’OAT (Operation Automation Team) et évolution EGI/NGI 5) Prochaines actions
1) Contexte et rappels des problématiques La présentation / l’échange/ la corrélation des données de monitoring restent les challenges majeurs du monitoring d’une grille Liés aux opérations: Qui à la charge de surveiller? Ne pas oublier les utilisateurs Solutions choisies par EGEE: Nagios: site monitoring; regional monitoring; gStat; and project and regional Metric Stores MSG (Messaging System for Grids) : ActiveMQ (Messaging System) WLCG Format (Format des données) Django (Django, a python based development framework, is used in the Metric Description DB, Aggregated Topology Provider, Worker Node configuration system, Metric Results Store and the WLCG Topology Provider) La gestion de l'infrastructure de monitoring sous jacente ainsi que l'interopérabilité sont aussi des challenges - nos serveurs de messagerie Français seront-ils interopérables avec les serveurs d'autres NGI? - Combien de serveurs mettra-t-on en France, qui les gèrera ?
1) Contexte et rappels des problématiques Que font les autres Régions/Grilles ? Présentation des données: OSG: UWA ( Unified Widget API ) avec netvibes ou igoogle Monitoring régionalisé/centralisée des jobs
2) Monitoring au niveau des sites EGEE/LCG Tous les sites certifiés ont un outil de monitoring local pour surveiller leurs ressources A grains plus ou moins fins Avec ou sans actions correctrices Avec ou sans alarmes Avec ou sans graphes de performance Encore besoin d’échanger dans ce domaine: création d’un repository ROC-fr en cours Template quattor prêt (verrou technique/politique à lever) Visios/Formations
3) Monitoring Régional: Nagios Regional + Dashboard Disparition des tests SAM => Installation d’un Nagios Regional. Nagios Regional installé sur une machine virtuelle au CC Surveille tous les sites dépendants du ROC français Utilise les sondes développées par le projet EGEE (OAT) Utilisation de NDOutils: les résultats des sondes sont stocké dans une DB mysql. Besoin d’un outil pour les opérations capable de synthétiser tous les résultats de monitoring=> Développement d’un Dashboard Régional L'idée est d'avoir une vue synthétique et la possiblité de rajouter n'importe quelle source d'info (+ création de tickets - outils de contacts )
3) Nagios Régional: L’interface
3) Nagios Régional: La DB mysql mysql> select nagios_services.display_name, nagios_hosts.display_name, output from nagios_servicestatus, nagios_services, nagios_hosts where nagios_services.service_object_id=nagios_servicestatus.service_object_id and nagios_services.host_object_id=nagios_hosts.host_object_id and nagios_services.display_name like "org.bdii%" and nagios_servicestatus.last_time_critical like " %" and nagios_servicestatus.check_command like "ncg_check_native%"; | display_name | display_name | output | | org.bdii.Published | bdii.egee.fr.cgg.com | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | bdii.grif.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Freshness | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Published | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Services | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Freshness | grid07.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Published | lyobdii.in2p3.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | nansbdii.in2p3.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | topbdii.cci.ucad.sn | CRITICAL: GlueServiceEndpoint=NULL | rows in set (0.03 sec) La base de données actuelle contient environ 60 tables. La description et le lien entre les tables n’est pas claire. En gros l’exploitation des données de ces tables n’est pas facile. Une nouvelle base de donnée va être mise en place par l’OAT pour favoriser l’exploitation des résultats et prendre éventuellement en compte la criticité des tests contenue dans une autre base ( base des metrics ).
3 ) Nagios Régional => Nagios Site: Echange de données avec ActiveMQ L’infrastructure d’échange de message est en production connecting... CONNECTED session: ID:gridmsg001.cern.ch :432 MESSAGE expires: 0 ack: auto timestamp: destination: /topic/test_msg_basic_example priority: 0 message-id: ID:gridmsg001.cern.ch :433:-1:1:1 hello LCG T2 T3 audience! 0 Le lien entre 2 instances Nagios via MSG est en cours d’implementation (Emir Imamagic)
Site Name Alarms Ticket Downtime GOC DB link GStat Status Network trouble 3) Dashboard Régional LHC specific tests
3) Dashboard Régional
Principales nouveautés : - L’age des alarmes pour les opérateurs n’augmente pas pendant le week end - le notepad a été amélioré et permet un dialogue par mail entre le site et le ROC - on peut limiter la vue aux sites ayant des problémes (alarme ou ticket) - on peut afficher les alarmes en fonction de leur âge ( 72) Pour avoir une meilleure idée des différentes fonctionnalités : owto.pdf
4) Interaction avec l’OAT et évolution EGI/NGI Interaction avec l’OAT L’OAT semble peu intéressé par le dashboard développé au CC L’adoption par le projet EELA va peut être faire avancer les choses? Sinon, comment améliorer les choses? Nagios Régionale: Version définitive pour Juillet, d’ici la commentaires envoyés sur la version actuelle pour éviter de futur problèmes Facile à installer MAIS difficile à utiliser (beaucoup de sondes en erreurs: il faut connaitre chacune de ses sondes et les adapter) L’architecture de la Base de donnée n’est pas optimisée ….a pousuivre Evolution EGI/NGI GOC DB va perdurer. Operations Portal (CIC) aussi La NGI Française va devoir mettre en place son infrastructure de monitoring: Rédaction d’un document décrivant l’infrastructure de monitoring en cours (par le groupe monitoring), pour: formaliser les demandes de la région à ses sites (options/obligations). informer des intentions et besoins faire l’état de l’art dans ce domaine et justifier les solutions choisies pour cette infrastructure.
5) Prochaines actions Actions achevées depuis Novembre: tutorial nagios: Template quattor pour nagios + NCG production de rpms nagios pour différentes version de SL production de rpm de sonde nagios tester nagiosgraph Installation d’un nagios regional Prochaines actions: Verrous à lever concernant les templates Quattor pour Nagios: 2 versions de templates à merger (Refus de la communauté Quattor d’avoir 2 versions de templates pour une même fonctionnalité: action à entreprendre avec le Groupe Monitoring GRIF) Bloquant pour 1 site Adapter le Nagios régional désolidariser le dashboard du CIC (En cours - Prototype pour EELA en novembre) remplacer l’interface du dashboard avec les tests SAM par une interface avec les sondes nagios (du nagios régional) En cours - intégration des infos Nagios d'ici Juin Rédiger le document décrivant l’infrastructure de monitoring Refaire un bilan de l’état et des besoins des sites Création d’un repository Tester les échanges de données monitoring entre site et ROC via ActiveMQ
FIN Lien utile Groupe Monitoring: FR_/_SA1-FR_Monitoring_WGhttp://lcg.in2p3.fr/wiki/index.php/LCG- FR_/_SA1-FR_Monitoring_WG Wiki OAT:
le groupe de travail monitoring LCG-fr et SA1-fr Mandat: collecter les besoins des responsables des sites et de services de la région, recenser les pratiques des sites et les outils de monitoring utilisés, représenter et défendre les intérêts de la région dans les différents groupes de travail existants au sein de WLCG-EGEE sur un sujet connexe (OAT)OAT identifier les standards qui doivent être suivis ainsi que les outils pertinents à tous les niveaux (services, site et région), proposer aux responsables des sites, des services grid et de l’opération régionale de la grille EGEE un ensemble d'outils répondant à leurs besoins, proposer, si besoin, des améliorations sur les outils et procédures d’alertes au niveau des sites, au niveau de la région établir, s’il y a lieu, un plan pour la poursuite de ses travaux au-delà de la période initiale des 6 premiers mois.