EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring de ressources grille à l’échelle d’un SITE Comparaison LEMON et NAGIOS Christine Leroy Frederic schaer
Enabling Grids for E-sciencE EGEE-II INFSO-RI Plan Usage des outils de monitoring Outils utilisés dans EGEE/LCG (questionnaires 2006) Comparaison Nagios/LEMON Problèmes rencontrés Conclusions
Enabling Grids for E-sciencE EGEE-II INFSO-RI Usage des outils Un logiciel dit de “monitoring” doit permettre de remplir ces objectifs : –prévenir les incidents par extrapolation des données fournies, –agir rapidement dès qu'un système est noté en erreur, –permettre l'analyse “post mortem” d'un problème grâce aux informations collectées. –Permettre un gestion simple des tests ajout/suppression de tests mise en attente/resoumission
Enabling Grids for E-sciencE EGEE-II INFSO-RI Usage des outils
Enabling Grids for E-sciencE EGEE-II INFSO-RI Enquête 2006 (1) - Questions liées aux outils : –Outils graphique –Alarmes (O/N) –Comment sont testés les services? –facilité de prise en main –Licence, gratuité –Avantages/Inconvénients - Questions liées aux sites –Le site est-il monitoré –Quels sont les plans futurs –Monitorer quoi ?
Enabling Grids for E-sciencE EGEE-II INFSO-RI Enquête 2006 (1)
Enabling Grids for E-sciencE EGEE-II INFSO-RI Résumé des outils des sites EGEE
Enabling Grids for E-sciencE EGEE-II INFSO-RI Enquête 2006(2) (H.Renshall auprès des tier1 pour un Workshop WLCG) Q: How does your site monitor the correct functioning of its LCG servers, both for the base system (machine+O/S), middleware and applications? BNL: base system by Ganglia + Nagios, middleware by MonaLisa, OSG Gricat, LCG by SFT and gLite by SAM. FZK: base system by Ganglia + Nagios. Will use Nagios for middleware. Would like list of service metrics/triggers FNAL: NGOP + Remedy. Part of FNAL Computing Division 24 hour helpdesk infrastructure. SARA: Argus for networking, Ganglia for cluster and dcache infrastructure.Own tools for data movement and also dcache tools, SFT and SAM. See later talk. TRIUMF: base system by Ganglia and syslogd Logwatch. Dcache tools and SFT for grid. Looking at SAM. Commonality: Ganglia, Nagios,SFT,SAM CERN: Home built tools ( LEMON,SURE (remplacé par LAS depuis))
Enabling Grids for E-sciencE EGEE-II INFSO-RI Enquête 2006(2) (H.Renshall auprès des tier1 pour un Workshop WLCG) Q: How much manpower is dedicated to maintaining the monitoring? BNL: 1 FTE maintaining infrastructure and 0.2 using it. FZK: 1 FTE spread over 3-4 people. FNAL: 1 FTE maintaining/improving the NGOP infrastructure and framework. Service responsibles must participate in monitoring. SARA: 5 people involved part-time in different parts of the services Triumf: 3 FTE are dedicated to Tier 1 operations which include monitoring and problem resolution. Commonality: At least 1 FTE CERN: 2 FTE and service responsibles write their agents ( depuis: 1FTE maintaining infrastructure and development, service managers only setup their respective configurations for the services in quattor)
Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Fonctionnalités Déploiement, facilité d’utilisation, maintenance Schéma Nagios Schéma Lemon Sondes standard Sondes grille
Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Fonctionnalités LEMONNagios Licence GPL/GPL2 and Eu DatagridGNU GPL v2 Projets associés notables quattor, sls, leafSplunk centreoncentreon (oreon) nagios pluginsnagios plugins (officiels) nagios exchange (3rd party plugins) Systèmes Linux, …any ANSI C compliant + Windows Linux, *NIX Scalabilité ~10000 machines, 500 métriques >1000 machines. Pour 90 machines, 796 services, charge CPU 0% Interface Web, PHP, CLI, XML API Web, CGI Développeurs M. Siket (CERN)Ethan Galstad, communauté network services monitoring (web…) sonde « remote » host services monitoring (cpu…) environmental factors monitoring (T°) sonde IPMISee here ($USD :500)here host hierarchy (distinction down/unreachable) Notifications mail LAS ou exception avec actuators Notifications sms Avec Oracle(LAS) Notifications rétablissement
Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Fonctionnalités LEMONNagios Notification escalation Avec Oracle(LAS) Autres notifications Event Handlers * Monitoring distribuéVia event handlers Monitoring redondant Avec Oracle(LAS) Via event handlers Modifications de config ad-hoc Downtimes Groupes d’hotes Groupes de services Groupes de contacts Avec Oracle(LAS) Accusé de réception de problème Avec Oracle(LAS) Historique de notifications Avec Oracle(LAS) Historique de problèmes Avec Oracle(LAS) Contrôle d’accès basé sur rôles Avec Oracle(LAS) Graphiques statistiques ** * pour un monitoring décentralisé, cela requiert un accès aux machines (commandes via ssh/sudo ?) ** par défaut, graphiques représentant les alertes. Graphes de performance possibles (nagiosgrappher et autres)
Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Fonctionnalités LEMONNagios Texte de retour des plugins Stockage en BDDsqlite, oracle and mysql [mysql not yet fully supported by our other applications] Avec NDOUtils
Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Déploiement, facilité d’utilisation, maintenance LEMONNagios Template quattorEn cours Via RPMRPMs à construire (voire problèmes) Facilité d’installationFacile pour les flatfiles Assez facile pour Oramon Facile : configure ; make ; make install Facilité de configurationLaborieux pour rajouter des tests (plusieurs fichiers + tabulation) Moyen : concepts à comprendre avant de commencer à configurer Qualité de documentationTrès bonneExcellent Débusquage erreurs de configVerrifier les logs (Attention au tabulation message pas toujours explicite) Bon (nagios [–v|-s] configfile.cfg) Réactivité de la communautéBon Fonctionnement interface webTrès peu convivialMoyen Charge induite sur les hôtes monitorés 0.1% CPU ; 7MB agent (i386) or 20MB (x86_64); sensors about 40MB (i386) or 100MB (x86_64) Démon nrpe : insignifiant Plugins : en fonction Framework de création sondesOuiOui / Inutile Fréquence des release5 moisN/A Facilité des updatesDifficile sur le serveur (dépendance Oracle) Facile sur les clients Facile
Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Schéma NAGIOS Web InterfaceExternal Programs External Command File Config filesLog fileStatus fileRetention file Monitoring Logic Performance Logic Notification Logic Event Logic Nagios Daemon (Core Logic) Performance Processors OCxP Commands PluginsNotification Commands Event Handlers External ApplicationsHosts and Services Contacts
Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Schéma LEMON Web browser Lemon CLI User Oracle Database Repository backend SQL Nodes Monitoring Agent Sensor RRDTool / PHP apache HTTP Lemon-host-check Application Server TCP/UDP
Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Sondes standard Nagios 140 plugins officiels –Ssh,ping,simap,nmap,snmp… Liste exhaustive : – projets nagios-exchange –Tests pbs,maui,sge,ipmi –149 « projets » NRPE Lemon Sondes disponibles: MSAMSA - checks the health of the Lemon sensor agent (built in) LinuxLinux - provides standard performance monitoring of the system file file - provides various file-related utilities exceptionexception - Exception handling with support for correlation between metrics. oracleoracle - instance, users and database monitoring of Oracle Communauté: N bre de personnes: 37 ( t=project-lemon) t=project-lemon
Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Sondes grille Nagios Repositories –GRIDPPGRIDPP –HEP Sysadmins pluginsHEP Sysadmins plugins –RAL pluginsRAL plugins Scripts (non testés) : –CA, Certs, BDII, myproxy… –PBS efficiencies, undelivered dir, non-started nodes, offline nodes –SAM SAM Nagios prototype Grif RPM « nagios-grid- plugins » –Sondes pour l’IRFU/GRIF LEMON Suite de sondes LEMON (développées par la communauté): CVS1 du CERN CVS 2 du CERN CVS 3 du CERN grid-lfc, grid-bdii, GridPx, Voms
Enabling Grids for E-sciencE EGEE-II INFSO-RI Problèmes rencontrés Nagios SELinux pose des problèmes avec apache et les cgi comptes utilisateurs gérés via quattor, mais RPM NRPE crée un compte standard (non-système) nécessité de modifier les RPMs / SPEC files le démon NRPE retransmet mal l’output des plugins nécessité d’ajouter « printf ‘\0’ » à la fin de tout output de plugin. Semble être un cas isolé. _______________________________________________________ Lemon : Envoi de notifications depuis le client: problèmes d’échantillonnage rencontrés => fausses alarmes (problème de configuration locale ou bug ?: non déterminé: utilisation du paramètre « minoccurs ») Alarmes depuis le serveur non testé (en production au CERN) Très bonne réactivité de la mailing liste et des développeurs lemon
Enabling Grids for E-sciencE EGEE-II INFSO-RI Problèmes rencontrés Intégration de nouveau test Nagios Déploiement du script –Écriture de programme –Création de RPM –Copie du RPM sur Quattor –MAJ des templates « rpm » –Deploy (spma) Déploiement de la config –Modification templates Nagios –Deploy Déploiements désordonnés –Configuration locale des hôtes, RPM local –Configuration du serveur Notifications d’erreur si serveur mis à jour en 1 er LEMON (via quattor) Déploiement de la Sonde –Ecriture programme perl ou C++ –création de RPM ou utilisation de filecopy (via quattor) –MAJ des templates pour la nouvelle config –Deploy Déploiement de la config –Modification templates lemon configuration serveur –Deploy LEMON (à la main) Déploiement de la Sonde –Ecriture programme perl ou C++ –MAJ des fichiers de configurations client –Redémarrage des services Déploiement de la config –Modification configuration serveur (oramon: au moins 3 fichiers) –Redémarrage des services
Enabling Grids for E-sciencE EGEE-II INFSO-RI Conclusions Actions correctives : nécessaires ou non ? Nagios comme Lemon permettent un monitoring de base (client/serveur) L’interface web doit-elle être conviviale (si l’on a de bonnes notifications ?) Est-il utile d’avoir plusieurs outils de monitoring (même complémentaires ?) La question du support et de la pérennité est souvent posée : quid de l’implication des utilisateurs dans le développement (CERN vs Open Source) ? Monitoring interne au site: aller jusqu’ou (tester la soumission de jobs?)?
Enabling Grids for E-sciencE EGEE-II INFSO-RI Interface web Lemon
Enabling Grids for E-sciencE EGEE-II INFSO-RI Interface web Lemon
Enabling Grids for E-sciencE EGEE-II INFSO-RI Interface web Lemon
Enabling Grids for E-sciencE EGEE-II INFSO-RI Nagios Screenshots
Enabling Grids for E-sciencE EGEE-II INFSO-RI Centreon 2 preview