La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

EGEE-II INFSO-RI-031688 Enabling Grids for E-sciencE www.eu-egee.org EGEE and gLite are registered trademarks Monitoring de ressources grille à l’échelle.

Présentations similaires


Présentation au sujet: "EGEE-II INFSO-RI-031688 Enabling Grids for E-sciencE www.eu-egee.org EGEE and gLite are registered trademarks Monitoring de ressources grille à l’échelle."— Transcription de la présentation:

1 EGEE-II INFSO-RI-031688 Enabling Grids for E-sciencE www.eu-egee.org EGEE and gLite are registered trademarks Monitoring de ressources grille à l’échelle d’un SITE Comparaison LEMON et NAGIOS Christine Leroy c.leroy@cea.frc.leroy@cea.fr Frederic schaer frederic.schaer@cea.frfrederic.schaer@cea.fr

2 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Plan Usage des outils de monitoring Outils utilisés dans EGEE/LCG (questionnaires 2006) Comparaison Nagios/LEMON Problèmes rencontrés Conclusions

3 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Usage des outils Un logiciel dit de “monitoring” doit permettre de remplir ces objectifs : –prévenir les incidents par extrapolation des données fournies, –agir rapidement dès qu'un système est noté en erreur, –permettre l'analyse “post mortem” d'un problème grâce aux informations collectées. –Permettre un gestion simple des tests  ajout/suppression de tests  mise en attente/resoumission

4 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Usage des outils

5 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Enquête 2006 (1) - Questions liées aux outils : –Outils graphique –Alarmes (O/N) –Comment sont testés les services? –facilité de prise en main –Licence, gratuité –Avantages/Inconvénients - Questions liées aux sites –Le site est-il monitoré –Quels sont les plans futurs –Monitorer quoi ?

6 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Enquête 2006 (1)

7 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Résumé des outils des sites EGEE

8 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Enquête 2006(2) (H.Renshall auprès des tier1 pour un Workshop WLCG) Q: How does your site monitor the correct functioning of its LCG servers, both for the base system (machine+O/S), middleware and applications? BNL: base system by Ganglia + Nagios, middleware by MonaLisa, OSG Gricat, LCG by SFT and gLite by SAM. FZK: base system by Ganglia + Nagios. Will use Nagios for middleware. Would like list of service metrics/triggers FNAL: NGOP + Remedy. Part of FNAL Computing Division 24 hour helpdesk infrastructure. SARA: Argus for networking, Ganglia for cluster and dcache infrastructure.Own tools for data movement and also dcache tools, SFT and SAM. See later talk. TRIUMF: base system by Ganglia and syslogd Logwatch. Dcache tools and SFT for grid. Looking at SAM. Commonality: Ganglia, Nagios,SFT,SAM CERN: Home built tools ( LEMON,SURE (remplacé par LAS depuis))

9 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Enquête 2006(2) (H.Renshall auprès des tier1 pour un Workshop WLCG) Q: How much manpower is dedicated to maintaining the monitoring? BNL: 1 FTE maintaining infrastructure and 0.2 using it. FZK: 1 FTE spread over 3-4 people. FNAL: 1 FTE maintaining/improving the NGOP infrastructure and framework. Service responsibles must participate in monitoring. SARA: 5 people involved part-time in different parts of the services Triumf: 3 FTE are dedicated to Tier 1 operations which include monitoring and problem resolution. Commonality: At least 1 FTE CERN: 2 FTE and service responsibles write their agents ( depuis: 1FTE maintaining infrastructure and development, service managers only setup their respective configurations for the services in quattor)

10 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Comparaison Nagios/LEMON Fonctionnalités Déploiement, facilité d’utilisation, maintenance Schéma Nagios Schéma Lemon Sondes standard Sondes grille

11 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Comparaison Nagios/LEMON Fonctionnalités LEMONNagios Licence GPL/GPL2 and Eu DatagridGNU GPL v2 Projets associés notables quattor, sls, leafSplunk centreoncentreon (oreon) nagios pluginsnagios plugins (officiels) nagios exchange (3rd party plugins) Systèmes Linux, …any ANSI C compliant + Windows Linux, *NIX Scalabilité ~10000 machines, 500 métriques >1000 machines. Pour 90 machines, 796 services, charge CPU 0% Interface Web, PHP, CLI, XML API Web, CGI Développeurs M. Siket (CERN)Ethan Galstad, communauté network services monitoring (web…) sonde « remote » host services monitoring (cpu…) environmental factors monitoring (T°) sonde IPMISee here ($USD :500)here host hierarchy (distinction down/unreachable) Notifications mail LAS ou exception avec actuators Notifications sms Avec Oracle(LAS) Notifications rétablissement

12 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Comparaison Nagios/LEMON Fonctionnalités LEMONNagios Notification escalation Avec Oracle(LAS) Autres notifications Event Handlers * Monitoring distribuéVia event handlers Monitoring redondant Avec Oracle(LAS) Via event handlers Modifications de config ad-hoc Downtimes Groupes d’hotes Groupes de services Groupes de contacts Avec Oracle(LAS) Accusé de réception de problème Avec Oracle(LAS) Historique de notifications Avec Oracle(LAS) Historique de problèmes Avec Oracle(LAS) Contrôle d’accès basé sur rôles Avec Oracle(LAS) Graphiques statistiques ** * pour un monitoring décentralisé, cela requiert un accès aux machines (commandes via ssh/sudo ?) ** par défaut, graphiques représentant les alertes. Graphes de performance possibles (nagiosgrappher et autres)

13 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Comparaison Nagios/LEMON Fonctionnalités LEMONNagios Texte de retour des plugins Stockage en BDDsqlite, oracle and mysql [mysql not yet fully supported by our other applications] Avec NDOUtils

14 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Comparaison Nagios/LEMON Déploiement, facilité d’utilisation, maintenance LEMONNagios Template quattorEn cours Via RPMRPMs à construire (voire problèmes) Facilité d’installationFacile pour les flatfiles Assez facile pour Oramon Facile : configure ; make ; make install Facilité de configurationLaborieux pour rajouter des tests (plusieurs fichiers + tabulation) Moyen : concepts à comprendre avant de commencer à configurer Qualité de documentationTrès bonneExcellent Débusquage erreurs de configVerrifier les logs (Attention au tabulation message pas toujours explicite) Bon (nagios [–v|-s] configfile.cfg) Réactivité de la communautéBon Fonctionnement interface webTrès peu convivialMoyen Charge induite sur les hôtes monitorés 0.1% CPU ; 7MB agent (i386) or 20MB (x86_64); sensors about 40MB (i386) or 100MB (x86_64) Démon nrpe : insignifiant Plugins : en fonction Framework de création sondesOuiOui / Inutile Fréquence des release5 moisN/A Facilité des updatesDifficile sur le serveur (dépendance Oracle) Facile sur les clients Facile

15 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Comparaison Nagios/LEMON Schéma NAGIOS Web InterfaceExternal Programs External Command File Config filesLog fileStatus fileRetention file Monitoring Logic Performance Logic Notification Logic Event Logic Nagios Daemon (Core Logic) Performance Processors OCxP Commands PluginsNotification Commands Event Handlers External ApplicationsHosts and Services Contacts

16 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Comparaison Nagios/LEMON Schéma LEMON Web browser Lemon CLI User Oracle Database Repository backend SQL Nodes Monitoring Agent Sensor RRDTool / PHP apache HTTP Lemon-host-check Application Server TCP/UDP

17 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Comparaison Nagios/LEMON Sondes standard Nagios 140 plugins officiels –Ssh,ping,simap,nmap,snmp… Liste exhaustive : –http://nagiosplugins.org/node/2http://nagiosplugins.org/node/2 1279 projets nagios-exchange –Tests pbs,maui,sge,ipmi –149 « projets » NRPE Lemon Sondes disponibles: MSAMSA - checks the health of the Lemon sensor agent (built in) LinuxLinux - provides standard performance monitoring of the system file file - provides various file-related utilities exceptionexception - Exception handling with support for correlation between metrics. oracleoracle - instance, users and database monitoring of Oracle Communauté: project-lemon@cern.ch N bre de personnes: 37 (https://websvc03.cern.ch/listboxservices/simba2/listeditor.aspx?lis t=project-lemon)https://websvc03.cern.ch/listboxservices/simba2/listeditor.aspx?lis t=project-lemon

18 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Comparaison Nagios/LEMON Sondes grille Nagios Repositories –GRIDPPGRIDPP –HEP Sysadmins pluginsHEP Sysadmins plugins –RAL pluginsRAL plugins Scripts (non testés) : –CA, Certs, BDII, myproxy… –PBS efficiencies, undelivered dir, non-started nodes, offline nodes –SAM SAM Nagios prototype Grif RPM « nagios-grid- plugins » –Sondes pour l’IRFU/GRIF LEMON Suite de sondes LEMON (développées par la communauté): CVS1 du CERN CVS 2 du CERN CVS 3 du CERN grid-lfc, grid-bdii, GridPx, Voms

19 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Problèmes rencontrés Nagios SELinux pose des problèmes avec apache et les cgi comptes utilisateurs gérés via quattor, mais RPM NRPE crée un compte standard (non-système)  nécessité de modifier les RPMs / SPEC files le démon NRPE retransmet mal l’output des plugins  nécessité d’ajouter « printf ‘\0’ » à la fin de tout output de plugin. Semble être un cas isolé. _______________________________________________________ Lemon : Envoi de notifications depuis le client: problèmes d’échantillonnage rencontrés => fausses alarmes (problème de configuration locale ou bug ?: non déterminé: utilisation du paramètre « minoccurs ») Alarmes depuis le serveur non testé (en production au CERN) Très bonne réactivité de la mailing liste et des développeurs lemon

20 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Problèmes rencontrés Intégration de nouveau test Nagios Déploiement du script –Écriture de programme –Création de RPM –Copie du RPM sur Quattor –MAJ des templates « rpm » –Deploy (spma) Déploiement de la config –Modification templates Nagios –Deploy Déploiements désordonnés –Configuration locale des hôtes, RPM local –Configuration du serveur Notifications d’erreur si serveur mis à jour en 1 er LEMON (via quattor) Déploiement de la Sonde –Ecriture programme perl ou C++ –création de RPM ou utilisation de filecopy (via quattor) –MAJ des templates pour la nouvelle config –Deploy Déploiement de la config –Modification templates lemon configuration serveur –Deploy LEMON (à la main) Déploiement de la Sonde –Ecriture programme perl ou C++ –MAJ des fichiers de configurations client –Redémarrage des services Déploiement de la config –Modification configuration serveur (oramon: au moins 3 fichiers) –Redémarrage des services

21 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Conclusions Actions correctives : nécessaires ou non ? Nagios comme Lemon permettent un monitoring de base (client/serveur) L’interface web doit-elle être conviviale (si l’on a de bonnes notifications ?) Est-il utile d’avoir plusieurs outils de monitoring (même complémentaires ?) La question du support et de la pérennité est souvent posée : quid de l’implication des utilisateurs dans le développement (CERN vs Open Source) ? Monitoring interne au site: aller jusqu’ou (tester la soumission de jobs?)?

22 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Interface web Lemon

23 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Interface web Lemon

24 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Interface web Lemon

25 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Nagios Screenshots

26 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Centreon 2 preview


Télécharger ppt "EGEE-II INFSO-RI-031688 Enabling Grids for E-sciencE www.eu-egee.org EGEE and gLite are registered trademarks Monitoring de ressources grille à l’échelle."

Présentations similaires


Annonces Google