EGEE-II INFSO-RI-031688 Enabling Grids for E-sciencE www.eu-egee.org EGEE and gLite are registered trademarks Monitoring de ressources grille à l’échelle.

Slides:



Advertisements
Présentations similaires
La supervision réseau L'exemple de Nagios Thierry Briche
Advertisements

Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting Mai 2009.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Le monitoring réseau dans EGEE Guillaume.
KRIKORIAN Pierre HILMI Brahim
Alice LCG Task Force Meeting 16 Oct 2008Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1/20BARBET Jean-Michel - 1/20 LCGFR Marseille Juin.
EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.
Projet LCG: Déploiement Pierre Girard EGEE/LCG ROC EGEE/LCG site deployment Centre de Calcul de l’IN2P3 LCG France Lyon, 14 décembre.
C’est combien ? Les euros
1Auteur : Oleg LODYGENSKY XtremWeb-HEP Atelier Opérations France Grille Lyon – Villeurbanne 13 et 14 octobre.
Accounting régional. Status actuel Base de données node56 : – 22GiB de données – 16 sites – 3.7TiB disponibles… Tous sites sur la base de données node56.
Infrastructure Navigateur Putty Client SSH Web Mails
Tier1 at the CC-IN2P3 March Current state at the CC-IN2P3 storage, computation, network...
Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.
Module : Pages Web Dynamiques (Production Électronique Avancée)
Quattor : Opérations Courantes - G. Philippon/M. Jouvin4-5/2/2009Quattor : Opérations Courantes - G. Philippon Opérations courantes.
Le noeud de grille Tier 3 LAPP.
Compte rendu Journée JOSY
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks L’OAG R. Rumler, CC-IN2P3 (CNRS) EGEE’07,
Schéma de principe de nagios nrpe httpd nagios sonde « check_* »
NAGIOS dans un cluster de la grille EGEE
LHCb DC06 status report (LHCb Week, 13/09/06) concernant le CC : –Site currently fine / stable 3% of simulatated events 30% of reconstructed events –Site.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Data management David Bouvet IN2P3-CC Clermont.
Mandat du Groupe -collecter les besoins des responsables des sites et de services de la région, -recenser les pratiques des sites et les outils de monitoring.
JI Les systèmes d’autorisation et d’authentification dans AMI Fabian Lambert.
INFSO-RI Enabling Grids for E-sciencE NA4 test Eric Fede on behalf of the team.
Création d’un site WEB 1 – Un site WEB c’est quoi ? 2 – Questions à se poser avant la construction d’un site WEB 3 – Principes de fonctionnement d’un site.
Opérations courantes Guillaume PHILIPPON. Sommaire Mise à jour des QWG Gestion des utilisateurs Ajout/Suppression d’un programme Préparation des « OS.
Développement d’application avec base de données Semaine 8 : WPF avec Entité Framework Automne 2015.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.
Cécile Barbier David Bouvet Christine Leroy L'exploitation de la grille au quotidien.
Projet Personnel (Epreuve 6) Projet réalisé dans le cadre de mon épreuve E6 au sein de mon alternance au conseil départemental du val de marne Arnaud PICANO.
Mardi 30 mars 2010 Technologies employées par le portail des opérations Cyril L’Orphelin, Olivier Lequeux, Pierre Veyre IN2P3/CNRS Computing Centre, Lyon,
Les méthodes de tests Les grands principes pour réaliser des tests efficaces.
CEA DSM Dapnia Sédi Septembre 2006/ IN2P3 LAPP || Journee Informatique IN2P3 et DAPNIA1 Monitoring interne aux sites Christine Leroy (CEA/DAPNIA) Sylvain.
Développement des templates Quattor de gLite à EMI Guillaume PHILIPPON.
StratusLab is co-funded by the European Community’s Seventh Framework Programme (Capacities) Grant Agreement INFSO-RI La technologie « cloud » M.
Utilisation de Quattor par GRIF Michel Jouvin LAL/Orsay
INFSO-RI Enabling Grids for E-sciencE Support MPI avec Torque/PBS C. Loomis (LAL-Orsay) EGEE-FR Conférence Téléphonique 7 Juin 2005.
Utilisation des composants Guillaume PHILIPPON. Sommaire Fonctionnement des composants Comprendre le fonctionnement d’un composant Les bonnes pratiques.
Mercredi 1er juin 2016 Panorama sur les outils de monitoring Cyril L’Orphelin David Bouvet.
2011/06/14 Efficacité des jobs d’Atlas Pierre Girard Réunion de travail avec Atlas CC-IN2P3, le 14 juin 2011.
INFSO-RI Enabling Grids for E-sciencE Les services d’EGEE Fede Eric Inspirée de la présentation de Frédéric Hemmer JRA1 EGEE 1 st.
CEA DSM Irfu Mises à jour de sécurité… … et la pratique F.SCHAER.
Supervision EC-Net AX Serveurs Web EC-BOS AX. ARCHITECTURE Les solutions EC-Net AX EC-Net AX Supervisor EC-Net AX EnerVue EC-Net AX Security  EC-Net.
Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue
1 Projet d'établissement Action 10.2 Créer un portail intranet dédié aux agents de l’Inrap Présentation des choix technologiques de l’Inrap.
C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.
INFSO-RI Enabling Grids for E-sciencE Sécurité sur la Grille C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 8 octobre 2007.
Quel est l’intérêt d’un moteur de recherche de CV pour le recrutement ? Master MIAGE Tuteur : Michel Plasse Danicel Alexandre Entreprise de stage Maitre.
Introduction Depuis le début des sites web les urls sont utilisé pour la navigation. Avec l’arrivée des bases de données, les urls ont prit de l’importance.
Mardi 30 mars 2010 Les Outils d'Exploitation et de Surveillance Cyril L’Orphelin, Atelier technique France Grilles, 31 Mai 2010 IN2P3/CNRS Computing Centre,
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
Tier 2 au LAPP. Plan Historique Objectifs Infrastructures Status/métriques Avenir Conclusion.
Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting Mai 2009.
Profile Likelihood Une petite revue succincte. Petite citation a méditer… « a probability of 1 in is almost impossible to estimate » R. P.
EGEE induction course, 22/03/2005 INFSO-RI Enabling Grids for E-sciencE Infrastructure Overview Pierre Girard French ROC deputy.
INFSO-RI Enabling Grids for E-sciencE Adaptation de GRIDSITE à WEBDAV Cédric Duprilot CNRS/IN2P3/LAL.
TÂCHES D’ADMINISTRATION DE LA NAGIOSBOX BIOMED LE 24 Mai 2011, Christine Leroy,
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
INFSO-RI Enabling Grids for E-sciencE Data management Daniel Jouvenot IN2P3-LAL ORSAY - 02/02/2007.
1DSM - IRFU / PM Compte rendu du site GRIF.
Eric Fede : Obernai Intégration des services grille dans l'exploitation des systèmes informatiques du laboratoire.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.
Site Monitoring -Contexte des sites Grilles EGEE &/|| LCG -Etat des sites Francais -Le groupe de travail LCG-Fr / SA1-FR monitoring et les prochaines actions.
CREAM & ICE Réunion SA1-France 11 mars 2008
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Grid Service Monitoring Working Group Exemple.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Opérations : vers un modèle décentralisé...
mardi 11 septembre 2018mardi 11 septembre 2018
Transcription de la présentation:

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring de ressources grille à l’échelle d’un SITE Comparaison LEMON et NAGIOS Christine Leroy Frederic schaer

Enabling Grids for E-sciencE EGEE-II INFSO-RI Plan Usage des outils de monitoring Outils utilisés dans EGEE/LCG (questionnaires 2006) Comparaison Nagios/LEMON Problèmes rencontrés Conclusions

Enabling Grids for E-sciencE EGEE-II INFSO-RI Usage des outils Un logiciel dit de “monitoring” doit permettre de remplir ces objectifs : –prévenir les incidents par extrapolation des données fournies, –agir rapidement dès qu'un système est noté en erreur, –permettre l'analyse “post mortem” d'un problème grâce aux informations collectées. –Permettre un gestion simple des tests  ajout/suppression de tests  mise en attente/resoumission

Enabling Grids for E-sciencE EGEE-II INFSO-RI Usage des outils

Enabling Grids for E-sciencE EGEE-II INFSO-RI Enquête 2006 (1) - Questions liées aux outils : –Outils graphique –Alarmes (O/N) –Comment sont testés les services? –facilité de prise en main –Licence, gratuité –Avantages/Inconvénients - Questions liées aux sites –Le site est-il monitoré –Quels sont les plans futurs –Monitorer quoi ?

Enabling Grids for E-sciencE EGEE-II INFSO-RI Enquête 2006 (1)

Enabling Grids for E-sciencE EGEE-II INFSO-RI Résumé des outils des sites EGEE

Enabling Grids for E-sciencE EGEE-II INFSO-RI Enquête 2006(2) (H.Renshall auprès des tier1 pour un Workshop WLCG) Q: How does your site monitor the correct functioning of its LCG servers, both for the base system (machine+O/S), middleware and applications? BNL: base system by Ganglia + Nagios, middleware by MonaLisa, OSG Gricat, LCG by SFT and gLite by SAM. FZK: base system by Ganglia + Nagios. Will use Nagios for middleware. Would like list of service metrics/triggers FNAL: NGOP + Remedy. Part of FNAL Computing Division 24 hour helpdesk infrastructure. SARA: Argus for networking, Ganglia for cluster and dcache infrastructure.Own tools for data movement and also dcache tools, SFT and SAM. See later talk. TRIUMF: base system by Ganglia and syslogd Logwatch. Dcache tools and SFT for grid. Looking at SAM. Commonality: Ganglia, Nagios,SFT,SAM CERN: Home built tools ( LEMON,SURE (remplacé par LAS depuis))

Enabling Grids for E-sciencE EGEE-II INFSO-RI Enquête 2006(2) (H.Renshall auprès des tier1 pour un Workshop WLCG) Q: How much manpower is dedicated to maintaining the monitoring? BNL: 1 FTE maintaining infrastructure and 0.2 using it. FZK: 1 FTE spread over 3-4 people. FNAL: 1 FTE maintaining/improving the NGOP infrastructure and framework. Service responsibles must participate in monitoring. SARA: 5 people involved part-time in different parts of the services Triumf: 3 FTE are dedicated to Tier 1 operations which include monitoring and problem resolution. Commonality: At least 1 FTE CERN: 2 FTE and service responsibles write their agents ( depuis: 1FTE maintaining infrastructure and development, service managers only setup their respective configurations for the services in quattor)

Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Fonctionnalités Déploiement, facilité d’utilisation, maintenance Schéma Nagios Schéma Lemon Sondes standard Sondes grille

Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Fonctionnalités LEMONNagios Licence GPL/GPL2 and Eu DatagridGNU GPL v2 Projets associés notables quattor, sls, leafSplunk centreoncentreon (oreon) nagios pluginsnagios plugins (officiels) nagios exchange (3rd party plugins) Systèmes Linux, …any ANSI C compliant + Windows Linux, *NIX Scalabilité ~10000 machines, 500 métriques >1000 machines. Pour 90 machines, 796 services, charge CPU 0% Interface Web, PHP, CLI, XML API Web, CGI Développeurs M. Siket (CERN)Ethan Galstad, communauté network services monitoring (web…) sonde « remote » host services monitoring (cpu…) environmental factors monitoring (T°) sonde IPMISee here ($USD :500)here host hierarchy (distinction down/unreachable) Notifications mail LAS ou exception avec actuators Notifications sms Avec Oracle(LAS) Notifications rétablissement

Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Fonctionnalités LEMONNagios Notification escalation Avec Oracle(LAS) Autres notifications Event Handlers * Monitoring distribuéVia event handlers Monitoring redondant Avec Oracle(LAS) Via event handlers Modifications de config ad-hoc Downtimes Groupes d’hotes Groupes de services Groupes de contacts Avec Oracle(LAS) Accusé de réception de problème Avec Oracle(LAS) Historique de notifications Avec Oracle(LAS) Historique de problèmes Avec Oracle(LAS) Contrôle d’accès basé sur rôles Avec Oracle(LAS) Graphiques statistiques ** * pour un monitoring décentralisé, cela requiert un accès aux machines (commandes via ssh/sudo ?) ** par défaut, graphiques représentant les alertes. Graphes de performance possibles (nagiosgrappher et autres)

Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Fonctionnalités LEMONNagios Texte de retour des plugins Stockage en BDDsqlite, oracle and mysql [mysql not yet fully supported by our other applications] Avec NDOUtils

Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Déploiement, facilité d’utilisation, maintenance LEMONNagios Template quattorEn cours Via RPMRPMs à construire (voire problèmes) Facilité d’installationFacile pour les flatfiles Assez facile pour Oramon Facile : configure ; make ; make install Facilité de configurationLaborieux pour rajouter des tests (plusieurs fichiers + tabulation) Moyen : concepts à comprendre avant de commencer à configurer Qualité de documentationTrès bonneExcellent Débusquage erreurs de configVerrifier les logs (Attention au tabulation message pas toujours explicite) Bon (nagios [–v|-s] configfile.cfg) Réactivité de la communautéBon Fonctionnement interface webTrès peu convivialMoyen Charge induite sur les hôtes monitorés 0.1% CPU ; 7MB agent (i386) or 20MB (x86_64); sensors about 40MB (i386) or 100MB (x86_64) Démon nrpe : insignifiant Plugins : en fonction Framework de création sondesOuiOui / Inutile Fréquence des release5 moisN/A Facilité des updatesDifficile sur le serveur (dépendance Oracle) Facile sur les clients Facile

Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Schéma NAGIOS Web InterfaceExternal Programs External Command File Config filesLog fileStatus fileRetention file Monitoring Logic Performance Logic Notification Logic Event Logic Nagios Daemon (Core Logic) Performance Processors OCxP Commands PluginsNotification Commands Event Handlers External ApplicationsHosts and Services Contacts

Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Schéma LEMON Web browser Lemon CLI User Oracle Database Repository backend SQL Nodes Monitoring Agent Sensor RRDTool / PHP apache HTTP Lemon-host-check Application Server TCP/UDP

Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Sondes standard Nagios 140 plugins officiels –Ssh,ping,simap,nmap,snmp… Liste exhaustive : – projets nagios-exchange –Tests pbs,maui,sge,ipmi –149 « projets » NRPE Lemon Sondes disponibles: MSAMSA - checks the health of the Lemon sensor agent (built in) LinuxLinux - provides standard performance monitoring of the system file file - provides various file-related utilities exceptionexception - Exception handling with support for correlation between metrics. oracleoracle - instance, users and database monitoring of Oracle Communauté: N bre de personnes: 37 ( t=project-lemon) t=project-lemon

Enabling Grids for E-sciencE EGEE-II INFSO-RI Comparaison Nagios/LEMON Sondes grille Nagios Repositories –GRIDPPGRIDPP –HEP Sysadmins pluginsHEP Sysadmins plugins –RAL pluginsRAL plugins Scripts (non testés) : –CA, Certs, BDII, myproxy… –PBS efficiencies, undelivered dir, non-started nodes, offline nodes –SAM SAM Nagios prototype Grif RPM « nagios-grid- plugins » –Sondes pour l’IRFU/GRIF LEMON Suite de sondes LEMON (développées par la communauté): CVS1 du CERN CVS 2 du CERN CVS 3 du CERN grid-lfc, grid-bdii, GridPx, Voms

Enabling Grids for E-sciencE EGEE-II INFSO-RI Problèmes rencontrés Nagios SELinux pose des problèmes avec apache et les cgi comptes utilisateurs gérés via quattor, mais RPM NRPE crée un compte standard (non-système)  nécessité de modifier les RPMs / SPEC files le démon NRPE retransmet mal l’output des plugins  nécessité d’ajouter « printf ‘\0’ » à la fin de tout output de plugin. Semble être un cas isolé. _______________________________________________________ Lemon : Envoi de notifications depuis le client: problèmes d’échantillonnage rencontrés => fausses alarmes (problème de configuration locale ou bug ?: non déterminé: utilisation du paramètre « minoccurs ») Alarmes depuis le serveur non testé (en production au CERN) Très bonne réactivité de la mailing liste et des développeurs lemon

Enabling Grids for E-sciencE EGEE-II INFSO-RI Problèmes rencontrés Intégration de nouveau test Nagios Déploiement du script –Écriture de programme –Création de RPM –Copie du RPM sur Quattor –MAJ des templates « rpm » –Deploy (spma) Déploiement de la config –Modification templates Nagios –Deploy Déploiements désordonnés –Configuration locale des hôtes, RPM local –Configuration du serveur Notifications d’erreur si serveur mis à jour en 1 er LEMON (via quattor) Déploiement de la Sonde –Ecriture programme perl ou C++ –création de RPM ou utilisation de filecopy (via quattor) –MAJ des templates pour la nouvelle config –Deploy Déploiement de la config –Modification templates lemon configuration serveur –Deploy LEMON (à la main) Déploiement de la Sonde –Ecriture programme perl ou C++ –MAJ des fichiers de configurations client –Redémarrage des services Déploiement de la config –Modification configuration serveur (oramon: au moins 3 fichiers) –Redémarrage des services

Enabling Grids for E-sciencE EGEE-II INFSO-RI Conclusions Actions correctives : nécessaires ou non ? Nagios comme Lemon permettent un monitoring de base (client/serveur) L’interface web doit-elle être conviviale (si l’on a de bonnes notifications ?) Est-il utile d’avoir plusieurs outils de monitoring (même complémentaires ?) La question du support et de la pérennité est souvent posée : quid de l’implication des utilisateurs dans le développement (CERN vs Open Source) ? Monitoring interne au site: aller jusqu’ou (tester la soumission de jobs?)?

Enabling Grids for E-sciencE EGEE-II INFSO-RI Interface web Lemon

Enabling Grids for E-sciencE EGEE-II INFSO-RI Interface web Lemon

Enabling Grids for E-sciencE EGEE-II INFSO-RI Interface web Lemon

Enabling Grids for E-sciencE EGEE-II INFSO-RI Nagios Screenshots

Enabling Grids for E-sciencE EGEE-II INFSO-RI Centreon 2 preview