NAGIOS dans un cluster de la grille EGEE

Slides:

Advertisements

Présentations similaires

Gérer son parc hétérogène depuis MOM et SMS avec QMX de Quest Software Laurent CAYATTE Consultant avant-vente Quest Software.

Advertisements

1 HPC pour les opérations. Sommaire Quelques rappels sur Windows Compute Cluster Server Déploiement de Compute Cluster Administration de Compute cluster.

1 HPC pour les opérations. Administration Compute Cluster Server.

Le Grid Computing Par Frédéric ARLHAC & Jérôme MATTERA.

La supervision réseau L'exemple de Nagios Thierry Briche

Stockage dans DIET Groupe de travail du 16 décembre 2002.

Présentation de Nagios

LCG DATAGRID - France 8 Juillet 2002 LCG : LHC Grid computing - qui, quoi, quand, comment ? Quoi ? But : préparer l'infrastructure informatique des 4 expériences.

Intégration du système de production LHCb sur la DataGRID V. Garonne, CPPM, Marseille Réunion DataGRID France, 13 fv fév

La haute disponibilité

Système de stockage réseaux NAS - SAN

Les outils d’intégration continue

SECURITE DU SYSTEME D’INFORMATION (SSI)

BERNARDIN Benoît Lycée Louis Pergaud

SIMATIC Industrial Software

1 CGP2P XtremWeb :mise en œuvre et management Laboratoire de laccelerateur lineaire, Paris Sud University, Orsay, France

Document élaboré à Centrale Paris par Pascal Morenton LES TECHNOLOGIES DU WEB 1. LES PHASES D UN DEPLOIEMENT DE RESEAUX 2. LE LANGAGE HTML 3. LE LANGAGE.

Retour dexpérience Supportech INSA.NET Daniel Boteanu – Michaël Piffret.

Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting Mai 2009.

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Le monitoring réseau dans EGEE Guillaume.

Le réseau Data Center « Hadoop-ready » by

Heatbeat au LAL Marec erwan Charbonnel Jaclin.

Alice LCG Task Force Meeting 16 Oct 2008Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1/20BARBET Jean-Michel - 1/20 LCGFR Marseille Juin.

EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.

D. E ZEGOUR Institut National d ’Informatique

Accounting régional. Status actuel Base de données node56 : – 22GiB de données – 16 sites – 3.7TiB disponibles… Tous sites sur la base de données node56.

Gestion de données : Besoins de la VO Biomed Sorina Pop Laboratoire Creatis Université de Lyon, CREATIS; CNRS UMR5220; Inserm U1044; INSA-Lyon; Université.

Infrastructure Navigateur Putty Client SSH Web Mails

Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.

Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.

Quattor : Opérations Courantes - G. Philippon/M. Jouvin4-5/2/2009Quattor : Opérations Courantes - G. Philippon Opérations courantes.

Compte rendu Journée JOSY

19 janvier 2006J-P Meyer1 Revue du projet GRIF  Les enjeux scientifiques (J-P Meyer)  Le calcul au LHC  Les Projet EGEE et LCG  Le projet GRIF  La.

Introduction aux outils de supervision

Développement et maintenance sur le projet RefPack

Surveillance - Monitoring

MP2P PROTOCOLE & SYSTÈME DE STOCKAGE REDONDANT COACHING 3 – 21/05/2015 Julien DUBIEL – Mathieu CORRE – Francis VISOIU MISTRIH.

Présentation DU PROGICIEL NAGIOS

Mandat du Groupe -collecter les besoins des responsables des sites et de services de la région, -recenser les pratiques des sites et les outils de monitoring.

Système de récupération de données pour EMC Avamar.

GRIF Status Michel Jouvin LAL/Orsay

Hébergement d’une infrastructure de Cloud Expérience d’un laboratoire Guillaume Philippon.

Retour d'expérience de l'utilisation du cloud comme infrastructure de service Guillaume PHILIPPON.

Monitoring: état et perspectives Cette présentation fera le point sur le travail effectué au sein du groupe de travail, créé au sein de LCG-France et EGEE.

Système local d’accounting de l’IPHC 31/05/2011 Eric Kieffer.

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.

Cécile Barbier David Bouvet Christine Leroy L'exploitation de la grille au quotidien.

Mardi 30 mars 2010 Technologies employées par le portail des opérations Cyril L’Orphelin, Olivier Lequeux, Pierre Veyre IN2P3/CNRS Computing Centre, Lyon,

Développement des templates Quattor de gLite à EMI Guillaume PHILIPPON.

Mercredi 1er juin 2016 Panorama sur les outils de monitoring Cyril L’Orphelin David Bouvet.

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring de ressources grille à l’échelle.

Opérations France-Grilles : Etat des lieux Hélène Cordier/Gilles Mathieu LCG France, 30 Mai 2011.

CEA DSM Irfu Mises à jour de sécurité… … et la pratique F.SCHAER.

1DSM - DAPNIA / MW0901 Lustre au DAPNIA. 2DSM - DAPNIA / MW0901 Machines utilisées –2 PC DELL de bureau optiplex GX280 : NODE08 : P4 à 3,2 Ghz – 2Mo de.

C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.

Projet LCG: Vue d’Ensemble Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3 Rencontre IN2P3/STIC Grenoble, 25.

EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.

Réunion des sites LCG France- Marseille juin ACTIVITES DU GROUPE ACCOUNTING FRANCE GRILLES Cécile Barbier (LAPP)

Mardi 30 mars 2010 Les Outils d'Exploitation et de Surveillance Cyril L’Orphelin, Atelier technique France Grilles, 31 Mai 2010 IN2P3/CNRS Computing Centre,

Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.

TÂCHES D’ADMINISTRATION DE LA NAGIOSBOX BIOMED LE 24 Mai 2011, Christine Leroy,

Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)

Réunion LCG France18-19 mai ACTIVITES DU GROUPE DE TRAVAIL ACCOUNTING LCG-FR / SA1-FR Cécile Barbier (LAPP)

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.

INFSO-RI Enabling Grids for E-sciencE Data management Daniel Jouvenot IN2P3-LAL ORSAY - 02/02/2007.

1DSM - IRFU / PM Compte rendu du site GRIF.

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.

Site Monitoring -Contexte des sites Grilles EGEE &/|| LCG -Etat des sites Francais -Le groupe de travail LCG-Fr / SA1-FR monitoring et les prochaines actions.

1 Interne Orange Accédez à votre système d'information depuis votre terminal mobile Nomalys.

Transcription de la présentation:

NAGIOS dans un cluster de la grille EGEE Frédéric Schaer, CEA, IRFU

Définitions GRILLE Proxy : certificat x509 court sans mot de passe CE : passerelle pour jobs SE : passerelle de stockage ROC : Regional Operations Center GOC : Grid Operations Center WN : Worker Node, serveur de calcul

Limitations de la présentation Point de vue « en partie » opérations Point de vue « officieux » Site de grille spécifique : GRIF/CEA IRFU

Limitations de la présentation GRIF : Site « réparti », besoins spécifiques GRIF = Grille pour la Recherche en Ile de France CEA IRFU (Saclay) LLR (Polytechnique – Palaiseau) LAL (Orsay) IPNO (Orsay) APC (Paris 7, Bibliothèque François Mitterrand) LPNHE (Paris 5, Jussieu) Administration répartie Gestion/Installation « locale » des machines Accès root/sudo limité en commandes et en machines (notamment CEA) Monitoring global du site VLAN Grif, firewalls CNRS/CEA VLAN CEA (datagrid), VLANS d’administration CEA/CNRS

Besoins Spécifiques Grille Soumission de job Présence de « proxy » Environnement grille Système(s) d’Information Ldap – inventaire des nœuds et capacités XML (SSL) – downtimes Lien downtimes/LDAP

Besoins Spécifiques Grille Soumission de jobs : Output jusqu’à plusieurs heures après Scalabilité : Nombre de sites en production : 304 Nœuds monitorés centralement par site : environ 5 Requis : (CE|cream CE)/SE/sBDII Optionnels : MON/LFC/WMS/VOBOX Nombre de nœuds (y compris WN) par site : 1 à X000 Jobs monitoring envoyés : 1 par heure, pour environ 100KO d’output (évaluation) 152MO de données stockées par heure en BDD, disponibles en ligne, accédés par tous, gardés des semaines

Besoins Spécifiques Grille (Site) Monitoring views Status DES sites pour les VOs ? Status DU site pour les VOs ? Status des sites pour le projet ? Production monitoring Reporting

OUTILS Utilisés - EGEE SAM FCR

OUTILS Utilisés - EGEE SAM FCR GSTAT

OUTILS Utilisés - EGEE SAM FCR GSTAT GridMap

OUTILS Utilisés - EGEE SAM FCR GSTAT GridMap Dashboard …

OUTILS Utilisés - EGEE SAM FCR GSTAT GridMap Dashboard … NAGIOS !

Nagios EGEE Nagios standard recompilé 3 utilisations Affichage passif de tests SAM/GSTAT/NETWORK Scheduling de tests Remontée de résulats Dépendances multiples Système d’autoconfiguration LDAP, config locale, accès SSL x509 Autoconfiguration nœuds, services MySQL Apache ActiveMQ (non activé) Librairies projet Manipulation/Synchronisation downtimes Wrapping de sondes

Nagios EGEE – ce qui est possible Tests actifs : services exposés évidents (serveurs) Cohérence du système d’information (GOC DB) Logs accessibles via gridftp Tests passifs Couches cachées via soumission d’un job – teste 1 nœud par site Soumission d’un transfert – teste 1 serveur de stockage par site

Nagios EGEE – la lente évolution Evolution forcée Départ du développeur SAM (scripts difficilement maintenables) Utilisation d’outils standards (enfin !) Lente et difficile il n’aura fallu que ~6 ans! Pas de contribution au logiciel libre PIRE : duplication Difficile pour cause de complexité surcouche Nagios CERN… Migration depuis plus d’un an, et pour encore… Un an? Difficile pour cause d’interopérabilité Intégration couche GRILLE à un nagios existant (cf 2 points ci-dessus) Dépendances exagérées Manque de documentation Aucune explication sur qui monitore quoi, comment, ou pourquoi. Surcouche opaque (cf 4 points ci-dessus)

Stratégie de monitoring EGEE EGEE3 aims at reducing the effort required to operate the infrastructure fully distribute responsibility for the daily operations to the ROC and the sites themselves effective monitoring of site services directed alarms to the responsible site and service site monitoring is one of the operational tools that have been identified to move to a regional distributed infrastructure With increased distribution of tools, interoperation becomes a challenge: it is proposed to use enterprise messaging technologies as a common mechanism for the interoperation of the various operational tools

Stratégie de monitoring EGEE Messaging as an integration paradigm (program-to-program communication with reliable delivery) A multilevel Monitoring Framework services are monitored at the site services are monitored from the ROC results are published at site, at regional and project level.

Résumé stratégie de monitoring EGEE (1)

Résumé stratégie de monitoring EGEE (2) NCG (Nagios Configuration Generator): generates a nagios configuration for a grid site using GOCDB and BDII

Historique – GRIF 2005-2006 : Lemon 2006-2007 : Lemon + Nagios Lemon pour les graphes système Nagios pour tous les nouveaux tests Nagios pour les notifications Nagios pour la « simplicité »

Historique - GRIF 2007-2008 : Nagios + Ganglia Ganglia, complément de nagios graphes système Disparition totale de Lemon trop dur à maintenir dépendances, backports CERN,… mises à jour problématiques Trop gourmand en ressources Trop dur à adapter aux nouveaux besoins

Historique - GRIF 2008-2009 : Nagios + nagiosgraph Regroupement des fonctionnalités NAGIOS+Ganglia --> Nagios Tests, compilation et mise en place (douloureuse) de nagiosgraph Dépendances RRD indisponibles dans Scientific Linux 4 Dépendances PHP indisponibles…

Architecture actuelle GRIF NRPE Check_XXX Check_YYY HOST1 LAL NRPE Check_XXX Check_YYY HOST2 LAL Routeur LAL VM 2 CPU 512 MB RAM 1 GB Ethernet HTTP Nagios IRFU Routeur IPNO Routeur LPNHE NRPE Check_XXX Check_YYY HOST1 LLR NRPE Check_XXX Check_YYY HOST2 LLR Routeur APC Routeur LLR NRPE Check_XXX Check_YYY HOST1 IRFU NRPE Check_XXX Check_YYY HOST2 IRFU web

Architecture actuelle GRIF Statistiques : 584 hôtes 8725 services actifs (34 services distincts) 27410 dépendances de service (nrpe…) Latence moyenne/max : 1.203s / 77.47s Charge de la machine virtuelle : Mémoire : 450MO (512MO physiques) CPU: 30% (2 CPU virtuels) Disque : 655MB, dont 597MB nagiosgraph (RRD) Réseau : 50kb/s en entrée, 45kb/s en sortie En 6jours : 27GB en entrée, 23 GB en sortie

Architecture actuelle GRIF Majorité de tests écris localement Un des plus utiles : filesystems qui passent read only Intégrés et déployés via RPM noarch Configuration générée et contrôlée : Base de configuration hardware « quattor » Langage de programmation descritif PAN Mise à jour NAGIOS automatique lors d’ajouts de machines Downtimes automatiques Déclarées dans une base de données grille (GOC) Récupérées par un test nagios Utilisation de downtimes « propagées » Une downtime sur un CE entraîne une downtime sur tous ses workers Complément de la logique réseau nagios

Architecture actuelle GRIF Nagios/NRPE/Nagios plugins recompilés et SPEFCILE patchés Pour autoriser déploiement sur SELinux Pour créer des comptes/groupes systèmes au lieux de comptes standard (collisions avec notre outil de déploiement) Patches envoyés sur listes nagios (mais ignorés :’( ) OS Supportés: SL4 32/64 SL5 64 Manque encore : Utilisation intelligente ET sécurisée d’event handlers Ex. : problèmes pour drainer WN, problèmes NFS temporaires Intégration de l’état SMART des disques Intégration IPMI …

Problèmes rencontrés Lenteur de l’interface web Interface downtimes Suppression multiple impossible Sélection multiple impossible # for down_id in `seq 1041 1725`; do echo "[`date +%s`] DEL_HOST_DOWNTIME;$down_id" >>/var/spool/nagios/nagios.cmd ; done Downtimes flexibles : # dt_start=`date -d "2009/11/09 16:50:00" +%s` ; dt_end=`date -d "2009/11/13 19:00:00" +%s` ; dt_long=$[$dt_end - $dt_start] ; for i in WN CE SE_DISK SE_DPM ; do echo "[`date +%s`] SCHEDULE_HOSTGROUP_HOST_DOWNTIME;$i;$dt_start;$dt_end;0;0;$dt_long;fred;reboot pour errata" >> /var/spool/nagios/nagios.cmd ; done

Problèmes rencontrés Lenteur de l’interface web Interface downtimes Suppression multiple impossible Sélection multiple impossible Commandes disponibles (cf include/common.h et cgi/cmd.c) : CMD_SCHEDULE_HOST_DOWNTIME CMD_SCHEDULE_SVC_DOWNTIME CMD_DEL_HOST_DOWNTIME CMD_DEL_SVC_DOWNTIME CMD_SCHEDULE_HOSTGROUP_HOST_DOWNTIME CMD_SCHEDULE_HOSTGROUP_SVC_DOWNTIME CMD_SCHEDULE_HOST_SVC_DOWNTIME CMD_SCHEDULE_SERVICEGROUP_HOST_DOWNTIME CMD_SCHEDULE_SERVICEGROUP_SVC_DOWNTIME CMD_SCHEDULE_AND_PROPAGATE_TRIGGERED_HOST_DOWNTIME CMD_SCHEDULE_AND_PROPAGATE_HOST_DOWNTIME # for down_id in `seq 1041 1725`; do echo "[`date +%s`] DEL_HOST_DOWNTIME;$down_id" >>/var/spool/nagios/nagios.cmd ; done # dt_start=`date -d "2009/11/09 16:50:00" +%s` ; dt_end=`date -d "2009/11/13 19:00:00" +%s` ; dt_long=$[$dt_end - $dt_start] ; for i in WN CE SE_DISK SE_DPM ; do echo "[`date +%s`] SCHEDULE_HOSTGROUP_HOST_DOWNTIME;$i;$dt_start;$dt_end;0;0;$dt_long;fred;reboot pour errata" >> /var/spool/nagios/nagios.cmd ; done

Problèmes rencontrés Salves de mails Atténuées via relations parents/enfants Mais tests réseau et/ou perte partielle de paquets… Lorsque des admins redémarrent des serveurs sans downtime Downtime électrique/réseau sur site hébergeur Pas de redondance Perte des VM (crash disks) Peu d’incidence, grâce à la config générée Temps requis !! Ecrire un (bon) test prend du temps Déterminer quoi monitorer et comment prend du temps

Avenir de Nagios dans GRIF Serveurs multiples Redondance Répartition de charge système/réseau pnp4nagios + ninja ? Nagiosgraph n’est pas « admin-friendly » Pnp4nagios utilisé dans le nagios EGEE

Conclusion Ce que permet nagios dans GRIF et la grille : (parfois) détecter des crashs imprévus Une erreur peut en cacher une autre Détecter et pérenniser les connaissances sur les erreurs que nous ne pouvons empêcher Chaque crash requiert une analyse autant éviter de renouveler ces analyses Avoir un point de vue global sur la santé de l’infrastructure Gagner du temps !!! Ce que ne permet pas Nagios La haute disponibilité