Surveillance des services grille par NAGIOS

Slides:



Advertisements
Présentations similaires
Grid France – CC In2p3 – 19/07/2001 Travaux du WP4
Advertisements

Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.
EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
INFSO-RI Enabling Grids for E-sciencE Data management Daniel Jouvenot IN2P3-LAL ORSAY - 02/02/2007.
Site Monitoring -Contexte des sites Grilles EGEE &/|| LCG -Etat des sites Francais -Le groupe de travail LCG-Fr / SA1-FR monitoring et les prochaines actions.
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
CNRS GRID-FR CA Sophie Nicoud
INFSO-RI Enabling Grids for E-sciencE Statistiques d'usage d'un site de la grille LCG/EGEE Emmanuel Medernach, IN2P3 LPC.
Lundi 11 juillet 2016 Exploitation globale de la grille Hélène Cordier Operations LCG.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Grid Service Monitoring Working Group Exemple.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR Marseille Juin 2010Jean-Michel BARBET Subatech 1 /22 Support de la VO Alice à.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR-T2T3, Annecy Mai 2009Jean-Michel BARBET Subatech 1 /18 IN2P3-SUBATECH :
Yannick Patois 1 Utilisation LCG-France Les Technical Evolution Groups et LCG-France.
INFSO-RI Enabling Grids for E-sciencE Les projets EGEE et LCG C. Loomis (LAL-Orsay) EGEE Tutorial (Marseille) 3-4 octobre 2006.
- Formation ActiveMQ 1 1.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Opérations : vers un modèle décentralisé...
Organisation pour l'Opération de demain Equipe Opération
LCG-France Tier-1 & AF Réunion mensuelle de coordination
Séminaire EOLE Beaune Septembre 2007
Fleet Management.
Journée Analyse D0, 19 janvier 2004
Bonne pratique des outils de monitoring regional
Passage de Main SYSGRID Réunion 1
Modèle opérationnel de la grille
Initiation à l’infrastructure
Réunion Opérations France Grilles – 6 juin 2017
L’accounting dans EGEE
Batterie TSE.
GENIUS – GANGA Alternative à la CLI
Le portail des opérations: retour d'expérience
Réunion Analyse D0 France au CCIN2P3 19 janvier 2004
GANGA/DIANE Mohammed AIRAJ CEA/IRFU EGEEIII/NA4
C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 2 février 2007
Etat des services grid de production
12 mars 2004, Lyon Reunion CAF F.Chollet 1
Point sur avancement du service de monitoring NAGIOS
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Consolidation des services FTS et LFC
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
David Bouvet, David Weissenbach Observatoire de Meudon, 01-02/02/2011
Initiation à l'infrastructure
Les opérations régionales en France au quotidien après le 20 Avril
Soumission de jobs C. Loomis / M. Jouvin (LAL-Orsay)
Déploiement d’un LCG CE
Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER
Statut du T2 Île de France
Intégration des services grid à l'exploitation
David Bouvet IN2P3-CC Annecy - 27/09/2007
David Bouvet LCG France T2 T3 – LPNHE
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 11 Juin- 10 Septembre Hélène CORDIER.
JJS (Java Job Submission) Soumission de jobs sur grille
Suzanne Poulat - Philippe Olivero
Tutorial Utilisateurs EGEE
mardi 11 septembre 2018mardi 11 septembre 2018
CREAM-CE et SGE.
Exercices: Système d’Information
TreqS TReqS 1.0.
Atelier régulation de la production dans un contexte grille
Architecture BD Récif.
Infrastructure Opérationnelle d’EGEE
Application par la composition de micro-services
Introduction à GENIUS et GILDA
Infrastructure Opérationnelle d’EGEE2
LUSTRE Integration to SRM
Présentation PISTE pour les partenaires raccordés en API
Transcription de la présentation:

Surveillance des services grille par NAGIOS 04/12/08 02/12/08 Surveillance des services grille par NAGIOS Nadia Lajili 1

02/12/08 Sommaire Nagios : Etat actuel Solutions

Nagios: Etat actuel Storage systems (dCache, Xrootd, IRODS,SRB...) 02/12/08 Nagios: Etat actuel Monitoring actuel Monitoring actuel Storage systems (dCache, Xrootd, IRODS,SRB...) File systems (AFS) Mass Storage System (HPSS) Robotique (ACSLS) Batch system Base de données (Oracle) Service interne (Saphir,TMS,DIVA) Services grille (BDII, CE, SRM ...)

Nagios: Etat actuel SRM : validité du certificat 02/12/08 Nagios: Etat actuel Monitoring grille SRM : validité du certificat CE : LDAP, GridFTP,validité du certificat BDII : LDAP, FCR Top BDII Validité des CRLs Consignes dans le wiki des opérations

Nagios: Etat actuel Surveillance minimale assurée par NAGIOS 02/12/08 Nagios: Etat actuel Monitoring grille Surveillance minimale assurée par NAGIOS Alertes CIC portal SAM tests Activité liée au COD

Solution : WLCG monitoring probes 02/12/08 Solution : WLCG monitoring probes Les sondes grilles sont exécutées par une machine dédiée Garantie d’un fonctionnement indépendant L'exécution à distance est réalisé via NRPE Utilise les sondes et de la mécanique grille WLCG Utilise un mécanisme de renouvellement de proxy fiable et fonctionnel

Solution : WLCG monitoring probes 02/12/08 Solution : WLCG monitoring probes Sondes distribuées GRAM-probe Tester la validité d'un certificat, l'authentification auprés du service, et soumet un job GridFTP-probe Cette sonde permet de tester un service GridFTP en effectuant un transfert (écriture/lecture/suppression). SRM-probe Ce module teste la validité du certificat serveur du service, accéde au service,copie,accés, destruction du fichier

Solution : WLCG monitoring probes 02/12/08 Solution : WLCG monitoring probes Sondes distribuées FTS-probe Récupére la liste des canaux ouverts LFC-probe Ecriture, Accès à une entrée puis à un répertoire dans le catalogue RGMA-probe Se connecte sur le serveur TOMCAT de la machine et récupère le statut du service MyProxy-probe Permet de tester la validité du proxy stocké sur le serveur MyProxy.

Architecture actuelle 02/12/08 Architecture actuelle NAGIOS PLATFORMS MASTER / SLAVE GRID NODE TEST node CCNAGIOS NAGIOS Master Operation Nodes NAGIOS Slave‏ DELL PowerEdge 1950 Scientific Linux 4 Nagios 3.0.6 NRPE MyProxy cclcgproxli01 Grid services nodes UI WLCG Probe cclcgsrvli01 refresh_proxy Source M.HAUSARD

Architecture actuelle 02/12/08 Architecture actuelle Mécanisme NRPE Master UI Nagios CHECK_LFC NRPE [output] FTS NRPE: Nagios Remote Plugins Executor

En test…

Monitoring grille : solutions 02/12/08 Monitoring grille : solutions SAM tests : particularités • CE, gCE – job submission - UI->RB->CE->WN chain – version of CA certificates installed (on WN!) – version of software middleware (on WN!) – broker info - checking edg-brokerinfo command – UNIX shells environment consistency (BASH vs. CSH) – replica management tests - using lcg-utils, default SE defined on WN and a selected central

Monitoring grille : solutions 02/12/08 Monitoring grille : solutions – accessibility of experiments software directory - environment variable, directory existence – accessibility of VO tag management tools – other tests: R-GMA client check, Apel accounting records • SE, SRM – storing file from the UI - using lcg-cr command with LFC registration – getting file back to the UI - using lcg-cp command – removing file - using lcg-del command with LFC de-registration

Monitoring grille : solutions 02/12/08 Monitoring grille : solutions • GStat – site-BDIIs: accessibility (response time), sanity checks (partial Glue schema validation) – top-level BDIIs: accessibility (response time), reliability of data (number of entries)

Monitoring grille : solutions 02/12/08 Monitoring grille : solutions Stratégie de monitoring EGEE NAGIOS outil de monitoring de référence SAM base de test de référence Surveillance des sites au niveau ROC, résultats exploitables à travers le regional dashboard Surveillance au niveau RC par NAGIOS

Monitoring grille : solutions 02/12/08 Monitoring grille : solutions Stratégie de monitoring EGEE Source EGEE III

Monitoring grille : solutions 02/12/08 Monitoring grille : solutions Test run locally Test run by ROC & imported as Passive Check “-roc” added to test name Source EGEE III

Monitoring grille : solutions 02/12/08 Monitoring grille : solutions Source EGEE III

Moyens disponibles - garantie la livraison des messages 02/12/08 Moyens disponibles Mise en place d'un message broker (ActiveMQ) - garantie la livraison des messages - tunnel de communcation fiable entre les applications - notion de queue,topic pour la distribution des messages Package NAGIOS pour surveillance local d'un site : disponible - utilise NCG pour une configuration simplifiée Migration des SAM tests vers NAGIOS - wrapper de mise en exécution de tests de type SAM

Moyens disponibles Interface avec le broker de messages 02/12/08 Moyens disponibles Package NAGIOS regional disponible - NCG configure les sites à monitorer et paramètre les messages de sortie pour intégration dans NAGIOS site à travers le BUS de messages -> egee-NAGIOS - 1.0.0-26 & egee-NRPE - 1.0.0-12 released Interface avec le broker de messages - ROC level Nagios configurations and probe results are now published to the messaging system /topic/grid.probe.metricOutput.EGEE.roc.<SITE-NAME>

Procédures à mettre en place 02/12/08 Procédures à mettre en place “Minimiser l’impact des incidents sur les métiers en restaurant un service normal le plus vite possible..” Processus de gestion des incidents Identification de l’incident (NAGIOS) Enregistrement de l’incident (Xhelp) Catégorisation (Xhelp) Priorisation (Wiki opérations) Diagnostic initial (ressources, Wiki opérations) Escalate ou investigation et diagnostic Résolution et restauration du service (modéle d’incident) Clôture