La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Surveillance des services grille par NAGIOS

Présentations similaires


Présentation au sujet: "Surveillance des services grille par NAGIOS"— Transcription de la présentation:

1 Surveillance des services grille par NAGIOS
04/12/08 02/12/08 Surveillance des services grille par NAGIOS Nadia Lajili 1

2 02/12/08 Sommaire Nagios : Etat actuel Solutions

3 Nagios: Etat actuel Storage systems (dCache, Xrootd, IRODS,SRB...)
02/12/08 Nagios: Etat actuel Monitoring actuel Monitoring actuel Storage systems (dCache, Xrootd, IRODS,SRB...) File systems (AFS) Mass Storage System (HPSS) Robotique (ACSLS) Batch system Base de données (Oracle) Service interne (Saphir,TMS,DIVA) Services grille (BDII, CE, SRM ...)

4 Nagios: Etat actuel SRM : validité du certificat
02/12/08 Nagios: Etat actuel Monitoring grille SRM : validité du certificat CE : LDAP, GridFTP,validité du certificat BDII : LDAP, FCR Top BDII Validité des CRLs Consignes dans le wiki des opérations

5 Nagios: Etat actuel Surveillance minimale assurée par NAGIOS
02/12/08 Nagios: Etat actuel Monitoring grille Surveillance minimale assurée par NAGIOS Alertes CIC portal SAM tests Activité liée au COD

6 Solution : WLCG monitoring probes
02/12/08 Solution : WLCG monitoring probes Les sondes grilles sont exécutées par une machine dédiée Garantie d’un fonctionnement indépendant L'exécution à distance est réalisé via NRPE Utilise les sondes et de la mécanique grille WLCG Utilise un mécanisme de renouvellement de proxy fiable et fonctionnel

7 Solution : WLCG monitoring probes
02/12/08 Solution : WLCG monitoring probes Sondes distribuées GRAM-probe Tester la validité d'un certificat, l'authentification auprés du service, et soumet un job GridFTP-probe Cette sonde permet de tester un service GridFTP en effectuant un transfert (écriture/lecture/suppression). SRM-probe Ce module teste la validité du certificat serveur du service, accéde au service,copie,accés, destruction du fichier

8 Solution : WLCG monitoring probes
02/12/08 Solution : WLCG monitoring probes Sondes distribuées FTS-probe Récupére la liste des canaux ouverts LFC-probe Ecriture, Accès à une entrée puis à un répertoire dans le catalogue RGMA-probe Se connecte sur le serveur TOMCAT de la machine et récupère le statut du service MyProxy-probe Permet de tester la validité du proxy stocké sur le serveur MyProxy.

9 Architecture actuelle
02/12/08 Architecture actuelle NAGIOS PLATFORMS MASTER / SLAVE GRID NODE TEST node CCNAGIOS NAGIOS Master Operation Nodes NAGIOS Slave‏ DELL PowerEdge 1950 Scientific Linux 4 Nagios 3.0.6 NRPE MyProxy cclcgproxli01 Grid services nodes UI WLCG Probe cclcgsrvli01 refresh_proxy Source M.HAUSARD

10 Architecture actuelle
02/12/08 Architecture actuelle Mécanisme NRPE Master UI Nagios CHECK_LFC NRPE [output] FTS NRPE: Nagios Remote Plugins Executor

11 En test…

12 Monitoring grille : solutions
02/12/08 Monitoring grille : solutions SAM tests : particularités • CE, gCE – job submission - UI->RB->CE->WN chain – version of CA certificates installed (on WN!) – version of software middleware (on WN!) – broker info - checking edg-brokerinfo command – UNIX shells environment consistency (BASH vs. CSH) – replica management tests - using lcg-utils, default SE defined on WN and a selected central

13 Monitoring grille : solutions
02/12/08 Monitoring grille : solutions – accessibility of experiments software directory - environment variable, directory existence – accessibility of VO tag management tools – other tests: R-GMA client check, Apel accounting records • SE, SRM – storing file from the UI - using lcg-cr command with LFC registration – getting file back to the UI - using lcg-cp command – removing file - using lcg-del command with LFC de-registration

14 Monitoring grille : solutions
02/12/08 Monitoring grille : solutions • GStat – site-BDIIs: accessibility (response time), sanity checks (partial Glue schema validation) – top-level BDIIs: accessibility (response time), reliability of data (number of entries)

15 Monitoring grille : solutions
02/12/08 Monitoring grille : solutions Stratégie de monitoring EGEE NAGIOS outil de monitoring de référence SAM base de test de référence Surveillance des sites au niveau ROC, résultats exploitables à travers le regional dashboard Surveillance au niveau RC par NAGIOS

16 Monitoring grille : solutions
02/12/08 Monitoring grille : solutions Stratégie de monitoring EGEE Source EGEE III

17 Monitoring grille : solutions
02/12/08 Monitoring grille : solutions Test run locally Test run by ROC & imported as Passive Check “-roc” added to test name Source EGEE III

18 Monitoring grille : solutions
02/12/08 Monitoring grille : solutions Source EGEE III

19 Moyens disponibles - garantie la livraison des messages
02/12/08 Moyens disponibles Mise en place d'un message broker (ActiveMQ) - garantie la livraison des messages - tunnel de communcation fiable entre les applications - notion de queue,topic pour la distribution des messages Package NAGIOS pour surveillance local d'un site : disponible - utilise NCG pour une configuration simplifiée Migration des SAM tests vers NAGIOS - wrapper de mise en exécution de tests de type SAM

20 Moyens disponibles Interface avec le broker de messages
02/12/08 Moyens disponibles Package NAGIOS regional disponible - NCG configure les sites à monitorer et paramètre les messages de sortie pour intégration dans NAGIOS site à travers le BUS de messages -> egee-NAGIOS & egee-NRPE released Interface avec le broker de messages - ROC level Nagios configurations and probe results are now published to the messaging system /topic/grid.probe.metricOutput.EGEE.roc.<SITE-NAME>

21 Procédures à mettre en place
02/12/08 Procédures à mettre en place “Minimiser l’impact des incidents sur les métiers en restaurant un service normal le plus vite possible..” Processus de gestion des incidents Identification de l’incident (NAGIOS) Enregistrement de l’incident (Xhelp) Catégorisation (Xhelp) Priorisation (Wiki opérations) Diagnostic initial (ressources, Wiki opérations) Escalate ou investigation et diagnostic Résolution et restauration du service (modéle d’incident) Clôture


Télécharger ppt "Surveillance des services grille par NAGIOS"

Présentations similaires


Annonces Google