Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parCamille Bibeau Modifié depuis plus de 6 années
1
Surveillance des services grille par NAGIOS
04/12/08 02/12/08 Surveillance des services grille par NAGIOS Nadia Lajili 1
2
02/12/08 Sommaire Nagios : Etat actuel Solutions
3
Nagios: Etat actuel Storage systems (dCache, Xrootd, IRODS,SRB...)
02/12/08 Nagios: Etat actuel Monitoring actuel Monitoring actuel Storage systems (dCache, Xrootd, IRODS,SRB...) File systems (AFS) Mass Storage System (HPSS) Robotique (ACSLS) Batch system Base de données (Oracle) Service interne (Saphir,TMS,DIVA) Services grille (BDII, CE, SRM ...)
4
Nagios: Etat actuel SRM : validité du certificat
02/12/08 Nagios: Etat actuel Monitoring grille SRM : validité du certificat CE : LDAP, GridFTP,validité du certificat BDII : LDAP, FCR Top BDII Validité des CRLs Consignes dans le wiki des opérations
5
Nagios: Etat actuel Surveillance minimale assurée par NAGIOS
02/12/08 Nagios: Etat actuel Monitoring grille Surveillance minimale assurée par NAGIOS Alertes CIC portal SAM tests Activité liée au COD
6
Solution : WLCG monitoring probes
02/12/08 Solution : WLCG monitoring probes Les sondes grilles sont exécutées par une machine dédiée Garantie d’un fonctionnement indépendant L'exécution à distance est réalisé via NRPE Utilise les sondes et de la mécanique grille WLCG Utilise un mécanisme de renouvellement de proxy fiable et fonctionnel
7
Solution : WLCG monitoring probes
02/12/08 Solution : WLCG monitoring probes Sondes distribuées GRAM-probe Tester la validité d'un certificat, l'authentification auprés du service, et soumet un job GridFTP-probe Cette sonde permet de tester un service GridFTP en effectuant un transfert (écriture/lecture/suppression). SRM-probe Ce module teste la validité du certificat serveur du service, accéde au service,copie,accés, destruction du fichier
8
Solution : WLCG monitoring probes
02/12/08 Solution : WLCG monitoring probes Sondes distribuées FTS-probe Récupére la liste des canaux ouverts LFC-probe Ecriture, Accès à une entrée puis à un répertoire dans le catalogue RGMA-probe Se connecte sur le serveur TOMCAT de la machine et récupère le statut du service MyProxy-probe Permet de tester la validité du proxy stocké sur le serveur MyProxy.
9
Architecture actuelle
02/12/08 Architecture actuelle NAGIOS PLATFORMS MASTER / SLAVE GRID NODE TEST node CCNAGIOS NAGIOS Master Operation Nodes NAGIOS Slave DELL PowerEdge 1950 Scientific Linux 4 Nagios 3.0.6 NRPE MyProxy cclcgproxli01 Grid services nodes UI WLCG Probe cclcgsrvli01 refresh_proxy Source M.HAUSARD
10
Architecture actuelle
02/12/08 Architecture actuelle Mécanisme NRPE Master UI Nagios CHECK_LFC NRPE [output] FTS NRPE: Nagios Remote Plugins Executor
11
En test…
12
Monitoring grille : solutions
02/12/08 Monitoring grille : solutions SAM tests : particularités • CE, gCE – job submission - UI->RB->CE->WN chain – version of CA certificates installed (on WN!) – version of software middleware (on WN!) – broker info - checking edg-brokerinfo command – UNIX shells environment consistency (BASH vs. CSH) – replica management tests - using lcg-utils, default SE defined on WN and a selected central
13
Monitoring grille : solutions
02/12/08 Monitoring grille : solutions – accessibility of experiments software directory - environment variable, directory existence – accessibility of VO tag management tools – other tests: R-GMA client check, Apel accounting records • SE, SRM – storing file from the UI - using lcg-cr command with LFC registration – getting file back to the UI - using lcg-cp command – removing file - using lcg-del command with LFC de-registration
14
Monitoring grille : solutions
02/12/08 Monitoring grille : solutions • GStat – site-BDIIs: accessibility (response time), sanity checks (partial Glue schema validation) – top-level BDIIs: accessibility (response time), reliability of data (number of entries)
15
Monitoring grille : solutions
02/12/08 Monitoring grille : solutions Stratégie de monitoring EGEE NAGIOS outil de monitoring de référence SAM base de test de référence Surveillance des sites au niveau ROC, résultats exploitables à travers le regional dashboard Surveillance au niveau RC par NAGIOS
16
Monitoring grille : solutions
02/12/08 Monitoring grille : solutions Stratégie de monitoring EGEE Source EGEE III
17
Monitoring grille : solutions
02/12/08 Monitoring grille : solutions Test run locally Test run by ROC & imported as Passive Check “-roc” added to test name Source EGEE III
18
Monitoring grille : solutions
02/12/08 Monitoring grille : solutions Source EGEE III
19
Moyens disponibles - garantie la livraison des messages
02/12/08 Moyens disponibles Mise en place d'un message broker (ActiveMQ) - garantie la livraison des messages - tunnel de communcation fiable entre les applications - notion de queue,topic pour la distribution des messages Package NAGIOS pour surveillance local d'un site : disponible - utilise NCG pour une configuration simplifiée Migration des SAM tests vers NAGIOS - wrapper de mise en exécution de tests de type SAM
20
Moyens disponibles Interface avec le broker de messages
02/12/08 Moyens disponibles Package NAGIOS regional disponible - NCG configure les sites à monitorer et paramètre les messages de sortie pour intégration dans NAGIOS site à travers le BUS de messages -> egee-NAGIOS & egee-NRPE released Interface avec le broker de messages - ROC level Nagios configurations and probe results are now published to the messaging system /topic/grid.probe.metricOutput.EGEE.roc.<SITE-NAME>
21
Procédures à mettre en place
02/12/08 Procédures à mettre en place “Minimiser l’impact des incidents sur les métiers en restaurant un service normal le plus vite possible..” Processus de gestion des incidents Identification de l’incident (NAGIOS) Enregistrement de l’incident (Xhelp) Catégorisation (Xhelp) Priorisation (Wiki opérations) Diagnostic initial (ressources, Wiki opérations) Escalate ou investigation et diagnostic Résolution et restauration du service (modéle d’incident) Clôture
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.