Surveillance des services grille par NAGIOS 04/12/08 02/12/08 Surveillance des services grille par NAGIOS Nadia Lajili 1
02/12/08 Sommaire Nagios : Etat actuel Solutions
Nagios: Etat actuel Storage systems (dCache, Xrootd, IRODS,SRB...) 02/12/08 Nagios: Etat actuel Monitoring actuel Monitoring actuel Storage systems (dCache, Xrootd, IRODS,SRB...) File systems (AFS) Mass Storage System (HPSS) Robotique (ACSLS) Batch system Base de données (Oracle) Service interne (Saphir,TMS,DIVA) Services grille (BDII, CE, SRM ...)
Nagios: Etat actuel SRM : validité du certificat 02/12/08 Nagios: Etat actuel Monitoring grille SRM : validité du certificat CE : LDAP, GridFTP,validité du certificat BDII : LDAP, FCR Top BDII Validité des CRLs Consignes dans le wiki des opérations
Nagios: Etat actuel Surveillance minimale assurée par NAGIOS 02/12/08 Nagios: Etat actuel Monitoring grille Surveillance minimale assurée par NAGIOS Alertes CIC portal SAM tests Activité liée au COD
Solution : WLCG monitoring probes 02/12/08 Solution : WLCG monitoring probes Les sondes grilles sont exécutées par une machine dédiée Garantie d’un fonctionnement indépendant L'exécution à distance est réalisé via NRPE Utilise les sondes et de la mécanique grille WLCG Utilise un mécanisme de renouvellement de proxy fiable et fonctionnel
Solution : WLCG monitoring probes 02/12/08 Solution : WLCG monitoring probes Sondes distribuées GRAM-probe Tester la validité d'un certificat, l'authentification auprés du service, et soumet un job GridFTP-probe Cette sonde permet de tester un service GridFTP en effectuant un transfert (écriture/lecture/suppression). SRM-probe Ce module teste la validité du certificat serveur du service, accéde au service,copie,accés, destruction du fichier
Solution : WLCG monitoring probes 02/12/08 Solution : WLCG monitoring probes Sondes distribuées FTS-probe Récupére la liste des canaux ouverts LFC-probe Ecriture, Accès à une entrée puis à un répertoire dans le catalogue RGMA-probe Se connecte sur le serveur TOMCAT de la machine et récupère le statut du service MyProxy-probe Permet de tester la validité du proxy stocké sur le serveur MyProxy.
Architecture actuelle 02/12/08 Architecture actuelle NAGIOS PLATFORMS MASTER / SLAVE GRID NODE TEST node CCNAGIOS NAGIOS Master Operation Nodes NAGIOS Slave DELL PowerEdge 1950 Scientific Linux 4 Nagios 3.0.6 NRPE MyProxy cclcgproxli01 Grid services nodes UI WLCG Probe cclcgsrvli01 refresh_proxy Source M.HAUSARD
Architecture actuelle 02/12/08 Architecture actuelle Mécanisme NRPE Master UI Nagios CHECK_LFC NRPE [output] FTS NRPE: Nagios Remote Plugins Executor
En test…
Monitoring grille : solutions 02/12/08 Monitoring grille : solutions SAM tests : particularités • CE, gCE – job submission - UI->RB->CE->WN chain – version of CA certificates installed (on WN!) – version of software middleware (on WN!) – broker info - checking edg-brokerinfo command – UNIX shells environment consistency (BASH vs. CSH) – replica management tests - using lcg-utils, default SE defined on WN and a selected central
Monitoring grille : solutions 02/12/08 Monitoring grille : solutions – accessibility of experiments software directory - environment variable, directory existence – accessibility of VO tag management tools – other tests: R-GMA client check, Apel accounting records • SE, SRM – storing file from the UI - using lcg-cr command with LFC registration – getting file back to the UI - using lcg-cp command – removing file - using lcg-del command with LFC de-registration
Monitoring grille : solutions 02/12/08 Monitoring grille : solutions • GStat – site-BDIIs: accessibility (response time), sanity checks (partial Glue schema validation) – top-level BDIIs: accessibility (response time), reliability of data (number of entries)
Monitoring grille : solutions 02/12/08 Monitoring grille : solutions Stratégie de monitoring EGEE NAGIOS outil de monitoring de référence SAM base de test de référence Surveillance des sites au niveau ROC, résultats exploitables à travers le regional dashboard Surveillance au niveau RC par NAGIOS
Monitoring grille : solutions 02/12/08 Monitoring grille : solutions Stratégie de monitoring EGEE Source EGEE III
Monitoring grille : solutions 02/12/08 Monitoring grille : solutions Test run locally Test run by ROC & imported as Passive Check “-roc” added to test name Source EGEE III
Monitoring grille : solutions 02/12/08 Monitoring grille : solutions Source EGEE III
Moyens disponibles - garantie la livraison des messages 02/12/08 Moyens disponibles Mise en place d'un message broker (ActiveMQ) - garantie la livraison des messages - tunnel de communcation fiable entre les applications - notion de queue,topic pour la distribution des messages Package NAGIOS pour surveillance local d'un site : disponible - utilise NCG pour une configuration simplifiée Migration des SAM tests vers NAGIOS - wrapper de mise en exécution de tests de type SAM
Moyens disponibles Interface avec le broker de messages 02/12/08 Moyens disponibles Package NAGIOS regional disponible - NCG configure les sites à monitorer et paramètre les messages de sortie pour intégration dans NAGIOS site à travers le BUS de messages -> egee-NAGIOS - 1.0.0-26 & egee-NRPE - 1.0.0-12 released Interface avec le broker de messages - ROC level Nagios configurations and probe results are now published to the messaging system /topic/grid.probe.metricOutput.EGEE.roc.<SITE-NAME>
Procédures à mettre en place 02/12/08 Procédures à mettre en place “Minimiser l’impact des incidents sur les métiers en restaurant un service normal le plus vite possible..” Processus de gestion des incidents Identification de l’incident (NAGIOS) Enregistrement de l’incident (Xhelp) Catégorisation (Xhelp) Priorisation (Wiki opérations) Diagnostic initial (ressources, Wiki opérations) Escalate ou investigation et diagnostic Résolution et restauration du service (modéle d’incident) Clôture