Surveillance des services grille par NAGIOS

Slides:



Advertisements
Présentations similaires
JI Les systèmes d’autorisation et d’authentification dans AMI Fabian Lambert.
Advertisements

Monitoring: état et perspectives Cette présentation fera le point sur le travail effectué au sein du groupe de travail, créé au sein de LCG-France et EGEE.
Mercredi 1er juin 2016 Panorama sur les outils de monitoring Cyril L’Orphelin David Bouvet.
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
TÂCHES D’ADMINISTRATION DE LA NAGIOSBOX BIOMED LE 24 Mai 2011, Christine Leroy,
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
08/02/2007 Site Grille : Ambitions 2007 Pierre Girard LCG-France Tier
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
INFSO-RI Enabling Grids for E-sciencE Statistiques d'usage d'un site de la grille LCG/EGEE Emmanuel Medernach, IN2P3 LPC.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Grid Service Monitoring Working Group Exemple.
Support opérationnel dans France Grilles : La suite (CTE26) 8 octobre 2013.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR-T2T3, Annecy Mai 2009Jean-Michel BARBET Subatech 1 /18 IN2P3-SUBATECH :
Facilité d'Analyse au CC-IN2P3 (LAF) Renaud Vernet Journées LCG France 22 novembre 2010.
LHC Computing Grid Évolution du T2 de l'IPHC Yannick Patois.
Présentation LabPlus v3. Solution novatrice en Technologies de l’information Solution novatrice en Technologies de l’information Application pour la Gestion.
Déploiement depuis les serveurs SLIS
29 Octobre P. 1 SNL Yvelines – projet de site Internet Projet de site internet à l’usage des membres actifs Présentation aux GLS.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Opérations : vers un modèle décentralisé...
SERVICE DEPARTEMENTAL D’INCENDIE ET DE SECOURS DES BOUCHES-DU-RHONE
LE POINT DE VUE D’UN PHARMACIEN HOSPITALIER PRATIQUANT LES VALIDATIONS
Séminaire Novembre 2006 Zephir : Déploiement et supervision des serveurs Eole.
Passage de Main SYSGRID Réunion 1
Le nœud de grille de calcul de l'IPHC dans CMS
Initiation à l’infrastructure
Réunion Opérations France Grilles – 6 juin 2017
Réalisation d'agents de surveillance Zephir
Le portail des opérations: retour d'expérience
C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 2 février 2007
Cyber-Sphinx Séance 2.
Etat des services grid de production
Point sur avancement du service de monitoring NAGIOS
Surveillance des services grille par NAGIOS
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Consolidation des services FTS et LFC
Etat des lieux des VO Boxes LHC
Initiation à l'infrastructure
Configuration FTS pour CMS
Les opérations régionales en France au quotidien après le 20 Avril
Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER
Etat actuel et perspectives des CEs
Intégration des services grid à l'exploitation
Consolidation des services de grille de production
1ers pas des utilisateurs migrés
David Bouvet LCG France T2 T3 – LPNHE
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 11 Juin- 10 Septembre Hélène CORDIER.
Jobs ATLAS sur la grille
Suzanne Poulat - Philippe Olivero
Vie et mort des comptes utilisateurs
mardi 11 septembre 2018mardi 11 septembre 2018
Atelier régulation de la production dans un contexte grille
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
GLPI Gestion libre de parc informatique Application à la cellule DSI Pédagogie Avec liaison OCS-NG Gaétan TIRMONT.
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 10 Septembre – 21 Octobre Hélène CORDIER.
Suivi Campagne Principe
Infrastructure Opérationnelle d’EGEE
Changements Finelts 2018 nouveau schémas XSD & écrans
Mésocentre de calcul et de stockage ouvert sur la grille EGEE (MUST) LAPP/ Université de Savoie / EGEE.
FORMATION SUR LE SERVICE DE DÉPANNAGE
7 Contraintes d’intégrité en SQL
FORMATION SUR LE SERVICE DE DÉPANNAGE
et de la Recherche Scientifique
Infrastructure Opérationnelle d’EGEE2
DC04 CMS Objectif Status Planning
Chaque transparent est divisé en 3 parties : 1/Vision/ But
LCG – France et ALICE Bilan 2006 Planning fevrier 2007
Workshop dCache.
CR-GR-HSE-414 Exigences HSE pour l’opération des pipelines
Transcription de la présentation:

Surveillance des services grille par NAGIOS 04/12/08 02/12/08 Surveillance des services grille par NAGIOS Nadia Lajili 1

02/12/08 Sommaire Etat actuel Perspectives

Services grille Services critiques pour le site 02/12/08 Services grille Services critiques pour le site - CE - BDII - SRM - FTS - LFC - VO box Services critiques pour le projet - VOMS (VO biomed) - LFC (VO biomed) - MON box (ROC-Fr) - TopBDII (ROC-Fr)

Traitement des alertes 02/12/08 Traitement des alertes Etape 1 Réception de l'alerte : Mail, RLSNg, Dashboard Nagios Etape 2 Identification du probléme : message d'erreur et libellé du probléme Etape 3 (wiki operations) Caractéristique du probléme : criticité, niveau d'expertise Etape 4 (wiki operations) Traitement du probléme : action corrective automatique, recette ou bien intervention de l'expert pour rétablir le service

TopBDII Sondes en production 02/12/08 TopBDII Sondes en production check_bdii Envoi une requête ldapsearch -p 2170,o=grid check_top_bdii_cluster Vérifie si les 2 machines du cluster sont UP Etats possibles OK,warning,critical Traitement critical : ce service est critique cemaster@cc

BDII Sondes en production 02/12/08 BDII Sondes en production check_bdii Envoi une requête ldapsearch -p 2170,o=grid Status OK,critical Traitement service critique contacter cemaster@cc

BDII Sondes en production 02/12/08 BDII Sondes en production check_fcr Vérifie si le site est en FCR pour LCG status OK,warning Traitement Notifier cemaster@cc et vérifier si il y a d'autres problémes sur le site (SAM tests)

BDII Sondes en production 02/12/08 BDII Sondes en production check_bdii_cluster Vérifie que les 2 machines du cluster sont UP status OK,warning,critical Traitement critical: contacter d'urgence cemaster@cc warning : notifier cemaster@cc

Computing element Sondes en production 02/12/08 Computing element Sondes en production CE_LDAP_gris Envoi une requête ldapsearch -p 2135, o=grid check_ce_gridftp Vérifie que le serveur GridFTP est fonctionnel check_ce_cert Vérifie la validite du certificat serveur

Computing Element Etats possibles OK,critical 02/12/08 Computing Element Etats possibles OK,critical Notifications : mail, dasboard Nagios,RLSNg Traitement service critique contacter cemaster@cc

Computing Element Sondes à déployer Sondes livrées avec la Nagios boxe 02/12/08 Computing Element Sondes à déployer Sondes livrées avec la Nagios boxe Sonde à la demande des experts Responsables: cemaster@cc

CRLs Sondes en production 02/12/08 CRLs Sondes en production check_certificate_revocation list Vérifie que les CRLs du site n'ont pas expiré Etats possibles OK,critical,unkown Notifications : mail,dasboard Nagios,RLSNg Traitement Si le(es) CRLs n'est pas à jour, appliquer la recette

SRM Sondes en production 02/12/08 SRM Sondes en production check_SRM-cert Vérifie la validité du certificat serveur Etats possibles OK,warning,critical selon les échéances fixées Notifications : mail,dasboard Nagios,RLSNg Traitement : Contacter dcachemaster@cc

SRM Sondes en cours de validation 02/12/08 SRM Sondes en cours de validation check_SRM-ls Lance une requête de type srm_ls check_dcap_read Tente un accés àun fichier de test par dcap check_gsidcap_read Tente l'accés àun fichier de test par gsidcap check_xrootd_read Tente l'accés à un fichier de test par dcap check_gridftp_read Tente l'accés à un fichier de test par gridftp

SRM Sondes en cours de validation 02/12/08 SRM Sondes en cours de validation Etats possibles OK,warning,critical,unknown Notifications : mail,dasboard Nagios,RLSNg Traitement Messages d'erreurs et consignes correspondantes wiki des opérations à définir avec les experts

Dcache Sondes en production 02/12/08 Dcache Sondes en production check_pool_status Vérifie si le statut des pools LCG-EGEE Etats possibles OK,warning,critical Notifications : mail,dasboard Nagios,RLSNg Traitement Possibilité de revalider l'état du pool Evaluer le niveau d'alerte – contacter les experts Si plusieurs pools off : mesure préventive

FTS Sondes a mettre en place 02/12/08 FTS Sondes a mettre en place check_FTS_cert Vérifie la validité du certificat serveur check_FTS_connection Vérifie que la connection sur les endpoints critiques réponds Responsable : ftsmaster@cc Existant : Le dashboard FTS récupére des infos utiles en BD qui pourraient être exploitées

LFC Sondes en production 02/12/08 LFC Sondes en production check_LFC_cert Vérifie que la validité du certificat serveur check_LFC_ls Vérifie que le service est disponible Responsable : lfc-master@cc

VO boxe - ATLAS Sondes en production 02/12/08 VO boxe - ATLAS Sondes en production check_gsissh Vérifie que la connection gsissh est possible par pluggin nagios « check_ssh » check_var_space Vérifie le taux d'occupation de l'espace Etats possibles OK, disk warning(80%), critical (90%) Notifications : mail,dasboard Nagios,RLSNg Traitement : contacter atlas@cc

Vo boxe - CMS Sondes en production 02/12/08 Vo boxe - CMS Sondes en production check_gsissh Vérifie que la connection est possible Etats possibles OK,critical check_var Vérifie le taux d'occupation de l'espace Check_vo Vérifie le taux d'occupation de l'espace Etats possibles OK,warning,critical selon les seuils fixés

Vo boxe - CMS Sondes en production 02/12/08 Vo boxe - CMS Sondes en production Notifications : mail,dasboard Nagios,RLSNg Traitement Contacter cms@cc

Vo boxe - CMS Sondes en production 02/12/08 Vo boxe - CMS Sondes en production check_phedex Vérifie que les instances de DEBUG et de PROD de Phedex sont en exécution Traitement - Si l'un des process manque le statut est critical - Appliquer la recette (wiki opérations)

Vo boxe - CMS Sondes à déployer 02/12/08 Vo boxe - CMS Sondes à déployer check_squid Vérifie que l'application est opérationnelle par vérification des process en cours Traitement - Si l'un des process manque le statut est critical - Contacter cc-cms@cc

VO -boxe alice Sondes en production 02/12/08 VO -boxe alice Sondes en production check_gsissh Vérifie que la connection est possible Etats possibles OK,warning,critical Notifications : mail,dasboard Nagios,RLSNg Traitement contacter cc-alice@cc

VO -boxe alice Sondes à déployer 02/12/08 VO -boxe alice Sondes à déployer check_memory_used Vérifie l'utilisation mémoire de la machine check_space_toolkit Check l'état de l'espace /afs/in2p3.fr/grid/toolkit/alice Alertes: en fonction des seuils fixés Notifications : mail,dasboard Nagios,RLSNg

Myproxy Sondes en cours de validation 02/12/08 Myproxy Sondes en cours de validation check_nrpe_nagios_proxy Vérifie le proxy a la disposition de nagios est valid OK,warning,critical check_nrpe_stored_proxy Vérifie que le proxy stocké est valide Statut : critical,warning,unknown associé à des échéances Notifications : mail,dasboard Nagios Traitement : consignes à applicable par nagiosmaster

Myproxy Sondes à déployer 02/12/08 Myproxy Sondes à déployer check_nrpe_myproxy Tester le fonctionnement de myproxy

MON boxe Surveillance actuelle Fragilité au niveau du serveur TOMCAT 02/12/08 MON boxe Surveillance actuelle Fragilité au niveau du serveur TOMCAT -> Il est redémarré toutes les 3 heures Fragilité au niveau du transport de l'information par RGMA : pas de solution http://www3.egee.cesga.es/acctenfor/ A terme... Le modéle va changer et inclure un broker pour la distribution des donées de l'accounting La surveillance sera locale à chaque site

VOMS Sondes à déployer check_tomcat Vérifie que le serveur répond 02/12/08 VOMS Sondes à déployer check_tomcat Vérifie que le serveur répond check_VOMS Vérifie que le service est disponible par l'existence de process Notifications : mail,dasboard Nagios,RLSNg Responsable : DB

NAGIOS box - Vérification du fonctionnement des sondes 02/12/08 NAGIOS box Mise en place d'une nagios box = ccnagboxli01 - Vérification du fonctionnement des sondes - Inscription en GOC DB - Redondance du service en interne - Distribution des messages vers les broker du CERN Etapes suivantes - Demande de validation du service auprés du CERN - Mise en production du service et stabilisation - Déploiement du seconde Nagios boxe en ROC-Fr - Utilisation en région pour le monitoring local

02/12/08 Link Suivi du projet https://cctools.in2p3.fr/operations/wiki/doku.php?id=docservi ces:expert:nagios:sondes_en_developpement