Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
Colloque LCG France14-15 mars Plan Collecte de données pour éventuelle détection d’incidents sur systèmes/services de grille Monitoring des ressources Mesure de l’activité (accounting) Actions correctives De différent type De différente implication
Colloque LCG France14-15 mars Le monitoring : pourquoi ? Un monitoring propre à chaque site est nécessaire : pour couvrir les spécificités du site : Infrastructure Organisation du hardware : Commun avec le laboratoire Dédié à la grille … Organisation du middleware : Services propres (VO locale) Organisation propre au site : Service dédié à la grille ou non (batch local, …) pour une meilleure réactivité : agir avant qu’un problème ne soit remonté par la grille Solutions déjà existantes ou pas
Colloque LCG France14-15 mars Monitoring des ressources Destiné en priorité aux administrateurs des sites Plusieurs outils disponibles : Lemon Ganglia Nagios Cacti Outils « constructeurs » … Au LAPP : Nagios, CMU (HP), Ganglia
Colloque LCG France14-15 mars Monitoring des ressources Informations présentées : Etat global des machines / services Configuration système : OS, CPU, mémoire … Paramètres surveillés : Charge CPU Utilisation mémoire, swap Espace disque utilisé et débits d’E/S … Types d’informations : Vues globales Vues agrégées : services, nœuds de calcul, stockage, … Mode de fonctionnement : Consultations à la demande (avec ou sans historique) Remontées d’alertes automatiques (Nagios, Lemon)
Colloque LCG France14-15 mars Ganglia au LAPP Surveillance de l’activité des systèmes grille en 2 groupes : Machines de services : UIs, CE, RB, BDII, … Nœuds de calcul : WN001, WN002, …
Colloque LCG France14-15 mars Ganglia pour les WN Monitoring des nœuds de calcul :
Colloque LCG France14-15 mars CMU (HP) au LAPP Pour les nœuds de calcul uniquement (valeurs instantanées)
Colloque LCG France14-15 mars Accounting Complément du monitoring : Remontée de métriques caractérisant les services du site Permet de définir le (re-)dimensionnement des services (ajout d’un RB, d’espace de stockage, …) Permet de connaître le comportement de certains services et d’agir en conséquence Donne un état de l’activité du site Destiné aux administrateurs mais aussi aux utilisateurs Surveillance de l’activité : Des services (ex : requêtes sur le RB pour voir les jobs soumis) Du stockage (ex : status des pools de disque) Des nœuds de calcul (ex : comportement du scheduler) …
Colloque LCG France14-15 mars Accounting du RB au LAPP Requêtes sur le RB pour extraire des informations du type : Liste et états des jobs du jour Bilan des jobs pour les n jours précédents par utilisateur
Colloque LCG France14-15 mars Accounting des WN au LAPP Outil complémentaire aux outils de grille indispensable car utilisateurs locaux et utilisateurs grille Objectifs : Visualiser la consommation des ressources de calcul Vérifier que les priorités et la répartition des ressources sont respectées et agir en conséquence Faire un suivi de l’utilisation du système (mensuel, annuel)
Colloque LCG France14-15 mars Accounting des WN : principe DB MySQL Dates Utilisateurs, groupes Nombre de jobs Nombre de CPUs utilisés Temps en queue Temps de calcul … Informations TORQUE/MAUI
Colloque LCG France14-15 mars Accounting des WN : exemple
Colloque LCG France14-15 mars Gestion d’incidents : actions Redémarrage d’un service Reconfiguration d’un service : changement de taille d’un pool DPM modification des règles du scheduler exclusion temporaire d’une machine en panne du job manager … Déploiement d’un nouveau service : ajout d’un SE ajout d’un CE … Intervention sur le matériel : intégration de nouveau hardware remplacement de matériel en panne upgrade de matériel
Colloque LCG France14-15 mars Gestion d’incidents Actions correctives en cas de détection de problème selon possibilités : Immédiates Programmées Types d’intervention : Sans incidence sur la disponibilité du système ou du service (ex : suppression d’un WN, ajout d’un RB) Avec nécessité de publier un « scheduled downtime » sur la grille (ex : migration de CE ou de SE)
Colloque LCG France14-15 mars Questions ?