Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parCoraline Fortier Modifié depuis plus de 8 années
1
Colloque LCG France14-15 mars 20071 SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
2
Colloque LCG France14-15 mars 20072 Plan Collecte de données pour éventuelle détection d’incidents sur systèmes/services de grille Monitoring des ressources Mesure de l’activité (accounting) Actions correctives De différent type De différente implication
3
Colloque LCG France14-15 mars 20073 Le monitoring : pourquoi ? Un monitoring propre à chaque site est nécessaire : pour couvrir les spécificités du site : Infrastructure Organisation du hardware : Commun avec le laboratoire Dédié à la grille … Organisation du middleware : Services propres (VO locale) Organisation propre au site : Service dédié à la grille ou non (batch local, …) pour une meilleure réactivité : agir avant qu’un problème ne soit remonté par la grille Solutions déjà existantes ou pas
4
Colloque LCG France14-15 mars 20074 Monitoring des ressources Destiné en priorité aux administrateurs des sites Plusieurs outils disponibles : Lemon Ganglia Nagios Cacti Outils « constructeurs » … Au LAPP : Nagios, CMU (HP), Ganglia
5
Colloque LCG France14-15 mars 20075 Monitoring des ressources Informations présentées : Etat global des machines / services Configuration système : OS, CPU, mémoire … Paramètres surveillés : Charge CPU Utilisation mémoire, swap Espace disque utilisé et débits d’E/S … Types d’informations : Vues globales Vues agrégées : services, nœuds de calcul, stockage, … Mode de fonctionnement : Consultations à la demande (avec ou sans historique) Remontées d’alertes automatiques (Nagios, Lemon)
6
Colloque LCG France14-15 mars 20076 Ganglia au LAPP Surveillance de l’activité des systèmes grille en 2 groupes : Machines de services : UIs, CE, RB, BDII, … Nœuds de calcul : WN001, WN002, …
7
Colloque LCG France14-15 mars 20077 Ganglia pour les WN Monitoring des nœuds de calcul :
8
Colloque LCG France14-15 mars 20078 CMU (HP) au LAPP Pour les nœuds de calcul uniquement (valeurs instantanées)
9
Colloque LCG France14-15 mars 20079 Accounting Complément du monitoring : Remontée de métriques caractérisant les services du site Permet de définir le (re-)dimensionnement des services (ajout d’un RB, d’espace de stockage, …) Permet de connaître le comportement de certains services et d’agir en conséquence Donne un état de l’activité du site Destiné aux administrateurs mais aussi aux utilisateurs Surveillance de l’activité : Des services (ex : requêtes sur le RB pour voir les jobs soumis) Du stockage (ex : status des pools de disque) Des nœuds de calcul (ex : comportement du scheduler) …
10
Colloque LCG France14-15 mars 200710 Accounting du RB au LAPP Requêtes sur le RB pour extraire des informations du type : Liste et états des jobs du jour Bilan des jobs pour les n jours précédents par utilisateur
11
Colloque LCG France14-15 mars 200711 Accounting des WN au LAPP Outil complémentaire aux outils de grille indispensable car utilisateurs locaux et utilisateurs grille Objectifs : Visualiser la consommation des ressources de calcul Vérifier que les priorités et la répartition des ressources sont respectées et agir en conséquence Faire un suivi de l’utilisation du système (mensuel, annuel)
12
Colloque LCG France14-15 mars 200712 Accounting des WN : principe DB MySQL Dates Utilisateurs, groupes Nombre de jobs Nombre de CPUs utilisés Temps en queue Temps de calcul … Informations TORQUE/MAUI
13
Colloque LCG France14-15 mars 200713 Accounting des WN : exemple
14
Colloque LCG France14-15 mars 200714 Gestion d’incidents : actions Redémarrage d’un service Reconfiguration d’un service : changement de taille d’un pool DPM modification des règles du scheduler exclusion temporaire d’une machine en panne du job manager … Déploiement d’un nouveau service : ajout d’un SE ajout d’un CE … Intervention sur le matériel : intégration de nouveau hardware remplacement de matériel en panne upgrade de matériel
15
Colloque LCG France14-15 mars 200715 Gestion d’incidents Actions correctives en cas de détection de problème selon possibilités : Immédiates Programmées Types d’intervention : Sans incidence sur la disponibilité du système ou du service (ex : suppression d’un WN, ajout d’un RB) Avec nécessité de publier un « scheduled downtime » sur la grille (ex : migration de CE ou de SE)
16
Colloque LCG France14-15 mars 200716 Questions ?
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.