Colloque LCG France14-15 mars 20071 SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)

Colloque LCG France14-15 mars 20072 Plan Collecte de données pour éventuelle détection d’incidents sur systèmes/services de grille  Monitoring des ressources  Mesure de l’activité (accounting) Actions correctives  De différent type  De différente implication

Colloque LCG France14-15 mars 20073 Le monitoring : pourquoi ? Un monitoring propre à chaque site est nécessaire : pour couvrir les spécificités du site :  Infrastructure  Organisation du hardware : Commun avec le laboratoire Dédié à la grille …  Organisation du middleware : Services propres (VO locale)  Organisation propre au site : Service dédié à la grille ou non (batch local, …) pour une meilleure réactivité : agir avant qu’un problème ne soit remonté par la grille Solutions déjà existantes ou pas

Colloque LCG France14-15 mars 20074 Monitoring des ressources Destiné en priorité aux administrateurs des sites Plusieurs outils disponibles :  Lemon  Ganglia  Nagios  Cacti  Outils « constructeurs »  … Au LAPP :  Nagios, CMU (HP), Ganglia

Colloque LCG France14-15 mars 20075 Monitoring des ressources Informations présentées :  Etat global des machines / services  Configuration système : OS, CPU, mémoire … Paramètres surveillés :  Charge CPU  Utilisation mémoire, swap  Espace disque utilisé et débits d’E/S … Types d’informations :  Vues globales  Vues agrégées : services, nœuds de calcul, stockage, … Mode de fonctionnement :  Consultations à la demande (avec ou sans historique)  Remontées d’alertes automatiques (Nagios, Lemon)

Colloque LCG France14-15 mars 20076 Ganglia au LAPP Surveillance de l’activité des systèmes grille en 2 groupes :  Machines de services : UIs, CE, RB, BDII, …  Nœuds de calcul : WN001, WN002, …

Colloque LCG France14-15 mars 20077 Ganglia pour les WN Monitoring des nœuds de calcul :

Colloque LCG France14-15 mars 20078 CMU (HP) au LAPP Pour les nœuds de calcul uniquement (valeurs instantanées)

Colloque LCG France14-15 mars 20079 Accounting Complément du monitoring :  Remontée de métriques caractérisant les services du site  Permet de définir le (re-)dimensionnement des services (ajout d’un RB, d’espace de stockage, …)  Permet de connaître le comportement de certains services et d’agir en conséquence  Donne un état de l’activité du site Destiné aux administrateurs mais aussi aux utilisateurs Surveillance de l’activité :  Des services (ex : requêtes sur le RB pour voir les jobs soumis)  Du stockage (ex : status des pools de disque)  Des nœuds de calcul (ex : comportement du scheduler)  …

Colloque LCG France14-15 mars 200710 Accounting du RB au LAPP Requêtes sur le RB pour extraire des informations du type :  Liste et états des jobs du jour  Bilan des jobs pour les n jours précédents par utilisateur

Colloque LCG France14-15 mars 200711 Accounting des WN au LAPP Outil complémentaire aux outils de grille indispensable car utilisateurs locaux et utilisateurs grille Objectifs :  Visualiser la consommation des ressources de calcul  Vérifier que les priorités et la répartition des ressources sont respectées et agir en conséquence  Faire un suivi de l’utilisation du système (mensuel, annuel)

Colloque LCG France14-15 mars 200712 Accounting des WN : principe DB MySQL Dates Utilisateurs, groupes Nombre de jobs Nombre de CPUs utilisés Temps en queue Temps de calcul … Informations TORQUE/MAUI

Colloque LCG France14-15 mars 200713 Accounting des WN : exemple

Colloque LCG France14-15 mars 200714 Gestion d’incidents : actions Redémarrage d’un service Reconfiguration d’un service :  changement de taille d’un pool DPM  modification des règles du scheduler  exclusion temporaire d’une machine en panne du job manager  … Déploiement d’un nouveau service :  ajout d’un SE  ajout d’un CE  … Intervention sur le matériel :  intégration de nouveau hardware  remplacement de matériel en panne  upgrade de matériel

Colloque LCG France14-15 mars 200715 Gestion d’incidents Actions correctives en cas de détection de problème selon possibilités :  Immédiates  Programmées Types d’intervention :  Sans incidence sur la disponibilité du système ou du service (ex : suppression d’un WN, ajout d’un RB)  Avec nécessité de publier un « scheduled downtime » sur la grille (ex : migration de CE ou de SE)

Colloque LCG France14-15 mars 200716 Questions ?

Colloque LCG France14-15 mars 20071 SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)

Présentations similaires

Présentation au sujet: "Colloque LCG France14-15 mars 20071 SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Colloque LCG France14-15 mars 20071 SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)

Présentations similaires

Présentation au sujet: "Colloque LCG France14-15 mars 20071 SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back