Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parAdrien Thibodeau Modifié depuis plus de 6 années
1
Etat d'avancement des réflexions sur la plate-forme de monitoring
17/07/2018 Etat d'avancement des réflexions sur la plate-forme de monitoring Pierre-Emmanuel Brinette Pierre Girard
2
Retour sur la journée monitoring Synthèse sur nagios
PLAN Retour sur la journée monitoring Généralités (synthèse* des présentations) Synthèse sur nagios Exemple d'utilisation par d'autres sites Retour d'expérience et point de vue personnel Discussion autour de la plateforme de monitoring au CC * Copier/Coller Réflexions sur la plate-forme de monitoring 17/07/2018
3
Retour sur la journée Monitoring
JoSy "Supervision systèmes et réseaux (Open Source) dans un laboratoire de recherche" Programme et documents : 2 Présentations générale sur la supervision 2 Présentations sur nagios/Centreon Présentation de Zabbix par une SSII Présentation de Cacti Présentation de NMAP Présentation du monitoring réseau des labos IN2P3 (EXTRA) Réflexions sur la plate-forme de monitoring 17/07/2018
4
Généralités Enjeux de la supervision : Critères de choix :
Enjeux de la supervision : Vue globale de l'infrastructure informatique Détection et prévention de pannes Indicateurs sur la performance de son architecture Optimisation de la disponibilité des services Remontées d'alertes (disponibilité des services) Critères de choix : Coût important en temps d'installation Reporting indispensable Supervision avec historique : recensement des maillons faibles de l'infrastructure, permet d'améliorer l'architecture. Réflexions sur la plate-forme de monitoring 17/07/2018
5
Généralités Travail préparatoire : 2 enjeux majeurs :
Travail préparatoire : La compréhension des besoins prend plus de temps que l'installation du logiciel de supervision Création de la liste des équipements à surveiller Listing des paramètres de supervision: Services à surveiller Paramétrage des alertes associées Personnalisation des traitements 2 enjeux majeurs : Outil d'aide à la sécurité et de robustese Outils de reporting d'évènements en matière de sécurité sur les éléments actifs du réseau Outil d'aide à l'optimisation de l'exploitation Optimisation des performances Prévention des pannes Evolution du système d'information Réflexions sur la plate-forme de monitoring 17/07/2018
6
"Trop d'information tue l'information"
Généralités [page10] : "Trop d'information tue l'information" => Faire attention à la pertinence des remontées d'informations Réflexions sur la plate-forme de monitoring 17/07/2018
7
Généralités 4 phases : Collecte des données (acquisition). ciblage (ce qui sera mesuré) acquisition (comment le faire) stockage (où placer les mesures) Analyse des données recueillies. en direct (actif) en différé (passif) Action déclenchée par l’analyse. visualisation graphique (passif, pré-conditionnement) alertes (actif) réactions (actif) Pilotage (ou contrôle par l’opérateur). déclencher l’analyse (différée) renouveler mesure/analyse action sur l’objet de la mesure ou sur le système (ouverture/fermeture de ports réseaux, etc.) Réflexions sur la plate-forme de monitoring 17/07/2018
8
Nagios : Exemple d'utilisation
Exemple d'utilisation à l'Univ Rennes 1 3 serveurs en production 1 Nagios "Serveur" pour 99 Serveurs / 625 Services 1 Nagios "Proximité" (bornes libre accès, salles,…) : 30 Serveurs / 66 Services 1 Nagios ToIP : 930 équipement téléphonique. Retour d'expérience: Utilisé depuis 2002, Aucun problèmes majeurs sur les serveurs (non redondés) Nagios uniquement pour les services, le monitoring réseau est fait par d'autres outils (CACTI, HP OpenView). Eclatement en services (Serveurs, téléphonie...) : Cloisonnement des intervenants et interventions Clarté et synthèse de l'affichage Applications développées autour de Nagios : information des utilisateurs (états des ressource MAIL/WEB/…) Actuellement à l'étude pour migrer vers Centreon (Nagios + service de configuration + graph RRD ) Réflexions sur la plate-forme de monitoring 17/07/2018
9
Nagios : Exemple d'utilisation
Exemple d'utilisation au RAL Utilisé pour surveiller 900 Host / et Services Intégré à l'outil de supervision interne "Mimic" Autres exemples d'utilisateurs de Nagios Réflexions sur la plate-forme de monitoring 17/07/2018
10
Retour sur la journée monitoring Synthèse sur nagios
PLAN Retour sur la journée monitoring Généralités (synthèse* des présentations) Synthèse sur nagios Exemple d'utilisation par d'autres sites Retour d'expérience et point de vue personnel Discussion autour de la plateforme de monitoring au CC * Copier/Coller Réflexions sur la plate-forme de monitoring 17/07/2018
11
Retour d'expérience et point de vue personnel
Points positifs Produit mature et largement utilisé Système qui a fait ses preuves. Grande communauté d'utilisateurs. Documentation exhaustive. Capable de gérer un grand nombre de services simultanément. Il existe un grand nombre de sondes disponible En particulier pour le projet LCG et la grille Intégration de sondes assez facile. Il est très facile d'envoyer des données le moteur de nagios Richesse et souplesse des options de configuration On peut ajuster la quasi-totalité des paramètres S'adapte à tous les cas de figure : monitoring centralisé, distribué, passif, en utilisant ou non des agents. Réflexions sur la plate-forme de monitoring 17/07/2018
12
Retour d'expérience et point de vue personnel
Points négatifs Non adapté à certaines tâches Monitoring réseau par SNMP Interface de visualisation (Web) austère et limités: Vue par Machines / Service, par groupes de Machines/Services Vue des problèmes en cours. PAS de passibilité de gérer des ACL pour accéder à des sous parties Gestion minimale des droits d'accès à la console. L'authentification des utilisateurs est faite par le serveur web (apache). Pas d'historisation de métrique mesurée, seul les changements d'état sont sauvegardé. La configuration peu vite devenir complexe et difficile à maintenir. Il est important de bien définir les règles d'écritures des configuration, qu'elles soient stockés en fichiers ou par IHM. Réflexions sur la plate-forme de monitoring 17/07/2018
13
Retour d'expérience et point de vue personnel
A l'utilisation Outil parfait pour détecter rapidement des changement d'états sur des services. Utilisation des ressource système ridicules sur le serveur (Sur 1 an : CPU < 10% sur un X330 pour 21 machines et 66 services supervisé). La pertinence des erreurs remontés dépend directement de la "qualité" de la sonde. Il est nécessaire d'adapter la fréquence de notification des messages (au mois de février, 859 mails envoyés à grid-exploitation) Problèmes rencontrés Une erreur de syntaxe dans les configuration peut être difficile à détecter. Utilisation de sondes mal écrite problématique : Cas d'erreurs mal gérés, gestion des timeout, faux positifs…. Problème d'environnement Problèmes avec certaines bibliothèques PERL/Python (sondes WLCG) Problèmes avec l'environnement "lcg_env" Réflexions sur la plate-forme de monitoring 17/07/2018
14
Retour d'expérience et point de vue personnel
Et Centreon ? ( Projet basé sur nagios et 100 % compatible Offre un interface de configuration et de nouvelles fonctionnalités : Dashboard Génération de graphes RRD dynamiques Vue multiutilisateurs Retour d'expérience (à ma connaissance) L'IPNL a choisi ce système pour superviser son site. L'université de Rennes souhaiterais migrer vers cette solution. Inconnues Fiabilité de l'outil ? Tenue en charge ? Communauté d'utilisateurs ? Réflexions sur la plate-forme de monitoring 17/07/2018
15
Discussion autour de la plateforme de monitoring au CC
Première ébauche d'un document de définition des besoins. Liste de fonctionnalités possibles que devrait offrir le système. Liste des contraintes liés à la mise en place de ce système. But: Délimiter le périmètre d'utilisation du système Définir ce qui doit être supervisée (et ce que ca implique!) Ce document pourrait servir de base à une étude plus poussé : Quantification de la charge de travail induite pour la réalisation, plans de déploiement, … A mon avis : La mise en place d'une plateforme de supervision implique plus de travail au niveau organisationnel qu'au niveau technique. Même si l'outil retenu est identique ! Réflexions sur la plate-forme de monitoring 17/07/2018
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.