Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

Slides:



Advertisements
Présentations similaires
Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting Mai 2009.
Advertisements

Alice LCG Task Force Meeting 16 Oct 2008Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1/20BARBET Jean-Michel - 1/20 LCGFR Marseille Juin.
Accounting régional. Status actuel Base de données node56 : – 22GiB de données – 16 sites – 3.7TiB disponibles… Tous sites sur la base de données node56.
Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Transition vers EGEE-III (et EGI?) Pierre.
Transition EGEE SA1 FR vers Opérations France Grille
Mandat du Groupe -collecter les besoins des responsables des sites et de services de la région, -recenser les pratiques des sites et les outils de monitoring.
RÉNOVATION BTS Comptabilité et Gestion 2015 Atelier situations professionnelles & PGI Cas Jupiter Média Chantal Bricard Jean-Marie Duplan.
Espace collaboratif du CODEV Blog, WIKI, Forum: c’est quoi?  Blog - Publication périodique et régulière d’articles La vocation d’un Blog est d'être un.
1 Comment préparer un plan Document No. 2.1 Gestion des activités conjointes de lutte contre la tuberculose et le VIH: cours de formation pour responsables.
JI Les systèmes d’autorisation et d’authentification dans AMI Fabian Lambert.
F. Montel et S. Chollot - Rénovation STG FORMATION J2 CGRH 01/2006 Le projet peut mettre en œuvre la démarche de résolution de problème Le projet est obligatoirement.
Rôles et missions de l’AIS pour le développement économique de la région Réunion de travail du 17 mars 2016.
Présentation de Warehouse Un logiciel distribué exclusivement par Brain2tech SARL.
Monitoring: état et perspectives Cette présentation fera le point sur le travail effectué au sein du groupe de travail, créé au sein de LCG-France et EGEE.
Stratégie nationale du DEVELOPPEMENT DURABLE DU SPORT (SNDDS) Mission Sport et Développement Durable (SDD)
U6 : Parcours de professionnalisation Dimitri SANDRON Portfolio : dimitrisandron.fr Lundi 23 Mai 2016 – Lycée « La Martinière Duchère » - Lyon.
Opérations courantes Guillaume PHILIPPON. Sommaire Mise à jour des QWG Gestion des utilisateurs Ajout/Suppression d’un programme Préparation des « OS.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.
PARCOURS DE Professionnalisation
Un outil de communication : la liste de diffusion Mis à jour en juillet 2008 Anne Maincent-Bourdalé CRDoc IUT Paul Sabatier.
Cécile Barbier David Bouvet Christine Leroy L'exploitation de la grille au quotidien.
Projet Personnel (Epreuve 6) Projet réalisé dans le cadre de mon épreuve E6 au sein de mon alternance au conseil départemental du val de marne Arnaud PICANO.
Migration Plan adressage EPLE Migration Plan d'adressage EPLE.
Mardi 30 mars 2010 Technologies employées par le portail des opérations Cyril L’Orphelin, Olivier Lequeux, Pierre Veyre IN2P3/CNRS Computing Centre, Lyon,
Les méthodes de tests Les grands principes pour réaliser des tests efficaces.
Formation « Administrateur ATRIUM ». 1.Un accompagnement technique par la Région Formation des « administrateurs » Support technique Evolution des fonctions.
© 2016 IBM Corporation 1 IBM Datacap Nouveautés de la version 9 Stéphane Montri ECM Technical Sales
QUASAR QUAlité des Services informatiques pour les AsR.
Développement des templates Quattor de gLite à EMI Guillaume PHILIPPON.
Un projet collaboratif « de Clou à Clou » L'ENT au service de la pédagogie de la culture / faire vivre une artothèque par l'ENT Projet cofinancé par l'Union.
STRATEGIE GOUVERNEMENTALE DE DEVELOPPEMENT DES ACTIVITES PORTUAIRES Par SOULE TAIROU Adam.
D’un atelier à l’autre…. Les problématiques identifiées et les domaines d’actions proposés lors de l’atelier du 5 novembre 2013 ont permis la construction.
Utilisation de Quattor par GRIF Michel Jouvin LAL/Orsay
Mercredi 1er juin 2016 Panorama sur les outils de monitoring Cyril L’Orphelin David Bouvet.
Opérations France-Grilles : Etat des lieux Hélène Cordier/Gilles Mathieu LCG France, 30 Mai 2011.
La création des données d’exemplaire pour un responsable de Centre Régional.
INDICO. Usage Centralisé au CC pour tout l’IN2P3 Remplace Agenda Maker (CDS agenda) Fermeture de Agenda Maker le 10 décembre (reste en mode consultation)
Projet LCG: Infrastructure opérationnelle Pierre Girard EGEE/LCG ROC deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3
Réunion EGEE France 11/6/2004Page 1Rolf Rumler Structure de l’exploitation d’EGEE.
Supervision EC-Net AX Serveurs Web EC-BOS AX. ARCHITECTURE Les solutions EC-Net AX EC-Net AX Supervisor EC-Net AX EnerVue EC-Net AX Security  EC-Net.
Session « Pôle Infrastructure » Pierre Girard CC-IN2P3 ATELIER France-Grilles au CC-IN2P3 12 octobre 2010.
Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue
On the analysis of CMMN expressiveness: revisiting workflow patterns Renata Carvalho Hafedh Mili.
INFSO-RI Enabling Grids for E-sciencE Sécurité sur la Grille C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 8 octobre 2007.
Groupe de travail Monitoring LCG-France / SA1-FR Christine Leroy Pierre Girard Fabio Hernandez Frédérique Chollet.
#ConventionCRiP De la supervision du SI LMG à l’IT Performance Management Patrick BERTHOLON Responsable exploitation et solutions techniques DSIP/Opérations.
Les Opérations dans la NGI et les outils et les procédures opérationnelles de la NGI H. Cordier Crédits : V.Dutruel, D.Fouossong, C. L’Orphelin.
 rechercher et coordonner l'engagement des acteurs nécessaires, Christine=> Helene,Gilles (permet de réduire les groupes de travail comme mentionné dans.
Réunion des sites LCG France- Marseille juin ACTIVITES DU GROUPE ACCOUNTING FRANCE GRILLES Cécile Barbier (LAPP)
Mardi 30 mars 2010 Les Outils d'Exploitation et de Surveillance Cyril L’Orphelin, Atelier technique France Grilles, 31 Mai 2010 IN2P3/CNRS Computing Centre,
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
Chapitre 9 Gestion des maîtres d'opérations
Cadre Interopérabilité Européen les 27 IHE profils pour les marchés publics oOo Karima bourquard, IN-SYSTEM IHE France cochair 24 mai 2016.
INSCRIPTIONS SPORTIVES
EGEE induction course, 22/03/2005 INFSO-RI Enabling Grids for E-sciencE Infrastructure Overview Pierre Girard French ROC deputy.
Université Ferhat Abbas –Sétif 1 Centre des Systèmes et Réseaux d’Information Et de Communication, de Télé-enseignement et D’Enseignement à Distance Rapport.
TÂCHES D’ADMINISTRATION DE LA NAGIOSBOX BIOMED LE 24 Mai 2011, Christine Leroy,
ONEMA/DCIEGPA du 17/10/ Interopérabilité Web de la toile Eaufrance GVI mai 2015.
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
Réunion LCG France18-19 mai ACTIVITES DU GROUPE DE TRAVAIL ACCOUNTING LCG-FR / SA1-FR Cécile Barbier (LAPP)
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
Etude de cas P ROFESSEUR :D R S ÉLI APEDOME P ROFESSEUR :D R S ÉLI APEDOME INTRODUCTION A LA GESTION DES AFFAIRES ADM1700 A.
AQPC juin TYPO3 un outil adapté pour soutenir les enseignants dans la production de sites web de cours au Cégep de Sainte-Foy.
Eric Fede : Obernai Intégration des services grille dans l'exploitation des systèmes informatiques du laboratoire.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.
Site Monitoring -Contexte des sites Grilles EGEE &/|| LCG -Etat des sites Francais -Le groupe de travail LCG-Fr / SA1-FR monitoring et les prochaines actions.
CREAM & ICE Réunion SA1-France 11 mars 2008
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Opérations : vers un modèle décentralisé...
Infrastructure Opérationnelle d’EGEE2
Transcription de la présentation:

Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting Mai 2009

Plan 1) Contexte et rappels des problèmatiques 2) Monitoring des sites EGEE et LCG 3) Monitoring Régional: (Nagios Regional+Dashboard) 4) Interaction avec l’OAT (Operation Automation Team) et évolution EGI/NGI 5) Prochaines actions

1) Contexte et rappels des problématiques La présentation / l’échange/ la corrélation des données de monitoring restent les challenges majeurs du monitoring d’une grille  Liés aux opérations: Qui à la charge de surveiller?  Ne pas oublier les utilisateurs  Solutions choisies par EGEE:  Nagios: site monitoring; regional monitoring; gStat; and project and regional Metric Stores  MSG (Messaging System for Grids) :  ActiveMQ (Messaging System)  WLCG Format (Format des données)  Django (Django, a python based development framework, is used in the Metric Description DB, Aggregated Topology Provider, Worker Node configuration system, Metric Results Store and the WLCG Topology Provider) La gestion de l'infrastructure de monitoring sous jacente ainsi que l'interopérabilité sont aussi des challenges - nos serveurs de messagerie Français seront-ils interopérables avec les serveurs d'autres NGI? - Combien de serveurs mettra-t-on en France, qui les gèrera ?

1) Contexte et rappels des problématiques  Que font les autres Régions/Grilles ? Présentation des données: OSG: UWA ( Unified Widget API ) avec netvibes ou igoogle Monitoring régionalisé/centralisée des jobs

2) Monitoring au niveau des sites EGEE/LCG Tous les sites certifiés ont un outil de monitoring local pour surveiller leurs ressources A grains plus ou moins fins Avec ou sans actions correctrices Avec ou sans alarmes Avec ou sans graphes de performance  Encore besoin d’échanger dans ce domaine:  création d’un repository ROC-fr en cours  Template quattor prêt (verrou technique/politique à lever)  Visios/Formations

3) Monitoring Régional: Nagios Regional + Dashboard Disparition des tests SAM => Installation d’un Nagios Regional. Nagios Regional installé sur une machine virtuelle au CC Surveille tous les sites dépendants du ROC français Utilise les sondes développées par le projet EGEE (OAT) Utilisation de NDOutils: les résultats des sondes sont stocké dans une DB mysql. Besoin d’un outil pour les opérations capable de synthétiser tous les résultats de monitoring=> Développement d’un Dashboard Régional L'idée est d'avoir une vue synthétique et la possiblité de rajouter n'importe quelle source d'info (+ création de tickets - outils de contacts )

3) Nagios Régional: L’interface

3) Nagios Régional: La DB mysql mysql> select nagios_services.display_name, nagios_hosts.display_name, output from nagios_servicestatus, nagios_services, nagios_hosts where nagios_services.service_object_id=nagios_servicestatus.service_object_id and nagios_services.host_object_id=nagios_hosts.host_object_id and nagios_services.display_name like "org.bdii%" and nagios_servicestatus.last_time_critical like " %" and nagios_servicestatus.check_command like "ncg_check_native%"; | display_name | display_name | output | | org.bdii.Published | bdii.egee.fr.cgg.com | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | bdii.grif.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Freshness | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Published | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Services | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Freshness | grid07.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Published | lyobdii.in2p3.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | nansbdii.in2p3.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | topbdii.cci.ucad.sn | CRITICAL: GlueServiceEndpoint=NULL | rows in set (0.03 sec) La base de données actuelle contient environ 60 tables. La description et le lien entre les tables n’est pas claire. En gros l’exploitation des données de ces tables n’est pas facile. Une nouvelle base de donnée va être mise en place par l’OAT pour favoriser l’exploitation des résultats et prendre éventuellement en compte la criticité des tests contenue dans une autre base ( base des metrics ).

3 ) Nagios Régional => Nagios Site: Echange de données avec ActiveMQ L’infrastructure d’échange de message est en production connecting... CONNECTED session: ID:gridmsg001.cern.ch :432 MESSAGE expires: 0 ack: auto timestamp: destination: /topic/test_msg_basic_example priority: 0 message-id: ID:gridmsg001.cern.ch :433:-1:1:1 hello LCG T2 T3 audience! 0 Le lien entre 2 instances Nagios via MSG est en cours d’implementation (Emir Imamagic)

Site Name Alarms Ticket Downtime GOC DB link GStat Status Network trouble 3) Dashboard Régional LHC specific tests

3) Dashboard Régional

Principales nouveautés : - L’age des alarmes pour les opérateurs n’augmente pas pendant le week end - le notepad a été amélioré et permet un dialogue par mail entre le site et le ROC - on peut limiter la vue aux sites ayant des problémes (alarme ou ticket) - on peut afficher les alarmes en fonction de leur âge ( 72) Pour avoir une meilleure idée des différentes fonctionnalités : owto.pdf

4) Interaction avec l’OAT et évolution EGI/NGI Interaction avec l’OAT L’OAT semble peu intéressé par le dashboard développé au CC L’adoption par le projet EELA va peut être faire avancer les choses? Sinon, comment améliorer les choses? Nagios Régionale: Version définitive pour Juillet, d’ici la commentaires envoyés sur la version actuelle pour éviter de futur problèmes Facile à installer MAIS difficile à utiliser (beaucoup de sondes en erreurs: il faut connaitre chacune de ses sondes et les adapter) L’architecture de la Base de donnée n’est pas optimisée ….a pousuivre Evolution EGI/NGI GOC DB va perdurer. Operations Portal (CIC) aussi La NGI Française va devoir mettre en place son infrastructure de monitoring: Rédaction d’un document décrivant l’infrastructure de monitoring en cours (par le groupe monitoring), pour: formaliser les demandes de la région à ses sites (options/obligations). informer des intentions et besoins faire l’état de l’art dans ce domaine et justifier les solutions choisies pour cette infrastructure.

5) Prochaines actions Actions achevées depuis Novembre: tutorial nagios: Template quattor pour nagios + NCG production de rpms nagios pour différentes version de SL production de rpm de sonde nagios tester nagiosgraph Installation d’un nagios regional Prochaines actions: Verrous à lever concernant les templates Quattor pour Nagios: 2 versions de templates à merger (Refus de la communauté Quattor d’avoir 2 versions de templates pour une même fonctionnalité: action à entreprendre avec le Groupe Monitoring GRIF) Bloquant pour 1 site Adapter le Nagios régional désolidariser le dashboard du CIC (En cours - Prototype pour EELA en novembre) remplacer l’interface du dashboard avec les tests SAM par une interface avec les sondes nagios (du nagios régional) En cours - intégration des infos Nagios d'ici Juin Rédiger le document décrivant l’infrastructure de monitoring Refaire un bilan de l’état et des besoins des sites Création d’un repository Tester les échanges de données monitoring entre site et ROC via ActiveMQ

FIN Lien utile Groupe Monitoring: FR_/_SA1-FR_Monitoring_WGhttp://lcg.in2p3.fr/wiki/index.php/LCG- FR_/_SA1-FR_Monitoring_WG Wiki OAT:

le groupe de travail monitoring LCG-fr et SA1-fr Mandat: collecter les besoins des responsables des sites et de services de la région, recenser les pratiques des sites et les outils de monitoring utilisés, représenter et défendre les intérêts de la région dans les différents groupes de travail existants au sein de WLCG-EGEE sur un sujet connexe (OAT)OAT identifier les standards qui doivent être suivis ainsi que les outils pertinents à tous les niveaux (services, site et région), proposer aux responsables des sites, des services grid et de l’opération régionale de la grille EGEE un ensemble d'outils répondant à leurs besoins, proposer, si besoin, des améliorations sur les outils et procédures d’alertes au niveau des sites, au niveau de la région établir, s’il y a lieu, un plan pour la poursuite de ses travaux au-delà de la période initiale des 6 premiers mois.