Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

Slides:



Advertisements
Présentations similaires
La supervision réseau L'exemple de Nagios Thierry Briche
Advertisements

23/05/2006 Résultat Final Business Consulting Services Pré-étude portant sur l'implémentation et l'organisation d'un système de gestion des connaissances.
Les outils d’intégration continue
Alain Romeyer - 15/06/20041 UMH Machines livrées le 08/04/2005 Configuration choisie (différente des autres sites) : 6 machines SUN Fire V20Z.
Novembre – Décembre 2005 Version Conclusion État de lart de la sécurité informatique Auteurs : Stéphan GUIDARINI – Consultant Senior Sébastien DESSE.
Office 365 Damien Caro Christian Fumey Cecilia Lentini
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Le monitoring réseau dans EGEE Guillaume.
KRIKORIAN Pierre HILMI Brahim
ECS activities Xavier Vilasís-Cardona Calorimeter Meeting - Xvc.
Services de production grille en France Gilles Mathieu IN2P3-CC France Grilles Frédérique Chollet IN2P3-LAPP LCG France Rencontres France Grilles et LCG-France,
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
Alice LCG Task Force Meeting 16 Oct 2008Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1/20BARBET Jean-Michel - 1/20 LCGFR Marseille Juin.
Projet LCG: Déploiement Pierre Girard EGEE/LCG ROC EGEE/LCG site deployment Centre de Calcul de l’IN2P3 LCG France Lyon, 14 décembre.
Les années passées, je consultais les représentants de chaque groupe, soit de vive voix, soit par mail Cette année, un questionnaire a été envoyé à.
Accounting régional. Status actuel Base de données node56 : – 22GiB de données – 16 sites – 3.7TiB disponibles… Tous sites sur la base de données node56.
Frédérique Chollet Yannick Patois Réunion LCG-France, Nantes 19 septembre 2012 Résultats du questionnaire DPM.
Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Contact Sécurité du ROC français R. Rumler.
EGEE-III INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks SLA, SLD, MoU et Sécurité Rolf Rumler, CC-IN2P3.
Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.
Quattor : Opérations Courantes - G. Philippon/M. Jouvin4-5/2/2009Quattor : Opérations Courantes - G. Philippon Opérations courantes.
Une nouvelle manière de visualiser le fichier de contrôle de System Automation LUDIWAC ® Helcia Conseil.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Transition vers EGEE-III (et EGI?) Pierre.
Compte rendu Journée JOSY
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Rapport du ROC France Pierre Girard French.
Transition EGEE SA1 FR vers Opérations France Grille
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks OSCT / OSCT-DC R. Rumler Lyon/Villeurbanne.
SNMP Simple Network Management Protocol
NAGIOS dans un cluster de la grille EGEE
Les bases de données Séance 8 Jointures.
LHCb DC06 status report (LHCb Week, 13/09/06) concernant le CC : –Site currently fine / stable 3% of simulatated events 30% of reconstructed events –Site.
Journées Monitoring Grille
Développement et maintenance sur le projet RefPack
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Sécurité sur le GRID Ahmed Beriache (CGG)
Mandat du Groupe -collecter les besoins des responsables des sites et de services de la région, -recenser les pratiques des sites et les outils de monitoring.
INFSO-RI Enabling Grids for E-sciencE NA4 test Eric Fede on behalf of the team.
Retour d'expérience de l'utilisation du cloud comme infrastructure de service Guillaume PHILIPPON.
Monitoring: état et perspectives Cette présentation fera le point sur le travail effectué au sein du groupe de travail, créé au sein de LCG-France et EGEE.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.
Roadmap opérations Revue fin 2013 Planification 2014 Visio opérations – décembre 2013.
Cécile Barbier David Bouvet Christine Leroy L'exploitation de la grille au quotidien.
Mardi 30 mars 2010 Technologies employées par le portail des opérations Cyril L’Orphelin, Olivier Lequeux, Pierre Veyre IN2P3/CNRS Computing Centre, Lyon,
Proposition pour un nouveau modèle d’opérations Gilles Mathieu – 8 mars 2011.
Développement des templates Quattor de gLite à EMI Guillaume PHILIPPON.
Mercredi 1er juin 2016 Panorama sur les outils de monitoring Cyril L’Orphelin David Bouvet.
Opérations France-Grilles : Etat des lieux Hélène Cordier/Gilles Mathieu LCG France, 30 Mai 2011.
CEA DSM Irfu Mises à jour de sécurité… … et la pratique F.SCHAER.
Réunion EGEE France 11/6/2004Page 1Rolf Rumler Structure de l’exploitation d’EGEE.
Configuration des sites Intérêt de la mutualisation ! Existant avec Quattor Tendance Puppet Discussion.
INFSO-RI Enabling Grids for E-sciencE Sécurité sur la Grille C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 8 octobre 2007.
EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.
Groupe de travail Monitoring LCG-France / SA1-FR Christine Leroy Pierre Girard Fabio Hernandez Frédérique Chollet.
Les Opérations dans la NGI et les outils et les procédures opérationnelles de la NGI H. Cordier Crédits : V.Dutruel, D.Fouossong, C. L’Orphelin.
Tier-2 : GRIF  CEA/IRFU  LAL  LLR  LPNHE  IPNO  APC Suivi des opérations au niveau français: quelle organisation, quels outils Hélène Cordier LCG-FR.
CAF-11/10/2010Luc1 Squad Report T1 Période 13/09-11/10 Irena, Sabine, Emmanuel.
 rechercher et coordonner l'engagement des acteurs nécessaires, Christine=> Helene,Gilles (permet de réduire les groupes de travail comme mentionné dans.
Réunion des sites LCG France- Marseille juin ACTIVITES DU GROUPE ACCOUNTING FRANCE GRILLES Cécile Barbier (LAPP)
Resource allocation: what can we learn from HPC? 20 janvier 2011 Vincent Breton Crédit: Catherine Le Louarn.
Mardi 30 mars 2010 Les Outils d'Exploitation et de Surveillance Cyril L’Orphelin, Atelier technique France Grilles, 31 Mai 2010 IN2P3/CNRS Computing Centre,
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting Mai 2009.
Session: Intégration de nouveaux sites Le point de vue du ROC Pierre Girard French EGEE ROC deputy CC-IN2P3 grid site administrator.
TÂCHES D’ADMINISTRATION DE LA NAGIOSBOX BIOMED LE 24 Mai 2011, Christine Leroy,
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
Réunion LCG France18-19 mai ACTIVITES DU GROUPE DE TRAVAIL ACCOUNTING LCG-FR / SA1-FR Cécile Barbier (LAPP)
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.
Site Monitoring -Contexte des sites Grilles EGEE &/|| LCG -Etat des sites Francais -Le groupe de travail LCG-Fr / SA1-FR monitoring et les prochaines actions.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Opérations : vers un modèle décentralisé...
Exercices: Système d’Information
Transcription de la présentation:

Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting Mai 2009

Plan 1)Contexte et rappels des problèmatiques 2)Monitoring des sites EGEE et LCG 3)Monitoring Régional: (NagiosRegional+Dashboard) 4)Interaction avec lOAT (Operation Automation Team) et évolution EGI/NGI 5)Prochaines actions

1)Contexte et rappels des problèmatiques La présentation / léchange/ la corrélation des données de monitoring restent les challenges majeurs du monitoring dune grille Liés aux operations: Qui à la charge de surveiller? Ne pas oublier les utilisateurs Solutions choisies par EGEE: Nagios + ActiveMQ Que font les autres Regions/Grilles ? Présentation des données: OSG: UWA avec netvibes ou igoogle Monitoring régionalisé/centralisée des jobs Technologies souvent utilisées: DB + XML. Peut être investigué sur eXist ( db.org/webdb.pdf)?

2)Monitoring au niveau des sites EGEE et LCG Tous les sites certifiés ont un outil de monitoring local pour surveiller leurs ressources A grains plus ou moins fins Avec ou sans actions correctrices Avec ou sans alarmes Avec ou sans graphes de performance Encore besoin déchanger dans ce domaine: création dun repository ROC-fr en cours Template quattor prêt (verrou technique/politique à lever) Visios/tutoriaux

3)Monitoring Régional: (NagiosRegional+Dashboard) Disparition des tests SAM => Installation dun Nagios Regional. Nagios Regional installé sur une machine virtuelle au CC Surveille tous les sites dépendants du ROC français Utilise les sondes développées par le projet EGEE (OAT) Utilisation de NDOutils: les résultats des sondes sont stocké dans une DB mysql. Besoin dun outil pour les opérations capable de synthétiser tous les résultats de monitoring=> Développement dun Dashboard Régional L'idée est d'avoir une vue synthétique et la possiblité de rajouter n'importe quelle source d'info (+ création de tickets - outils de contacts )

3)Nagios Regional: Linterface

3)Nagios Régional: La DB mysql mysql> select nagios_services.display_name, nagios_hosts.display_name, output from nagios_servicestatus, nagios_services, nagios_hosts where nagios_services.service_object_id=nagios_servicestatus.service_object_id and nagios_services.host_object_id=nagios_hosts.host_object_id and nagios_services.display_name like "org.bdii%" and nagios_servicestatus.last_time_critical like " %" and nagios_servicestatus.check_command like "ncg_check_native%"; | display_name | display_name | output | | org.bdii.Published | bdii.egee.fr.cgg.com | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | bdii.grif.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Freshness | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Published | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Services | grid01.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Freshness | grid07.lal.in2p3.fr | (Service Check Timed Out) | | org.bdii.Published | lyobdii.in2p3.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | nansbdii.in2p3.fr | CRITICAL: GlueServiceEndpoint=NULL | | org.bdii.Published | topbdii.cci.ucad.sn | CRITICAL: GlueServiceEndpoint=NULL | rows in set (0.03 sec) Cyril peux tu ajouter un commentaire sur le mail envoyer à lOAT concernant loptimisation de la DB?

3 ) Nagios Régional => Nagios Site: Echange de données avec ActiveMQ

3)Dashboard Régional

4)Interaction avec lOAT et évolution EGI/NGI Interaction avec lOAT LOAT semble peu intéressé par le dashboard developpé au CC Ladoption par le projet EELA va peut etre faire avancer les choses? Sinon, comment améliorer les choses? Nagios Régionale: Version définitive pour Juillet, dici la commentaires envoyés sur la version actuelle pour éviter de futur problèmes Facile à installer MAIS difficile à utiliser (beaucoup de sondes en erreurs: il faut connaitre chacune de ses sondes et les adapter) Larchitecture de la Base de donnée nest pas optimisée ….a pousuivre Evolution EGI/NGI GOC DB va perdurer. CIC aussi La NGI Française va devoir mettre en place son infrastructure de monitoring: Rédaction dun document décrivant linfrastructure de monitoring en cours, pour: formaliser les demandes de la région à ses sites (options/obligations). informer des intentions et besoins faire létat de lart dans ce domaine et justifier les solutions choisies pour cette infrastructure.

5)Prochaines actions actions achevées depuis Novembre: tutorial nagios: Template quattor pour nagios + NCG production de rpms nagios pour différentes version de SL production de rpm de sonde nagios tester nagiosgraph Installation dun nagios regional Création dun repository (à valider, ou à mettre dans Prochaines actions) Tester les échanges de données monitoring entre site et ROC via ActiveMQ (à faire avec le site GRIF la semaine prochaine) Prochaines actions: Verous à lever concernant les templates Quattor pour Nagios: 2 versions de templates à merger (Refus de la communauté Quattor davoir 2 versions de templates pour une même fonctionnalité: action à entreprendre avec le Groupe Monitoring GRIF) Bloquant pour 1 site Adapter le Nagios régional désolidariser le dashboard du CIC (En cours - Prototype pour EELA en novembre) remplacer linterface du dashboard avec les tests SAM par une interface avec les sondes nagios (du nagios régional) En cours - intégration des infos Nagios d'ici Juin Rédiger le document decrivant linfrastructure de monitoring Refaire un bilan de létat et des besoins des sites

FIN

Réf + Anciens slides :

OAT Strategy: site-level monitoring using nagios Septembre 2008 NCG (Nagios Configuration Generator): generates a nagios configuration for a grid site using GOCDB and BDII

Etat des sites Francais : homogénéité des sites? -OS: SL3/SL4 32bits/64bits OUI -installer : Yaim, quattor, Homemade tool, vendor product OUI -Fabric monitoring tools: Nagios, script, ganglia, cacti, centreon, lemon, nothing (only one site) NON/MAIS -Les sites qui nutilisent pas Nagios veulent bien lessayer au moins pour les services grille -Certains sites ont déjà utilise NCG -Network monitoring tools: mrtg, extra, cacti, nagios, cricket, homemade tool, snmp, nothing (3 sites) NON mais comment partager? -Security monitoring: firewall, snort IDS, Extra, logs, tripwire, fail2ban, jack the ripper, outils internes, centralised syslog with script, ntop, prelude, log parsing, nothing (3sites) NON mais comment partager? -external tools used to verify site and Alarms: SAM, GGUS, CIC portal alerts, gstat, appel, sync, Monalisa, AtlasDashboard, GOCdb, GridView NON mais cest le contexte actuel qui veut ca: lintegration de tous ces outils serait une bonne chose.

Etat des sites Francais : Resources grilles=resources locales ? -Same Network : Yes 36% -Same team: YES 45% -Same monitoring: Yes 55% -time to develop component in your fabric Management tools to integrate easily the monitoring part: Maybe 1 (not full time) -time to develop probes: (not full time) -maybe 1 -2 for nagios -1 for lemon -1 for bioinformatics probes -All sites Ok to integrate grid probes developed by the community -Vobox monitoring: 55% NO -publish grid probes at ROC level: 36% NO (should be 100% yes ? ) -Evolution foreseen at site: Try nagios, Adding test to nagios, update nagios to version3, migration vers nagios, evolving with nagios -issue encounter with monitoring tool: flooding s when network failure

Etat des sites Français: Conclusion Les sites Francais semblent en adéquation avec les projets EGEE et WLCG -Volonté des sites -dutiliser nagios -de garder la maîtrise de ce qui est monitoré chez eux -restreindre le nombre des outils de monitoring -Pour partager: -repository commun -documentation -training Mais la collaboration avec les projets EGEE et WLCG (OAT) pas toujours facile: -Repository ne contient pas toujours les bonnes versions. -Etics ne permet pas de faire ce quon veut -NCG pas facile à integrer avec une configuration Nagios existante -quattor: template en cours de création: les templates actuels sont trop compliqués.

le groupe de travail monitoring LCG-fr et SA1-fr Mandat: collecter les besoins des responsables des sites et de services de la région, recenser les pratiques des sites et les outils de monitoring utilisés, représenter et défendre les intérêts de la région dans les différents groupes de travail existants au sein de WLCG-EGEE sur un sujet connexe (OAT)OAT identifier les standards qui doivent être suivis ainsi que les outils pertinents à tous les niveaux (services, site et région), proposer aux responsables des sites, des services grid et de lopération régionale de la grille EGEE un ensemble d'outils répondant à leurs besoins, proposer, si besoin, des améliorations sur les outils et procédures dalertes au niveau des sites, au niveau de la région établir, sil y a lieu, un plan pour la poursuite de ses travaux au-delà de la période initiale des 6 premiers mois.