La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Site Monitoring -Contexte des sites Grilles EGEE &/|| LCG -Etat des sites Francais -Le groupe de travail LCG-Fr / SA1-FR monitoring et les prochaines actions.

Présentations similaires


Présentation au sujet: "Site Monitoring -Contexte des sites Grilles EGEE &/|| LCG -Etat des sites Francais -Le groupe de travail LCG-Fr / SA1-FR monitoring et les prochaines actions."— Transcription de la présentation:

1 Site Monitoring -Contexte des sites Grilles EGEE &/|| LCG -Etat des sites Francais -Le groupe de travail LCG-Fr / SA1-FR monitoring et les prochaines actions

2 Contexte des sites Grilles EGEE &/|| LCG -EGEE3 aims at reducing the effort required to operate the infrastructure =>Operation Automation Team (OAT) -Site monitoring is one of the operationals tools that have been identified to move to a regional distributed infrastructure => Multi-level Monitoring Site-level monitoring: -Services monitored at site level -Fabric probes -Grid services probes -receiving results from external or global monitoring system Initial solution for site-level monitoring based on Nagios

3 OAT Strategy: site-level monitoring using nagios Septembre 2008 NCG (Nagios Configuration Generator): generates a nagios configuration for a grid site using GOCDB and BDII

4 Etat des sites Francais : homogénéité des sites? -OS: SL3/SL4 32bits/64bits OUI -installer : Yaim, quattor, Homemade tool, vendor product OUI -Fabric monitoring tools: Nagios, script, ganglia, cacti, centreon, lemon, nothing (only one site) NON/MAIS -Les sites qui n’utilisent pas Nagios veulent bien l’essayer au moins pour les services grille -Certains sites ont déjà utilise NCG -Network monitoring tools: mrtg, extra, cacti, nagios, cricket, homemade tool, snmp, nothing (3 sites) NON mais comment partager? -Security monitoring: firewall, snort IDS, Extra, logs, tripwire, fail2ban, jack the ripper, outils internes, centralised syslog with script, ntop, prelude, log parsing, nothing (3sites) NON mais comment partager? -external tools used to verify site and Alarms: SAM, GGUS, CIC portal alerts, gstat, appel, sync, Monalisa, AtlasDashboard, GOCdb, GridView NON mais c’est le contexte actuel qui veut ca: l’integration de tous ces outils serait une bonne chose.

5 Etat des sites Francais : Resources grilles=resources locales ? -Same Network : Yes 36% -Same team: YES 45% -Same monitoring: Yes 55% -time to develop component in your fabric Management tools to integrate easily the monitoring part: Maybe 1 (not full time) -time to develop probes: (not full time) -maybe 1 -2 for nagios -1 for lemon -1 for bioinformatics probes -All sites Ok to integrate grid probes developed by the community -Vobox monitoring: 55% NO -publish grid probes at ROC level: 36% NO (should be 100% yes ? ) -Evolution foreseen at site: Try nagios, Adding test to nagios, update nagios to version3, migration vers nagios, evolving with nagios -issue encounter with monitoring tool: flooding emails when network failure

6 Etat des sites Français: Conclusion Les sites Francais semblent en adéquation avec les projets EGEE et WLCG -Volonté des sites -d’utiliser nagios -de garder la maîtrise de ce qui est monitoré chez eux -restreindre le nombre des outils de monitoring -Pour partager: -repository commun -documentation -training Mais la collaboration avec les projets EGEE et WLCG (OAT) pas toujours facile: -Repository ne contient pas toujours les bonnes versions. -Etics ne permet pas de faire ce qu’on veut -NCG pas facile à integrer avec une configuration Nagios existante -quattor: template en cours de création: les templates actuels sont trop compliqués.

7 le groupe de travail monitoring LCG-fr et SA1-fr Mandat: collecter les besoins des responsables des sites et de services de la région, recenser les pratiques des sites et les outils de monitoring utilisés, représenter et défendre les intérêts de la région dans les différents groupes de travail existants au sein de WLCG-EGEE sur un sujet connexe (OAT)OAT identifier les standards qui doivent être suivis ainsi que les outils pertinents à tous les niveaux (services, site et région), proposer aux responsables des sites, des services grid et de l’opération régionale de la grille EGEE un ensemble d'outils répondant à leurs besoins, proposer, si besoin, des améliorations sur les outils et procédures d’alertes au niveau des sites, au niveau de la région établir, s’il y a lieu, un plan pour la poursuite de ses travaux au-delà de la période initiale des 6 premiers mois.

8 le groupe de travail monitoring LCG-fr et SA1-fr Il faut faire nos preuves: -What are the needs and concerns at your site, the LCG-France / SA1-FR monitoring WG should address? 45%: rien mais 75% de présent à la première visio! Le reste: developpement de sonde approprié, transmission d’information, mise en garde sur la non multiplication d’outils -les infos dans un wiki: http://lcg.in2p3.fr/wiki/index.php/LCG-FR_/_SA1-FR_Monitoring_WGhttp://lcg.in2p3.fr/wiki/index.php/LCG-FR_/_SA1-FR_Monitoring_WG -des réunions sur des sujets spécifiques (strategy OAT, Active MQ, Cacti) Prochaines actions a court terme: -tutorial nagios: http://indico.in2p3.fr/conferenceDisplay.py?confId=1403http://indico.in2p3.fr/conferenceDisplay.py?confId=1403 -Template quattor pour nagios + NCG -production de rpms nagios pour differentes version de SL -production de rpm de sonde nagios -tester nagiosgraph Prochaines actions a long terme: - dashboard de site ?

9 En attendant le dashboard site….


Télécharger ppt "Site Monitoring -Contexte des sites Grilles EGEE &/|| LCG -Etat des sites Francais -Le groupe de travail LCG-Fr / SA1-FR monitoring et les prochaines actions."

Présentations similaires


Annonces Google