Tier-2 : GRIF CEA/IRFU LAL LLR LPNHE IPNO APC Suivi des opérations au niveau français: quelle organisation, quels outils Hélène Cordier LCG-FR Grenoble, 28 Novembre 2008 Courtesy : F Chollet
LCG-FR 28 Novembre 2008 H.Cordier 2 / 29 Sommaire Le contexte actuel Le fil rouge La précision Les opérations de l’infrastructure de production au quotidien: L’activité opérationnelle du réseau Les outils communs aux opérations EGEE/LCG Les groupes de travail LCG-EGEE Le modèle opérationnel actuel et à venir dans EGEE Le suivi des opérations LCG/EGEE Le suivi opérationnel du ROC-FR en Octobre Discussion – Identification des besoins en France Thématique/use-cases
LCG-FR 28 Novembre 2008 H.Cordier 3 / 29 Le contexte : les sites Français LCG La majorité des sites supporte aussi d’autres VOs, incluant les VOs officielles EGEE comme biomed ( * ) et des utilisateurs locaux. Courtesy : F Chollet AliceAtlasCMSLHCb T1 CC-IN2P3* llll Tier-2 AF Lyon* llll GRIF (Paris Region)* llll LAPP (Annecy) l l LPC (Clermont)* ll l Subatech (Nantes) l Tier-3 CPPM (Marseille)* l l IPHC (Strasbourg) l l IPNL (Lyon) l l LPSC (Grenoble) ll La cartographie des services LCG-France : les informations dynamiques publiées par les sites sur les VOs sont disponibles dans
LCG-FR 28 Novembre 2008 H.Cordier 4 / 29 Le contexte: disponibilité T2-T3 FR SeuilDisponibilitéFiabilité EGEE70% (1) 75% (1) LCG95-99% (3) 90% (2) (1)Seuils prévu par EGEE (2)Métriques mensuelles/gridview (3)LCG MoU selon le site et le service considéré
LCG-FR 28 Novembre 2008 H.Cordier 5 / 29 Le contexte: circuit de l’information EGEE/LCG et ce qui est spécifique LCG VO/sites LCGFédérations/sites EGEE Daily meeting ( 08/2008) ilyMeetingsWeek Métriques hebdomadaires – disponibilité, fiabilité – présentées au “WLCG Management Board” + analyse post-mortem des incidents Mêmes métriques envoyés aux fédérations mensuellement. Incidents récurrents présentés aux réunions coordination bimensuelles. GDB mensuel CCRC’08, WLCG workshops…. SA1 F2Fcoordination meetings EGEE conférences, USER Fora WLCG-OSG-EGEE Operations Meeting hebdomadaire:
LCG-FR 28 Novembre 2008 H.Cordier 6 / 29 Le fil rouge EGEE-III se terminera en Mai Les sites LCG comptent pour ¾ des sites EGEE. La réduction d’effectifs interviendra alors que les sites supportent des VOs non LHC en plus des VOs LHC. En Mai 2010: le financement des opérations pourrait être basé sur une «infrastructure pérenne » de NGI /IdG couplé ou non avec une coordination internationale EGI. En 2009: Phase d’identification des procédures utiles et outils « automatisables »pour mettre en place « l’infrastructure pérenne » au niveau national. Le couplage des projets nous amène donc en partie à puiser en priorité dans ce qui existe pour La mise en place de procédures et d’outils adéquats pour les spécificités LCG pour faire face à la prise de données du LHC en Mai Shave the yack
LCG-FR 28 Novembre 2008 H.Cordier 7 / 29 La précision Les opérations dans EGEE sont en fin de circuit: Développement du middleware, packaging centralisé et application des procédures de certification, via déploiement sur des sites de pré- production puis sur les sites de production. Les opérations dans EGEE s’entendent au sens de l’infrastructure, c’est-à- dire au sens du suivi du réseau et surtout du suivi des ressources et services dits « génériques »: Gestion des alarmes suite à une suite de tests dits critiques sur les sites pour la VO « OPS ».
LCG-FR 28 Novembre 2008 H.Cordier 8 / 29 L’activité opérationnelle du réseau et ce qui est spécifique LCG Monitoring des sites développé par EGEE centralisé DownCollector - Mise à disposition des sites de l'information homogène sur l'état des réseaux. Pas de gestion nationale indispensable des opérations réseaux en France. La gestion locale existe déjà et RENATER est mono-domaine. Procédures et des outils pour le LHCOPN Les opérations du LHCOPN sont distribuées sur les outils au T0/T1. Le système de ticket réseau est centralisé dans GGUS.
LCG-FR 28 Novembre 2008 H.Cordier 9 / 29 Les outils communs aux opérations et ce qui est spécifique LCG Les mesures de disponibilité/fiabilité pour les opérations EGEE-LCG sont basées sur: les résultats d’un ensemble de tests critiques génériques sur l’ensemble des sites. Qui traduisent l’existence: des procédures opérationnelles mises en place pour les sites, les fédérations et les opérateurs. de la surveillance des opérateurs de la grille ou COD, et d’une équipe en charge des incidents de sécurité Les outils spécifiques de suivi des opérations incluant des outils de communication / broadcast et notification de «downtimes» La précision : l’exploitation des tests critiques spécifiques aux VOs n’entre pas dans cette partie de la présentation
LCG-FR 28 Novembre 2008 H.Cordier 10 / 29 Plate-forme des opérations 21/06/ Integration Tools User Support & Ticketing system Monitoring tools Communication tools Information on sites Information on VOs Regional Center Site User Operator SAM/ NAGIOS G-stat GGUS BROADCAST Operations Portal cic.gridops.org CIC DBGOC DB
LCG-FR 28 Novembre 2008 H.Cordier 11 / 29 Les opérations se basent sur: La collecte des pledges et les MoU pour une analyse « postmortem » Elaboration de Service Level Agreements - SLA - en cours Les opérations utilisent: Les outils d’accounting APEL/CESGA Portal Les outils de reporting GGUS Les opérations génèrent : rapports hebdomadaires sites /ROC et VO ( métriques (Gridview/Accounting et GGUS) des réunions pour le suivi « au quotidien », des groupes de travail pour l’évolution des procédures/outils Les outils communs et ce qui est spécifique LCG
LCG-FR 28 Novembre 2008 H.Cordier 12 / 29 Les Groupes de Travail EGEE/LCG et ce qui est spécifique LCG VO/sites LCGFédérations/sites EGEE Les requêtes GGUS - réunions mensuelles - USAG GOCDB Advisory Group - réunion bimensuelle Monitoring infrastructure/SAM Automatisation des outils de monitoring - OAT Quattor – QWG Les interventions liées à la sécurité - OSCT Reporting basé sur Gridview: disponibilité et fiabilité Tableaux de bords spécifiques aux VOs Tableaux de bord Surveillance infrastructure Operateurs de la grille - réunions trimestrielles - COD
LCG-FR 28 Novembre 2008 H.Cordier 13 / 29 COD: CIC-on-duty ou opérateurs de la grille Organisation 11 équipes, distribution sur les fédérations Astreinte 8/5 Le rôle L’astreinte se produit toutes les 5/6 semaines 2 équipes en binôme sont en charge de tous les sites en production d’EGEE. Chacune s’occupe de 5/6 fédérations. Le tour d’après, chaque équipe s’occupe de l’autre moitié. Les devoirs du COD Diagnostiquer les nouvelles alarmes en provenance des SAM tests de la VO OPS pour éventuellement ouvrir un ticket GGUS sur le site. Relancer ou appliquer une procédure d’escalation des GGUS tickets déjà ouverts selon les procédures opérationnelles en vigueur. L’activité opérationnelle quotidienne des opérateurs de la grille 2008
LCG-FR 28 Novembre 2008 H.Cordier 14 / 29 Evolution du rôle des opérateurs vers le support régional en 2009 COD actuel Support régional + C-COD Support régional = R-COD +1rst line support Organisation 1 équipe par fédération de « support régional » 8/5 Le rôle L’équipe sera d’astreinte tous les jours mais s’occupera de 15 sites au lieu de la moitié des sites en production. Les devoirs du support régional Diagnostiquer les nouvelles alarmes et aider le site au plus vite dans les 24h mission du 1rst line support Ouvrir un ticket GGUS et appliquer une procédure d’escalation des GGUS tickets déjà ouverts mission du R-COD Assigner les tickets directement à l’instance C-COD mission du R- COD
LCG-FR 28 Novembre 2008 H.Cordier 15 / 29 Le suivi des opérations EGEE/LCG et ce qui est spécifique LCG VO/sites LCGFédérations/sites EGEE Experiment shifts Régionalisation du modèle sur 2009 Team TicketsGGUS release prochainement Alarm Tickets Operateurs de tri de tickets premier niveau qui devraient disparaître rapidement GGUS Savannah GGUS Grid Operator shifts (COD)
LCG-FR 28 Novembre 2008 H.Cordier 16 / 29 Un cliché du suivi des opérations de l’infrastructure française Répartition des tickets GGUS créés sur Octobre 2008 pour le « ROC-FR »
LCG-FR 28 Novembre 2008 H.Cordier 17 / 29 L’évolution du suivi opérationnel global 1/2 Granularité site: L’activité GGUS sera diffusée avec une granularité « site » de façon automatique en récupérant la liste des sites dans la GOCDB. Surveillance et Escalade: Surveillée par les COD/ROC régional support/ROC Alarm et Team: « Alarm » : transferts T0-T1 et « Team » : shifters (Atlas/LHCB) Les tickets de type « team » vont atteindre les T2 prochainement et surtout seront utilisables par tous les utilisateurs. Alarm et Team tickets ont une définition qui pourrait être élargie dans le futur suivant l’utilisation des VOs.
LCG-FR 28 Novembre 2008 H.Cordier 18 / 29 L’évolution du modèle opérationnel en France 2/2 Le suivi des tickets en France par les sites peut s’effectuer selon certains scénarios: Avertis par mail, ils pourront suivre directement dans GGUS Si des sites choisissent d’installer un helpdesk – les scénarios suivants sont à considérer: suivre dans une instance locale qui pourra être interfacée à GGUS … pas considéré pour l’instant par GGUS… suivre dans une instance locale connectée à un système de helpdesk national interfacé avec GGUS ou au système de tickets du T1 lui-même connecté à GGUS. Selon le positionnement global de LCG-FR vis-à-vis du suivi des tickets, des besoins identifiés de procédure d’escalade, de métriques, de nombre d’unités de support spécifiques au sens GGUS - expertise grille, expertise VO- le scénario sera différent. Discussion
LCG-FR 28 Novembre 2008 H.Cordier 19 / 29 Remerciements Torsten Antoni, Catherine Biscarrat, David Bouvet, Jean-Claude Chevaleyre, Frédérique Chollet, Guillaume Cessieux, Pierre Girard, Fabio Hernandez, Ghita Rahal, Rolf Rumler.
LCG-FR 28 Novembre 2008 H.Cordier 20 / 29 Liens utiles Proposition support réseau pour EGI: Les procédures en place dans EGEE-III: Les procédures opérationnelles: Le portail des opérations: Le modèle régional: La mise en place de Service Level Agreement: Scheduled downtimes Announcements
LCG-FR 28 Novembre 2008 H.Cordier 21 / 29 DISCUSSION THEMATIQUE identifier les use-cases actuels illustrant les besoins dans les thèmes suivants: Le suivi quotidien des opérations Déploiement, monitoring site, métriques Le support /VO Formation, Configuration site, Incident site, transfert de données L’interaction avec les VOs Interaction avec le modèle des opérations VO Mise en place du système de tickets Helpdesk Le circuit de l’information communication afin de déterminer les outils nécessaires? -Quel est le niveau de coordination requis au niveau national ? -Quelles seraient les fonctionnalités du portail des opérations utiles à la communauté nationale ?
LCG-FR 28 Novembre 2008 H.Cordier 22 / 29 Les différents aspects des opérations1/5 Middleware Développement : « centralisé » géré par (LCG) Certification du packaging centralisé et test du déploiement sur PPS distribué Sécurité : CERN vers régions – coordination - distribué Déploiement : CERN vers régions (EGEE) ou Tier 1 (LCG) et Tier2s. Surveillance sur les sites Monitoring infrastructure WLCG-SA1 Monitoring group VO shifters/ T1-T2 VO contacts – (communauté LCG) VO Dashboard – (communauté LCG) Collecte de métriques de disponibilité et de fiabilité des sites : centralisée GOCDB, SAM/Nagios, Gridview --- GGUS Métriques d’utilisation des ressources - Gestion centralisée Portail CESGA Comparaison automatique des pledges publiées par les sites, des ressources installées et des données d’accounting (communauté LCG) WLCG-SA1 Accounting working group ○Outils de publication locaux pour comparaison avec portail CESGA ?
LCG-FR 28 Novembre 2008 H.Cordier 23 / 29 Support Type de problèmes Formation grille user/site-admin (EGEE) Utilisation application LCG ○Support par expert VO Configuration/Test de site pour des services ou ressources VO (LCG-FR) ○Le site en attente de configuration (Mailing listes/Mail privé) Incident site ○Le site a un problème avec un job (mail privé/mailing liste) ATLAS /CMS ○Le job a un problème avec le site (mail privé/mailing liste) ATLAS/CMS Les différents aspects des opérations 2/5
LCG-FR 28 Novembre 2008 H.Cordier 24 / 29 Les différents aspects des opérations 3/6 Support ( suite) Type de problèmes Transfert/stockage – Qui suit les opérations ○Vérification d’arrivée des données CMS – Phedex vs. ATLAS T0-T1: Savannah CMS shifters –> T1 VO contacts vs. GGUS T1-T2: Savannah CMS shifters– échanges T1/T2 VO contacts vs.GGUS ○Incidents de transfert – CMS | ATLAS T0-T1 mails internes avant de fermer les tickets T1-T2 mails internes avant de fermer les tickets
LCG-FR 28 Novembre 2008 H.Cordier 25 / 29 Interaction avec les opérations de chacune des 4 expériences:: Inventaire des services de VO disponibles sur les sites Distribution ressources VO Diffusion de requêtes au site par les VOs ○Ticket Annonces de VOs pour configuration des sites (EGEE) Broadcast, VO ID Card Demande(s) d’info(s) des sites sur les opérations des VOs Mails S.Jézequel,réunions T2/T3 ATLAS ou Mails C.Charlot, mailings lists CMS ○VO ID Card pour LCG-FR ou ticket Les différents aspects des opérations 4/6
LCG-FR 28 Novembre 2008 H.Cordier 26 / 29 Mécanisme de gestion des tickets au niveau national Scénario de suivi de ticket à l’international Tous les sites ne pourront pas mettre an place et opérer un mécanisme de gestion de tickets Etablissement d’unités de support – VO, expertise grille Les différents aspects des opérations 5/6
LCG-FR 28 Novembre 2008 H.Cordier 27 / 29 Les différents aspects des opérations 6/6 Plate-forme d’intégration de communication dans la communauté Comment annoncer une interruption de service « critique » en France (T1 ou non) Comment faire le suivi de ces incidents ? Réunions régulières globales: Exploitation globale de WLCG (communauté LCG) gestion centralisée – quotidienne/ hebdomadaire Sites/VO bimensuelles ou mensuelles en France : SA1/FR, LCG Tier2/Tier3 ○Exploitation de rapports des sites
LCG-FR 28 Novembre 2008 H.Cordier 28 / 29 Quel doit être le niveau de coordination de LCG-FR ? Exploitation nationale des sites – (ROC≠T1) Déploiement Fr Gérer PPS – Proposer un Inventaires des bugs mutualisé - redondance des services critiques VOs WMS Alice (topBdii). Informations opérationnelles des VOs Sécurité Formation user Suivi du cycle de vie du site, inc les interruptions de service – centralisée : GOCDB Modèle d’opérations en cours de nationalisation - EGEE Procédures opérationnelle Outils GOCDB, GGUS ou ticket, BD d’alarmes, Communication, Plate–forme d’intégration Equipes : Support technique sites Helpdesk national -support des sites SU des VOs. Rapports pour les sites et VOs –EGEE
LCG-FR 28 Novembre 2008 H.Cordier 29 / 29 Utilisation du portail des opérations cic.gridops.org par LCG ou EGEE Interaction VO-sites Utilisation des VO ID Cards infos de configuration Consultation des ressources publiées par les sites/VO Annonces globales par outil de broadcast Souscription au mécanisme de downtimes [sr ] Interaction sites-VO Utilisation des VO ID Cards contacts selon le modèle des VOs Gestion des sites Système de souscription aux alertes SAM Mécanisme de traçage des utilisateurs – user tracking Interaction VO-coordination (LCG-FR ou communauté LCG) Rapports pour les sites et pour les VOs Nombre d’utilisateurs – Liste des VOs opérationnelles Interaction Sites-coordination (communauté LCG-FR ou communauté LCG) Outil de gestion des procédures de surveillance nationale.