Les opérations régionales en France au quotidien après le 20 Avril Hélène Cordier Operations EGEE France 1
Contexte/Agenda Après le 20 Avril : Le ROC France met en place ses procédures opérationnelles avec le CERN et l’Italie. Le 20 Juin : fin du modèle dit “COD” Transition vers le modèle régional : 1rst line support/r-COD/c-COD établi par le projet EGEE pour la seconde année d’EGEE-III/EGI Concrètement au quotidien Le modèle Les outils Les retours Les Opérations en France Le Futur Proche Suggestions/Questions
First line support R-COD C-COD Le modèle 3 rôles COD existants : Assurés par le ROC-FR pour l’instant en liaison constante avec les sites: Les tickets seront ouverts sur des alarmes SAM pour la VO ops qui datent de plus de 24h00 et qui ne sont pas traitées/résolues Durant ce délai : Les sites peuvent communiquer avec une équipe de support : Ils doivent les solliciter (site view, ICQ…) Les tickets seront ouverts via GGUS par une équipe Fr et via la version de l’outil cod regops dashboard qui permet un suivi : regops Les sites peuvent avoir une vue de la situation sur leur site et en RO sur les autres sites du ROC-FR La procédure dite d’escalade des relances sera appliquée Certains cas de figure opérationnels sortent du périmètre national expertise surveillance vigilance T=0 First line support T=1J R-COD T=6J C-COD
First line support/R-COD La même équipe tiendra les rôles de R-COD & 1st line support pour la région France Personnel – 2 personnes de IN2P3-CC : David Bouvet et Cyril L’Orphelin Les tâches de l’astreinte 1rst line support dans les « premières 24h » – Analyse des nouvelles alarmes SAM sur le site des opérations ( CIC portal) – Contrôle des autres outils de « monitoring » (Nagios, Gstat) – Lancement de SAMAP pour vérifier que le problème est résolu – Assistance passive aux sites les modalités de l’astreinte – ~8 heures, 5 jours par semaine – une personne par jour Communication – Email (1st line + on-duty supporter mailing list) : grid-roc@in2p3.fr – « Handover » sur cette mailing liste pour assurer la communication entre shifters. – Notes dans le « regops dashboard » Partage de connaissance – Wiki page à établir.
R-COD/C-COD La même équipe tiendra les rôles de R-COD & c-COD pour la région France Personnel – 2 personnes de IN2P3-CC : David Bouvet et Cyril L’Orphelin Les tâches du r-COD – Surveillance des alarmes « anciennes » ( + de 3 jours) – Ouverture de Tickets – Procédure d’escalade des tickets : jusqu’à l’escalade au c-COD role les modalités de l’astreinte – 2 fois par jour ( matin et soir) – Une personne pour une semaine entière Communication Lecture des notes en provenance des sites et du 1rst line support dans le « dashboard regional ou regops dahboard» Contact avec les 1rst line support si nécessaire Présent derrière les mails « Handover » en utilisant le weblog Regional helpdesk – R-COD in FR will use Xoops/XHelp helpdesk which is interfaced with GGUS later on.
Les outils Le REGOPS dashboard – nouvelles fonctionnalités :
…Les outils…
…. Les outils Le Regops dashboard et la vue site: https://cic.gridops.org/index.php?section=roc&page=dashboard&subpage=federation
Les retours dans Savannah Vision des autres sites français – en production L’âge des alarmes non incrémenté le w-e – en cours Surveillance des sites en PPS – idée de requêtes…. https://savannah.cern.ch/projects/cicportal
Types de tickets : Team+ LHC Le futur proche Le schéma des moyens humains va/doit évoluer EGEE-III finit au 30 Avril 2010: Participation asymétrique des sites ? % Tickets ouverts Types de tickets : Team+ LHC Sites concernés T1/T2 January 24 67 February 57 71 March 53 86 AVG 45 75 Répartition des tickets GGUS ouverts sur le ROC-FR en Mars 2009
Le futur proche Les besoins et les recommandations en termes d’outils et procédures sont en cours d’identification. La procédure « Operational Procedure Manual » https://twiki.cern.ch/twiki/bin/view/EGEE/OperationalDo cumentation Se restructure et se complète Région Site/ROC procédure Procédure r-cod/c-cod Projet Procédure C-COD vs. Procédure COD
Suggestions / Questions un tutorial sur l’outil ouvert aux sites admins français, une présentation de l’outil/procédures aux réunions F2F SA1-FR/LCG-FR. ? Anti-spam : Abonnement (par rôle) aux notifications de downtime https://cic.gridops.org/index.php?section=rc&page=SDnotification_v2 +++ SCHEDULED vs. UNSCHEDULED https://cic.gridops.org/common/all/documents/Portal_documentation/downtime _procedure.pdf IMPORTANT