Modèle opérationnel de la grille David Bouvet
Regional Operation Centre : rôle Le CC est le ROC français dans EGEE. Rôle : représentation des sites d'une région assistance aux sites de la région coordination du déploiement du middleware canal de communication entre le projet et les sites gestion régionale de la sécurité monitoring régional support et suivi des problèmes certification des sites formation utilisateurs ROC doit aussi participer aux opérations de la grille : COD à l'assignation de tickets GGUS : TPM To change: View -> Header and Footer
Support et suivi des problèmes GGUS (Global Grid User Support) est le portail central d'EGEE/LCG pour soumettre des tickets (opérations, utilisateurs) : http://gus.fzk.de Tous les tickets concernant les sites français sont affectés au ROC français Xhelp est interfacé avec GGUS (Global Grid User Support) tickets pour le ROC français apparaissent dans Xhelp modifications dans GGUS <=> modifications dans Xhelp depuis 02/2009, « direct routing » : les sites sont directement notifiés d'un ticket les concernant => pas besoin d'agir dans GGUS pour que les sites soit au courant au CC, plus besoin d'être enregistré dans GGUS en tant que « support staff » pour modifier les tickets To change: View -> Header and Footer
COD → ROD/CCOD COD : monitoring journalier des sites en production 11 équipes (une par ROC) pour une rotation hebdomadaire en fait, 2 équipes en parallèle vu le grand nombre de sites. 1 fois toutes les 5 semaines EGEE III : passage au mode régional chaque ROC fournit un service de COD régional (ROD) journalier un COD central (C-COD) auprès duquel rapportent les ROD pour les problèmes qui ne sont/peuvent pas être réglés au niveau régional téléconf. mensuelle réunion trimestriel (Helsinki 16-18 juin) To change: View -> Header and Footer
ROD ROD est responsable de la détection des problèmes, de la coordination du diagnostique, et du suivi des problèmes jusqu'à leur résolution. Contact avec les instances supérieures (C-COD, WLCG Operation meeting) dans le cas de site non réactifs propagation aux sites des décisions au niveau C-COD Monitoring journalier des sites vérification que les sites prennent en compte les alarmes émanant de SAM 0<age alarme<24h : responsabilité du site ⇒ pas de ticket alarme>24h : ouverture d'un ticket si pas de downtime déclaré par le site suivi des tickets ouverts : aide, relance, escalation en accord avec les procédures définies : https://twiki.cern.ch/twiki/bin/view/EGEE/OperationalProceduresforRegionalCODAndInteractionsWithCCOD To change: View -> Header and Footer
ROD Aide au site aide passive : les sites nous contactent si besoin notepad grid-roc@cc.in2p3.fr nécessite un minimum de connaissance grille Outil dashboard régional : https://cic.gridops.org/index.php?section=roc&page=dashboard Handover chaque semaine Actuellement : Cyril et David To change: View -> Header and Footer
C-COD C-COD petite équipe chargée de coordonner/superviser les ROD représente les COD au niveau politique Au niveau du dashboard régional : Voit : les alarmes de plus de 3 jours. les tickets expirés 3 jours plutôt les tickets non résolus depuis 30 jours les sites en downtime depuis plus d'un mois responsable des tickets en « last escalation step » informe les ROD à propos de problèmes transversaux (concernant par ex. des « core services ») To change: View -> Header and Footer