Session: Intégration de nouveaux sites Le point de vue du ROC Pierre Girard French EGEE ROC deputy CC-IN2P3 grid site administrator EGEE SA1 : “European Grid Support, Operation Management” Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon
Plan Intégration d’un nouveau site ©EGEE Intégration d’un nouveau site ©ROC-France Difficultés d’un nouveau site Donc, pour l’instant … Et après ? Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon 2
Intégration d’un nouveau site ©EGEE (1/3) La genèse: Déclaration dans la GOC DB –Nom du site Unique sur la grille Utilisé pour le système d’information de la grille –Identification des contacts du site Sécurité, Support, … –Déclaration des nœuds de grille du site Nécessaire pour l’administration du nœud dans l’infrastructure de Grille (« Downtime », Monitoring, etc.) –Sélection du type d’infrastructure ciblé Production, Pré-Production ou Test –Autres informations sur le site Horaires, Fuseau horaire, etc. Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon 3
Le canevas: « Service Level Agreement » –Relation entre le site et le ROC –Document « par défaut » pour les ROCs Base adaptable par les ROCs –Pré-requis d’un site pour évoluer en production Configuration minimale 1 site-BDII, 1 CE, 8 cœurs, 1 SE avec 1To, etc Support de la VO « ops » Niveaux de disponibilité(70%) et stabilité(75%) Conditions sur la réactivité du site à résoudre les problèmes Contraintes horaires, etc. Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon 4 Intégration d’un nouveau site ©EGEE (2/3)
Intégration d’un nouveau site ©EGEE (3/3) Le gros œuvre: Certification du site –Procédure spécifique à chaque ROC –Mais le même résultat est attendu d’un ROC à l’autre En conformité avec le « SLA » d’EGEE Au moins pour la partie qui est implémentée et utilisée par les opérations d’EGEE Tests SAM au vert Fiche du site dûment renseignée dans la GOC DB Publication de l’accounting… –Ce qu’il faut vérifier Le bon fonctionnement du site Infrastructure minimale Indicateurs de disponibilité et stabilité Faisable hors production La bonne gestion du site Réactivité aux incidents Réactivité aux tickets Application des procédure Difficilement vérifiable hors production Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon 5
Intégration d’un nouveau site ©ROC- France (1/3) Procédure informelle (« pas très formelle ») –Pas de « SLA » à la française Premier brouillon dans des cartons Absence justifiée (pour l’instant) par Le taux de sites français impliqués dans LCG (MoU) La fin proche d’EGEE –Reprise des grandes lignes de la procédure EGEE Adaptations/Arrangements au cas par cas Pour trouver une solution qui fonctionne avec la production d’EGEE Génère des site ©EGEE Contrainte additionnelle du ROC France –Engagement pour un minimum d’un an du site Retour sur investissement du ROC Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon 6
Intégration d’un nouveau site ©ROC- France (2/3) 1 ière étape : Discussion entre le ROC et le site candidat –Le ROC Clarifie son rôle d’intermédiaire entre le projet EGEE et le site Explique les contraintes de production Attire l’attention sur les aspects opérationnels et sécurité Fournit les grandes lignes du processus d’accession à la production ©EGEE –Le Site Décrit son projet Fournit matière à garantir son engagement (sur au moins un an) Communauté(s) d’utilisateurs « grille » Nombre d’administrateurs disponibles Participation à un projet (régional, national, international…) Accord et engagement (informels) des deux parties Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon 7
Intégration d’un nouveau site ©ROC- France (3/3) 2 ième étape: le site déploie et configure le middleware –avec l’aide du ROC (si besoin est) –peut utiliser les outils fournis par le projet pour tester son site SAM Admin's page (soumission des SAM tests) GSTAT 3 ième étape: le ROC certifie le site –Quand il est interpelé par le site –En utilisant les outils de monitoring fournis par le projet « Service Availibility Monitoring » (SAM) : sam.cern.ch:8443/sam/sam.py –Lorsque c’est ok, le ROC passe le site en production Statut du site / GOC DB: « Certifié pour la Production » Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon 8 SINON
Difficultés d’un nouveau site (1/2) Acquisition des connaissances et de l’expérience –Techniques La documentation s’améliore mais il faut savoir la trouver Les formations orientées « outils d’installation » plus que fonctionnement des nœuds de grille (cf. « le pire des cas ») Une fois installé, comment savoir si ça fonctionne ? Le ROC n’a pas toute l’expertise, ni toute la disponibilité, pour assister pleinement à lui seul les sites –Opérationnelles En évolution permanente Connexion aux bons canaux de communication Formation sur le tas et donc sur le (trop) tard Beaucoup de choses à ingurgiter nécessitant un temps de maturation important Besoin d’expérimenter, donc de s’intégrer à une infrastructure de test Multitudes de questions nécessitant un réseau de compétences « grille » Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon 9
Difficultés d’un nouveau site (2/2) Le pire des cas est peut-être un site… –Qui, rapidement, s’installe et fonctionne bien –Puis entre en production dans la foulée –Et finalement, dysfonctionne quelques temps plus tard… Ex.: suite à une mise à jour, un bug du MW, etc. Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon 10
Donc, pour l’instant L’intégration d’un nouveau site est un processus –« artisanal » Le luxe d’une relation de proximité / confiance –Contraint par le modèle de site ©EGEE (SLA) ex.: 24/24, 7/7, 365/365 –Découplé de la communauté d’utilisateurs ciblée par le site –Demandant un temps d’assimilation ex.: acronymes !! –Reposant sur la fonction d’assistance du ROC Et donc la disponibilité d’administrateurs aguerris par la production Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon 11
Et après ? Dans le cadre de la NGI –Quelle souplesse veut-on ? –Intégrer plus de sites en diversifiant l’offre de SLAs ? Le bon niveau de service d’un site n’est-il pas celui qui satisfait ses utilisateurs ? Quelle relation entre VOs, sites et SLAs ? –Comment s’en sortir si on multiplie les sites ? S’appuyer sur le concept de grille régionale pour conserver les avantages du processus d’intégration « artisanale » ? La région comme « pépinière de sites grille » ? –Si un nouveau site participe à l’émergence d’une nouvelle communauté d’utilisateurs, ne faut-il pas un accompagnement conjoint du site et des utilisateurs ? L’utilisation réelle du site stimule l’accès à un niveau de production suffisant La bonne utilisation du site valorise la grille auprès des utilisateurs –Plutôt que de certifier les sites, ne faut-il pas certifier les personnes ? Vers un permis de conduite de site grille ? Pierre Girard, Journées « Grilles France », du 14 au 16 octobre 2009, Lyon 12