Intégration des services grid à l'exploitation 02/08/2018 02/08/2018 Intégration des services grid à l'exploitation Hélène Cordier IN2P3/CNRS Computing Centre, Lyon, France
Présentation: Modèle - Démo Bilan Sommaire But Objectifs Présentation: Modèle - Démo Bilan Documentation Mise à jour Automatisation des remontées d’erreurs Evolution court LCG-France Tier-1 & Analysis Facility -- 2008-05 02/08/2018
02/08/2018 Le but Le contexte : La mise en route du LHC et l’équipe grille devient une activité transverse Découpler les rôles des intervenants vis-à-vis des services dits grille pour recenser l’information nécessaire et utile pour leur exploitation quotidienne: Identifier les interventions récurrentes et les plus fréquentes Messages d’erreurs/Consignes d’exploitation Répertorier les actions de maintenance (s) Identifier les interventions préventives et les moyens à mettre en place. Identifier les interventions communes à tous les services en question. Intervenants: experts grille s’occupant auparavant de configuration à l’exploitation ; Intégration des services grille à la production 02/08/2018
Les services concernés 02/08/2018 Les services concernés 11/12/07 : La documentation de quelques services grille est présentée lors de la réunion d’astreinte. Depuis, l’ensemble de la documentation existante d’autres services dont le service exploitation dispose et dont il gère l’exploitation quotidienne est intégrée sous ce formalisme. Les tout premiers services « cobaye » sont FTS, CE, Monbox. Un modèle est établi et validé par les experts des services et l’exploitation. De façon générale, les experts actuels des services proposent le contenu, alors que les intervenants en charge de leur exploitation ou des personnes extérieures « valident » l’utilité, la clarté et la pertinence des informations. Information nécessaire à l’exploitation quotidienne des services grille: Wiki Operations et accès par des modèles de documents Mise à jour : A la demande et automatique Accent porté sur la structuration de l’info et non sur l’outil en tant que tel. Cobaye :FTS, MONBOX, CE, sDBII, Saphir, CIC portal Dcache en Décembre et HPSS en Mars les intervenants en charge de leur exploitation : le groupe exploitation ou lagaffe. Intégration des services grille à la production 02/08/2018
Depuis …. Services Inclus En cours À Inclure acsls Hpss BQS vobox AFS LFC SPS voms CE Monbox UI wn CIC portal Saphir Dcache SiteBdii Diva TMS FTS TSM LCG-France Tier-1 & Analysis Facility -- 2008-05 02/08/2018
La mise en forme de l’information 02/08/2018 La mise en forme de l’information Au 15/05/07 Les informations sur les services sont disponibles: Par le wiki opérations sous l’arborescence DocServices /Consignes et par le site du CC - http://cc.in2p3.fr/article1573.html http://cctools2.in2p3.fr/operations/wiki/doku.php?id=docservices:start Une fiche par service recense les labels d’erreurs ou les demandes d’intervention les plus fréquentes, liés à un service « grid-service » donné, ce qui est analogue aux « consignes ». Elle est recensée sous le terme consignes. C’est le point d’entrée à toutes les recettes existantes sur un service donné. Chacun des messages d’erreurs « pointe » sur un § de la fiche recettes associée qui recense les opérations communes/fréquentes à effectuer. http://cctools2.in2p3.fr/operations/wiki/doku.php?id=docservices:recettes:start Ces messages d’erreurs peuvent aussi pointer sur un § de la fiches expert http://cctools2.in2p3.fr/operations/wiki/doku.php?id=docservices:expert:start Intégration des services grille à la production 02/08/2018
Le modèle adopté 1 service = 3 types de fiches 1 service = 1 rédacteur/ 1 validateur/ 1 alias 1 service = dépendances gérées dynamiquement 3 niveaux : Complète, partielle, minimale 1 point d’entrée unique qui pointe sur des recettes d’exploitation/lagaffe « consignes » et « recettes » « expert » / « how-to-fix » Accès par certificat LCG-France Tier-1 & Analysis Facility -- 2008-05 02/08/2018
Demo LCG-France Tier-1 & Analysis Facility -- 2008-05 02/08/2018
Demo 02/08/2018 LCG-France Tier-1 & Analysis Facility -- 2008-05
La mise à jour Les retours de lagaffe Balise de « fix-me» pour les fiches existantes Feedback pour des remarques générales sur des services, sur le modèle de documentation à remplir sur http://cctools2.in2p3.fr/operations/wiki/doku.php?id=docservices:feedbacks Mise à jour des fiches systématique bi-hebdomadaires Balise de « fix-me » Validité des fiches de 45 à 90 jours, variables LCG-France Tier-1 & Analysis Facility -- 2008-05 02/08/2018
Bilan et retours de l’exploitation 02/08/2018 Bilan et retours de l’exploitation Accent porté sur la structuration de l’info et non sur l’outil-tant que tel. L’uniformisation et la systématisation des alias avantages et maj La systématisation des retours feedback, maj L’inventaire et la systématisation des messages d’erreurs identification des sondes à développer Retours de lagaffe : du questionnaire au feedback et balises « fix-me » http://cctools2.in2p3.fr/operations/wiki/doku.php?id=docservices:feedbacks Consignes du moment ou « News » logs de lagaffe sous afs ( wiki ?) Confusion entre l’utilisation de webrls et les mails de lagaffe Exploitation est associée au processus de construction et le retour de lagaffe LCG-France Tier-1 & Analysis Facility -- 2008-05 02/08/2018
Automatisation de la détection de certaines erreurs Début Mars 08, le système d’alerte NGOP pointe sur ces documentations. Au niveau recettes pour HPSS, Dcache, Saphir Nagios est le système préconisé : Infrastructure de test mise en place par PEB – ccgridvmli01 Guidelines pour l’écriture de sondes – en cours de validation au 15/05/08 http://cctools2.in2p3.fr/operations/wiki/doku.php?id=guide_sondes_nagios décrivant convention de nommage, le modele-type ou skeleton… Mode opératoire: Ecriture sonde – Nagiosmaster/Service master – Test de la sonde sur l’infrastructure de test – Servicemaster/Nagiosmaster- Validation fonctionnement/ paramètres de la sonde: fréquence, critères, notification – Service exploitation – Mise à jour de la documentation des services – Servicemaster et du suivi des sondes http://cctools2.in2p3.fr/operations/wiki/doku.php?id=docservices:nagios Mise en production – Nagios master – Page de suivi des sondes mise en place. LCG-France Tier-1 & Analysis Facility -- 2008-05 02/08/2018
Evolution à court terme 02/08/2018 Evolution à court terme Intégration des services nécessaires à l’exploitation: webrls, nagios, suivi de job, autres (?) Intégration des services restants: Oracle, mysql, userdb, … Scope (?) Etablissement d’une check-list d’intégration des services avec Validation par l’exploitation : Rédaction de la documentation rédacteur, validateur alias « servicemaster@cc.in2p3.fr » Inventaire des erreurs/interventions les plus fréquentes à traiter de façon réfulière Automatisation de la détection des erreurs : si possible écriture de sondes Nagios selon le mode opératoire défini précédemment et maj de la documentation Accès par cc.in2p3.fr, mise à jour de la documentation lagaffe/astreinte Détection des liens brisés – up to date LCG-France Tier-1 & Analysis Facility -- 2008-05 02/08/2018
Evolution à court terme et Nagios Pistes d’améliorations de l’outil Wiki et de la méthode: Gestion des noms des machines impliquées de façon dynamique Wiki, Nagios Gestion des dépendances des services gérées à partir d’un seul point d’entrée - Wiki Nagios Nagiosmaster/servicemaster pour l’implémentation des sondes Questions ouvertes: L’exploitation régulière des interventions globales à tous les services : La mise à jour des certificats,… Les services génériques : SI -- système d’information sbdii/ce/lfc Scope – Service exploitation /Services du Centre LCG-France Tier-1 & Analysis Facility -- 2008-05 02/08/2018
Evolution à moyen et long terme 02/08/2018 Evolution à moyen et long terme La notification Nagios est liée aux alias spécifiques définis dans les fiches Généralisation des tests Nagios dès que l’infrastructure de test, les premières sondes et les recommandations pour l’expert Nagios et les experts des services est livrée : au 15/05/08 c’est en cours. L’utilisation des modèles experts pour le stockage du savoir-faire, à des fins de formation, de traçabilité et d’urgence. Ne pas négliger l’équivalent du « how-to fix » c.a.d. le modèle « expert » comme point d’entrée. La mise à jour des experts/rédacteurs de fiche et celle déclenchée par le retour de lagaffe doit être suivi de façon régulière ainsi que le contenu. Deux sondes check_site_fcr et check_certvalid sont en test LCG-France Tier-1 & Analysis Facility -- 2008-05 02/08/2018