La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Intégration des services grid à l'exploitation

Présentations similaires


Présentation au sujet: "Intégration des services grid à l'exploitation"— Transcription de la présentation:

1 Intégration des services grid à l'exploitation
02/08/2018 02/08/2018 Intégration des services grid à l'exploitation Hélène Cordier IN2P3/CNRS Computing Centre, Lyon, France

2 Présentation: Modèle - Démo Bilan
Sommaire But Objectifs Présentation: Modèle - Démo Bilan Documentation Mise à jour Automatisation des remontées d’erreurs Evolution court LCG-France Tier-1 & Analysis Facility 02/08/2018

3 02/08/2018 Le but Le contexte : La mise en route du LHC et l’équipe grille devient une activité transverse Découpler les rôles des intervenants vis-à-vis des services dits grille pour recenser l’information nécessaire et utile pour leur exploitation quotidienne: Identifier les interventions récurrentes et les plus fréquentes Messages d’erreurs/Consignes d’exploitation Répertorier les actions de maintenance (s) Identifier les interventions préventives et les moyens à mettre en place. Identifier les interventions communes à tous les services en question. Intervenants: experts grille s’occupant auparavant de configuration à l’exploitation ; Intégration des services grille à la production 02/08/2018

4 Les services concernés
02/08/2018 Les services concernés 11/12/07 : La documentation de quelques services grille est présentée lors de la réunion d’astreinte. Depuis, l’ensemble de la documentation existante d’autres services dont le service exploitation dispose et dont il gère l’exploitation quotidienne est intégrée sous ce formalisme. Les tout premiers services « cobaye » sont FTS, CE, Monbox. Un modèle est établi et validé par les experts des services et l’exploitation. De façon générale, les experts actuels des services proposent le contenu, alors que les intervenants en charge de leur exploitation ou des personnes extérieures « valident » l’utilité, la clarté et la pertinence des informations. Information nécessaire à l’exploitation quotidienne des services grille: Wiki Operations et accès par des modèles de documents Mise à jour : A la demande et automatique Accent porté sur la structuration de l’info et non sur l’outil en tant que tel. Cobaye :FTS, MONBOX, CE, sDBII, Saphir, CIC portal Dcache en Décembre et HPSS en Mars les intervenants en charge de leur exploitation : le groupe exploitation ou lagaffe. Intégration des services grille à la production 02/08/2018

5 Depuis …. Services Inclus En cours À Inclure acsls Hpss BQS vobox AFS
LFC SPS voms CE Monbox UI wn CIC portal Saphir Dcache SiteBdii Diva TMS FTS TSM LCG-France Tier-1 & Analysis Facility 02/08/2018

6 La mise en forme de l’information
02/08/2018 La mise en forme de l’information Au 15/05/07 Les informations sur les services sont disponibles: Par le wiki opérations sous l’arborescence DocServices /Consignes et par le site du CC - Une fiche par service recense les labels d’erreurs ou les demandes d’intervention les plus fréquentes, liés à un service « grid-service » donné, ce qui est analogue aux « consignes ». Elle est recensée sous le terme consignes. C’est le point d’entrée à toutes les recettes existantes sur un service donné. Chacun des messages d’erreurs « pointe » sur un § de la fiche recettes associée qui  recense les opérations communes/fréquentes à effectuer. Ces messages d’erreurs peuvent aussi pointer sur un § de la fiches expert Intégration des services grille à la production 02/08/2018

7 Le modèle adopté 1 service = 3 types de fiches
1 service = 1 rédacteur/ 1 validateur/ 1 alias 1 service = dépendances gérées dynamiquement 3 niveaux : Complète, partielle, minimale 1 point d’entrée unique qui pointe sur des recettes d’exploitation/lagaffe « consignes » et « recettes » « expert » / « how-to-fix » Accès par certificat LCG-France Tier-1 & Analysis Facility 02/08/2018

8 Demo LCG-France Tier-1 & Analysis Facility 02/08/2018

9 Demo 02/08/2018 LCG-France Tier-1 & Analysis Facility -- 2008-05

10 La mise à jour Les retours de lagaffe
Balise de « fix-me» pour les fiches existantes Feedback pour des remarques générales sur des services, sur le modèle de documentation à remplir sur Mise à jour des fiches systématique bi-hebdomadaires Balise de « fix-me » Validité des fiches de 45 à 90 jours, variables LCG-France Tier-1 & Analysis Facility 02/08/2018

11 Bilan et retours de l’exploitation
02/08/2018 Bilan et retours de l’exploitation Accent porté sur la structuration de l’info et non sur l’outil-tant que tel. L’uniformisation et la systématisation des alias  avantages et maj La systématisation des retours  feedback, maj L’inventaire et la systématisation des messages d’erreurs  identification des sondes à développer Retours de lagaffe : du questionnaire au feedback et balises « fix-me » Consignes du moment ou « News » logs de lagaffe sous afs ( wiki ?) Confusion entre l’utilisation de webrls et les mails de lagaffe Exploitation est associée au processus de construction et le retour de lagaffe LCG-France Tier-1 & Analysis Facility 02/08/2018

12 Automatisation de la détection de certaines erreurs
Début Mars 08, le système d’alerte NGOP pointe sur ces documentations. Au niveau recettes pour HPSS, Dcache, Saphir  Nagios est le système préconisé : Infrastructure de test mise en place par PEB – ccgridvmli01 Guidelines pour l’écriture de sondes – en cours de validation au 15/05/08 décrivant convention de nommage, le modele-type ou skeleton… Mode opératoire: Ecriture sonde – Nagiosmaster/Service master – Test de la sonde sur l’infrastructure de test – Servicemaster/Nagiosmaster- Validation fonctionnement/ paramètres de la sonde: fréquence, critères, notification – Service exploitation – Mise à jour de la documentation des services – Servicemaster et du suivi des sondes Mise en production – Nagios master – Page de suivi des sondes mise en place. LCG-France Tier-1 & Analysis Facility 02/08/2018

13 Evolution à court terme
02/08/2018 Evolution à court terme Intégration des services nécessaires à l’exploitation: webrls, nagios, suivi de job, autres (?) Intégration des services restants: Oracle, mysql, userdb, … Scope (?) Etablissement d’une check-list d’intégration des services avec Validation par l’exploitation : Rédaction de la documentation  rédacteur, validateur alias Inventaire des erreurs/interventions les plus fréquentes à traiter de façon réfulière Automatisation de la détection des erreurs : si possible écriture de sondes Nagios selon le mode opératoire défini précédemment et maj de la documentation Accès par cc.in2p3.fr, mise à jour de la documentation lagaffe/astreinte Détection des liens brisés – up to date LCG-France Tier-1 & Analysis Facility 02/08/2018

14 Evolution à court terme et Nagios
Pistes d’améliorations de l’outil Wiki et de la méthode: Gestion des noms des machines impliquées de façon dynamique Wiki, Nagios Gestion des dépendances des services gérées à partir d’un seul point d’entrée - Wiki Nagios Nagiosmaster/servicemaster pour l’implémentation des sondes Questions ouvertes: L’exploitation régulière des interventions globales à tous les services : La mise à jour des certificats,… Les services génériques : SI -- système d’information sbdii/ce/lfc Scope – Service exploitation /Services du Centre LCG-France Tier-1 & Analysis Facility 02/08/2018

15 Evolution à moyen et long terme
02/08/2018 Evolution à moyen et long terme La notification Nagios est liée aux alias spécifiques définis dans les fiches  Généralisation des tests Nagios dès que l’infrastructure de test, les premières sondes et les recommandations pour l’expert Nagios et les experts des services est livrée : au 15/05/08 c’est en cours. L’utilisation des modèles experts pour le stockage du savoir-faire, à des fins de formation, de traçabilité et d’urgence. Ne pas négliger l’équivalent du « how-to fix » c.a.d. le modèle « expert » comme point d’entrée. La mise à jour des experts/rédacteurs de fiche et celle déclenchée par le retour de lagaffe doit être suivi de façon régulière ainsi que le contenu. Deux sondes check_site_fcr et check_certvalid sont en test LCG-France Tier-1 & Analysis Facility 02/08/2018


Télécharger ppt "Intégration des services grid à l'exploitation"

Présentations similaires


Annonces Google