Atelier régulation de la production dans un contexte grille

Slides:



Advertisements
Présentations similaires
ATLAS Ghita Rahal CC-IN2P3 Novembre 9, /6/2006Réunion CAF2 Activités Création et externalisation d’outils de monitoring de l’état du T1 (CPU,
Advertisements

Mardi 30 mars 2010 Technologies employées par le portail des opérations Cyril L’Orphelin, Olivier Lequeux, Pierre Veyre IN2P3/CNRS Computing Centre, Lyon,
Catalogues de fichiers de données. David Bouvet2 Problématique Possibilité de répliquer les fichiers sur divers SE  nécessité d’un catalogue de fichiers.
Mercredi 1er juin 2016 Panorama sur les outils de monitoring Cyril L’Orphelin David Bouvet.
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
08/02/2007 Site Grille : Ambitions 2007 Pierre Girard LCG-France Tier
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Evènements Opérations Octobre : Vision, Buts, Logistique, Participation et Cibles H. Cordier.
Nombre de job slot par machine Server_priv/node. Node1 np=2 Règle de 1 core = 1 job slot = 2 Go. Sur un bi-processeur bi-core on annonce alors np=4 Pas.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
INFSO-RI Enabling Grids for E-sciencE Statistiques d'usage d'un site de la grille LCG/EGEE Emmanuel Medernach, IN2P3 LPC.
Rapport d’activité APIM – 2015/2016
Utilisation de PostgreSQL
Organisation pour l'Opération de demain Equipe Opération
Folders Access Manager Capacte
Sécurisation de l’accès Internet
Cahier des charges Hôpital Avicenne.
Passage de Main SYSGRID Réunion 1
Opérations France Grilles - structure et fonctions
Modèle opérationnel de la grille
Centralisation de logs
L’accounting dans EGEE
Le portail des opérations: retour d'expérience
Atelier Opérations 29 Novembre - INRA - Bordeaux
Réunion Analyse D0 France au CCIN2P3 19 janvier 2004
PROTEOMIQUE.
C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 2 février 2007
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
GRIF : Grille pour la Recherche en
Etat des services grid de production
Point sur avancement du service de monitoring NAGIOS
Surveillance des services grille par NAGIOS
Intégration de BQS dans CREAM
Pierre Girard LCG-France Tier
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Consolidation des services FTS et LFC
QUASAR QUAlité des Services informatiques pour les AsR
Activités présentes et à venir
Contexte de l’enquête Groupe de travail IN2P3 MAQ (Management Qualité) : Un chargé de mission Qualité IN2P3 (Christian Olivetto) +25 personnes (ing. qualité,
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
2ème coloque LCG-France
Les opérations régionales en France au quotidien après le 20 Avril
Déploiement d’un LCG CE
Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER
Réunion coordination WLCG Lyon, le 13 mars 2008
Statut du T2 Île de France
Intégration des services grid à l'exploitation
Consolidation des services de grille de production
LCG-France Tier-1 & AF Réunion mensuelle de coordination
David Bouvet LCG France T2 T3 – LPNHE
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 11 Juin- 10 Septembre Hélène CORDIER.
JJS (Java Job Submission) Soumission de jobs sur grille
Jobs ATLAS sur la grille
Suzanne Poulat - Philippe Olivero
Synthèse problèmes rencontrés par les expériences LHC au CC-IN2P3
CREAM-CE et SGE.
Les centres d’analyse: introduction
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 10 Septembre – 21 Octobre Hélène CORDIER.
Infrastructure Opérationnelle d’EGEE
Club Utilisateur BO Session du 21/11/2017.
Infrastructure Opérationnelle d’EGEE2
DC04 CMS Objectif Status Planning
Chaque transparent est divisé en 3 parties : 1/Vision/ But
LCG – France et ALICE Bilan 2006 Planning fevrier 2007
Résumé des Actions Suite aux Réunions CB et MB
Présentation Supervision WERMA 07/05/ Sommaire 1)Description du système WERMA 2)Description du logiciel WERMA WIN 3)Actions à venir 07/05/2019.
2.5. La réorientation des prospects Textes de référence Exigence de la norme AFNOR NF X §3.2 « c) Assurer un accueil physique et/ou téléphonique.
Transcription de la présentation:

Atelier régulation de la production dans un contexte grille mercredi 12 septembre 2018mercredi 12 septembre 2018 Suivi des jobs grille Atelier régulation de la production dans un contexte grille

Sommaire Monitoring au CC Outils de suivi des jobs Outils de tracabilité Actions entreprises Problèmes rencontrés Questions Suivi de jobs grille - Nadia LAJILI 22/03/2007

Monitoring au CC État global de la production Vision graphique globale de l’état des lieux (services, état de la production) : OVAX Scripts d’interrogation de l’état du batch Étude statistique de la production en temps réel : MRTG État des machines : SMURF Outil de logging interne au CC : Web RLS Outils de monitoring : NAGIOS (grille), NGOP Autres outils de monitoring du projet : Gstat, CIC dashboard, SAM test Dashboard ARDA décrit l’état du site pour toutes les VOs LHC Suivi de jobs grille - Nadia LAJILI 22/03/2007

Monitoring au CC : OVAX Vision graphique globale de l’état des lieux (services, état de la production) Suivi de jobs grille - Nadia LAJILI 22/03/2007

Monitoring au CC : MRTG Étude statistique de la production en temps réel Vert : CMSF grid running jobs at CC-IN2P3 Bleu :  All CMSF running jobs at CC-IN2P3 Orange : ((CMSF grid running jobs at CC-IN2P3)/(All CMSF running jobs at CC-IN2P3))*100 Suivi de jobs grille - Nadia LAJILI 22/03/2007

Monitoring au CC : SMURF (état des machines) Suivi de jobs grille - Nadia LAJILI 22/03/2007

Outil de Monitoring : WebRLS Suivi de jobs grille - Nadia LAJILI 22/03/2007

Monitoring au CC : NAGIOS Suivi de jobs grille - Nadia LAJILI 22/03/2007

Monitoring LHC : ARDA Suivi de jobs grille - Nadia LAJILI 22/03/2007

Outils de suivi des jobs Outils de détection des jobs problématiques Jobs « slow » : rapport entre la consommation CPU et le temps de résidence en machine d’un job Jobs « early ended » : blocage de l’utilisateur si le nombre de jobs qui ont une consommation CPU très faible est important  problème très probable Alertes mails : l’exploitation grille est informée des jobs qui se terminent mal – l’information est envoyée par BQS Alertes utilisateurs : sous forme de mail ou de ticket Alertes sur le statut du site IN2P3-CC : NAGIOS Suivi de jobs grille - Nadia LAJILI 22/03/2007

Outil de suivi BQS : early ended jobs Suivi de jobs grille - Nadia LAJILI 22/03/2007

Outil de suivi BQS : jobs slow Suivi de jobs grille - Nadia LAJILI 22/03/2007

Traçabilité des jobs Récupération d’information auprès de BQS : par requête : utilisateur, date de soumission, worker, CE de mise en exécution, profil du job, consommations CPU, mémoire, statut du job, ressources demandées,BQS job ID, certificat de l’utilisateur... par consultation des logs : traces des processus en cours, date, scripts mis en exécution Récupération d’information auprés du CE : stderr/stdout, LCG job ID, globus-job-ID, consultations des traces logs du globus-gatekeeper Récupération d’information sur le Worker Node processus en cours d’exécution, output/log du job, connexions en cours, Identification de l’utilisateur : identité, VO, Email Création de scripts internes pour faciliter l’accès à ce type d’information Suivi de jobs grille - Nadia LAJILI 22/03/2007

Actions entreprises Constituer un diagnostic précis de la cause des échecs : manque de ressource, proxy périmé, transferts bloqués, services LCG indisponibles problème dans l’environnement du job Identification des jobs problématiques : LCG job IDs, BQS job IDs, globus job IDs Contacter l’utilisateur ou l’administrateur de la VO Contacter les responsables des services en cause : mail, ticket GGUS Diverses opérations de gestion internes de la production: Destruction/blocage en queue de jobs Blocage des utilisateurs en cas de problème Suivi de jobs grille - Nadia LAJILI 22/03/2007

Actions entreprises Ajustement des objectifs des Vos - Pour des demandes ponctuelles (DCs) Création de ressources internes à BQS - Pour pallier à l’indisponibilité de services internes Mécanismes de réajustements des priorités et des ressources - Sur demande de la VO attribution de priorités en fonction des rôles - Après confirmation auprès de l’utilisateur réévaluation des ressources nécessaires au job Suivi de jobs grille - Nadia LAJILI 22/03/2007

Actions entreprises Vérification de l’état du site vérification de l’information publiée par le système d’information environnement du job sur le WN, services du CE vérification de l’état des SEs, des services critiques hébergés (FTS,VOMS,LFC…) Suivi de jobs grille - Nadia LAJILI 22/03/2007

Problèmes rencontrés Difficultés pour contacter l’utilisateur : email introuvable Parfois manque de réactivité des utilisateurs Parfois utilisateurs mal informés Place du stdout/stderr non normalisée Problèmes récurrents sur les récupérations ou copies de fichiers : indisponibilités des serveurs SRM, des catalogues LFC… Difficultés pour nommer les jobs non soumis via des Ressources Brokers Méconnaissance de l’information connue par l’utilisateur sur l’état de ses jobs Suivi de jobs grille - Nadia LAJILI 22/03/2007

Problèmes rencontrés Manque de visibilité sur l’état des services centraux LCG Processus orphelins sur les workers nodes Jobs pilotes inactifs Gestion des priorités au sein d’un même groupe à mettre en place (rôle VOMS) Manque d’outil pour la désactivation de certaines queues de production sur le CE en cas de besoin Gaspillage de ressources telles que la mémoire pour la classe longue Suivi de jobs grille - Nadia LAJILI 22/03/2007

Problèmes rencontrés Discussion autour des formules de ranking avec certaines VOs Impossible de différencier des utilisateurs qui soumettent des jobs avec le même profil puisqu’ils sont mappés sur le même compte. Suivi de jobs grille - Nadia LAJILI 22/03/2007

Commentaires / Questions Suivi de jobs grille - Nadia LAJILI 22/03/2007