Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France 14-15 Mars 2007.

Slides:



Advertisements
Présentations similaires
#JSS2013 Les journées SQL Server 2013 Un événement organisé par GUSS.
Advertisements

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks La région France et les sites de calcul EGEE.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Les sites de calcul EGEE en France David.
Alice LCG Task Force Meeting 16 Oct 2008Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1/20BARBET Jean-Michel - 1/20 LCGFR Marseille Juin.
Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.
Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.
Lcg-fr workshop: 14/12/2005 Thomas Kachelhoffer - CC1 Réflexion en cours sur le support. Objectif de la présentation: lancer une réflexion sur l’organisation.
Production DC2 ATLAS David Bouvet LHC Calcul 22 juillet 2004.
ATLAS Ghita Rahal CC-IN2P3 Novembre 9, /6/2006Réunion CAF2 Activités Création et externalisation d’outils de monitoring de l’état du T1 (CPU,
LHCb DC06 status report (LHCb Week, 13/09/06) concernant le CC : –Site currently fine / stable 3% of simulatated events 30% of reconstructed events –Site.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Data management David Bouvet IN2P3-CC Clermont.
JI Les systèmes d’autorisation et d’authentification dans AMI Fabian Lambert.
Expérience du déploiement d’une Virtual Organisation (VO) locale Christophe DIARRA
BELMEHDI ABDELHAFID Directeur Général. Marques العلامات Modèles النمادج Droit d’auteurs حقوق المؤلف.
Monitoring: état et perspectives Cette présentation fera le point sur le travail effectué au sein du groupe de travail, créé au sein de LCG-France et EGEE.
UNIX AVANCE Yves PAGNOTTE – Janvier – QUELQUES RAPPELS SUR LES SYSTEMES D’EXPLOITATION 1.
Mardi 31 mai 2016 JJS (Java Job Submission) Soumission de jobs sur grille Pascal Calvat Centre de calcul.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.
Un outil de communication : la liste de diffusion Mis à jour en juillet 2008 Anne Maincent-Bourdalé CRDoc IUT Paul Sabatier.
Centre d’Innovations Vertes (CIV) au Bénin. Mise en œuvre du projet pilote Zogbodomey, le 18 Avril 2016 Catalyzing the Adoption and Use of Scalable technologies.
Cécile Barbier David Bouvet Christine Leroy L'exploitation de la grille au quotidien.
Migration Plan adressage EPLE Migration Plan d'adressage EPLE.
Mardi 30 mars 2010 Technologies employées par le portail des opérations Cyril L’Orphelin, Olivier Lequeux, Pierre Veyre IN2P3/CNRS Computing Centre, Lyon,
Les méthodes de tests Les grands principes pour réaliser des tests efficaces.
Utilisation de Quattor par GRIF Michel Jouvin LAL/Orsay
Catalogues de fichiers de données. David Bouvet2 Problématique Possibilité de répliquer les fichiers sur divers SE  nécessité d’un catalogue de fichiers.
Mercredi 1er juin 2016 Panorama sur les outils de monitoring Cyril L’Orphelin David Bouvet.
Sample Image Comment utiliser la grille ? 3ème rencontre EGEODE des utilisateurs de Geocluster et des Sciences de la Terre sur la grille EGEE à Villefranche-sur-Mer.
Réunion DCIE-DiR - Assistance utilisateurs sur WAMA et RNT 3 juin 2015.
Jobs multicore dans WLCG Présentation en partie basée sur des présentations faites dans le cadre du groupe de travail multicore.
Projet LCG: Infrastructure opérationnelle Pierre Girard EGEE/LCG ROC deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3
Retour d'expérience sur le déploiement d'un site grille de production Pierre Girard EGEE/LCG ROC Deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3.
Eric Fede - 1 GESTION DES PRIORITES SUR LA GRILLE.
Réunion EGEE France 11/6/2004Page 1Rolf Rumler Structure de l’exploitation d’EGEE.
Mercredi 7 novembre 2007 Dominique Boutigny Activités et Évolution du CC-IN2P3 Réunion des Expériences 2007.
CAF LCG-FRANCE A.Rozanov LCG France 22 Juillet SOMMAIRE Composition CAF DC2 ATLAS Demandes fin 2004.
Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue
C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.
EGEE is a project funded by the European Union under contract IST Initiation à l’infrastructure Tutorial Grille (LCG/EGEE)
INFSO-RI Enabling Grids for E-sciencE Sécurité sur la Grille C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 8 octobre 2007.
EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.
Fabio Hernandez Lyon, 9 novembre 2006 LCG-France Tier-1 Réunion de Coordination.
Tutorial ATLAS France, CCIN2P3, 05/02/2007 INFSO-RI Enabling Grids for E-sciencE Introduction à la grille LCG/EGEE Pierre Girard.
 rechercher et coordonner l'engagement des acteurs nécessaires, Christine=> Helene,Gilles (permet de réduire les groupes de travail comme mentionné dans.
20-mars-2008Eric Lançon1 Activités ATLAS sur le nuage Français Emprunts a K. Bernardet, C. Biscarat, S. Jezequel, G. Rahal.
Système Intégré de Gestion de l’Etat Civil PROJET SIGIEC 1.
Mardi 30 mars 2010 Les Outils d'Exploitation et de Surveillance Cyril L’Orphelin, Atelier technique France Grilles, 31 Mai 2010 IN2P3/CNRS Computing Centre,
Ghita Rahal Lyon, 17 Avril 2008 Outils d’information et de suivi pour l’utilisateur.
Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting Mai 2009.
Tier2: Subatech Tier2: LPC Tier2: GRIF CEA/DAPNIA LAL LLR LPNHE IPNO Tier2: GRIF CEA/DAPNIA LAL LLR LPNHE IPNO AF: CC-IN2P3 Tier3: LAPP Tier1: CC- IN2P3.
EGEE induction course, 22/03/2005 INFSO-RI Enabling Grids for E-sciencE Infrastructure Overview Pierre Girard French ROC deputy.
Communication LCG-France Colloque LCG France Mercredi 14 mars 2007.
Tutorial “Administrateur de site EGEE”, CCIN2P3, 24/10/2007 INFSO-RI Enabling Grids for E-sciencE Introduction à la grille LCG/EGEE.
TÂCHES D’ADMINISTRATION DE LA NAGIOSBOX BIOMED LE 24 Mai 2011, Christine Leroy,
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
© 2007 Autodesk1 Nouveautés de Revit Architecture 2008.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
INFSO-RI Enabling Grids for E-sciencE Data management Daniel Jouvenot IN2P3-LAL ORSAY - 02/02/2007.
EGEE France, Marseille, 24 mars 2005 INFSO-RI Enabling Grids for E-sciencE Activité SA1 Regional Operations Centre Pierre Girard.
1DSM - IRFU / PM Compte rendu du site GRIF.
08/02/2007 Site Grille : Ambitions 2007 Pierre Girard LCG-France Tier
Site Monitoring -Contexte des sites Grilles EGEE &/|| LCG -Etat des sites Francais -Le groupe de travail LCG-Fr / SA1-FR monitoring et les prochaines actions.
CREAM & ICE Réunion SA1-France 11 mars 2008
Le portail des opérations: retour d'expérience
Fonctionnement de la grille
Surveillance des services grille par NAGIOS
Jobs ATLAS sur la grille
Atelier régulation de la production dans un contexte grille
Infrastructure Opérationnelle d’EGEE
Infrastructure Opérationnelle d’EGEE2
Transcription de la présentation:

mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007

14/03/2007Suivi de jobs grille - David Bouvet2 Sommaire Monitoring au CC Outils de suivi des jobs Outils de tracabilité Actions entreprises Problèmes rencontrés Questions

14/03/2007Suivi de jobs grille - David Bouvet3 Monitoring au CC État global de la production 1. Vision graphique globale de l’état des lieux (services, état de la production) : OVAX 2. Scripts d’interrogation de l’état du batch 3. Étude statistique de la production en temps réel : MRTG 4. État des machines : CCSMURF 5. Outil de logging interne au CC : Web RLS 6. Outils de monitoring au CC : NAGIOS (grille), NGOP 7. Autres outils de monitoring du projet : Gstat, CIC dashboard, SAM test 8. Dashboard ARDA décrit l’état du site pour toutes les VOs LHC

14/03/2007Suivi de jobs grille - David Bouvet4 Monitoring au CC : OVAX Vision graphique globale de l’état des lieux (services, état de la production)

14/03/2007Suivi de jobs grille - David Bouvet5 Monitoring au CC : MRTG Étude statistique de la production en temps réel Vert : cmsf grid running jobs at CC-IN2P3 Bleu : All cmsf running jobs at CC-IN2P3 Orange : ((cmsf grid running jobs at CC-IN2P3)/(All cmsf running jobs at CC-IN2P3))*100

14/03/2007Suivi de jobs grille - David Bouvet6 Monitoring au CC : MRTG Vert : atlas grid running jobs at CC-IN2P3 Bleu : LHC grid running jobs at CC-IN2P3 Orange : % atlas grid jobs / LHC grid jobs at CC-IN2P3

14/03/2007Suivi de jobs grille - David Bouvet7 Monitoring au CC : CCSMURF (état des machines)

14/03/2007Suivi de jobs grille - David Bouvet8 Outil de Monitoring : WebRLS

14/03/2007Suivi de jobs grille - David Bouvet9 Monitoring au CC : NAGIOS

14/03/2007Suivi de jobs grille - David Bouvet10 Monitoring LHC : ARDA

14/03/2007Suivi de jobs grille - David Bouvet11 Outils de suivi des jobs Outils de détection des jobs problématiques 1. Jobs « slow » : rapport entre la consommation CPU et le temps de résidence en machine d’un job 2. Jobs « early ended » : blocage de l’utilisateur si le nombre de jobs qui ont une consommation CPU très faible est important  problème très probable 3. Alertes mails : l’exploitation grille est informée des jobs qui se terminent mal – l’information est envoyée par BQS 4. Alertes utilisateurs : sous forme de mail ou de ticket 5. Alertes sur le statut du site IN2P3-CC : NAGIOS

14/03/2007Suivi de jobs grille - David Bouvet12 Outil de suivi BQS : early ended jobs

14/03/2007Suivi de jobs grille - David Bouvet13 Outil de suivi BQS : jobs slow

14/03/2007Suivi de jobs grille - David Bouvet14 Traçabilité des jobs Récupération d’information auprès de BQS : –par requête : utilisateur, date de soumission, worker, CE de mise en exécution, profil du job, consommations CPU, mémoire, statut du job, ressources demandées,BQS job ID, certificat de l’utilisateur... –par consultation des logs : traces des processus en cours, date, scripts mis en exécution Récupération d’information auprés du CE : –stderr/stdout, LCG job ID, globus-job-ID, consultations des traces logs du globus-gatekeeper Récupération d’information sur le Worker Node –processus en cours d’exécution, output/log du job, connexions en cours, logs de BQS Identification de l’utilisateur : VO, , Identité Création de scripts internes pour faciliter l’accès à ce type d’information

14/03/2007Suivi de jobs grille - David Bouvet15 Actions entreprises Vérification de l’état du site –vérification de l’information publiée par le système d’information –environnement du job sur le WN, services du CE –vérification de l’état des SE, des services critiques hébergés…

14/03/2007Suivi de jobs grille - David Bouvet16 Actions entreprises Constituer un diagnostic précis de la cause des échecs : –manque de ressource, proxy périmé, transferts bloqués, services LCG indisponibles –problème dans l’environnement du job, sites LCG problématiques.. Identification des jobs problématiques : –LCG job IDs, BQS job IDs, globus job IDs Contacter l’utilisateur ou l’administrateur de la VO Contacter les responsables des services en cause : –mail, ticket GGUS Diverses opérations de gestions internes : –affectation de priorités sur demande –changement des ressources attribuées au job –destruction/remise en queue de jobs

14/03/2007Suivi de jobs grille - David Bouvet17 Problèmes rencontrés Difficultés pour contacter l’utilisateur : introuvable Place du stdout/stderr non normalisée Problèmes récurrents sur les récupérations ou copies de fichiers : indisponibilités des serveurs SRM, des catalogues LFC… Difficultés pour nommer les jobs non soumis via des RB Méconnaissance de l’information connue par l’utilisateur sur l’état de ses jobs Manque de visibilité sur l’état des services centraux LCG Parfois manque de réactivité des utilisateurs

14/03/2007Suivi de jobs grille - David Bouvet18 Problèmes rencontrés Processus orphelins sur les WN Gestion des priorités au sein d’un même groupe à mettre en place (rôle VOMS) Manque d’outil pour la désactivation de certaines queues de production sur le CE en cas de besoin Gaspillage des ressources telles que la mémoire pour la queue longue

14/03/2007Suivi de jobs grille - David Bouvet19 Commentaires / Questions