Etat des services grid de production

Slides:



Advertisements
Présentations similaires
Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.
Advertisements

Catalogues de fichiers de données. David Bouvet2 Problématique Possibilité de répliquer les fichiers sur divers SE  nécessité d’un catalogue de fichiers.
Retour d'expérience sur le déploiement d'un site grille de production Pierre Girard EGEE/LCG ROC Deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3.
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
08/02/2007 Site Grille : Ambitions 2007 Pierre Girard LCG-France Tier
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Nombre de job slot par machine Server_priv/node. Node1 np=2 Règle de 1 core = 1 job slot = 2 Go. Sur un bi-processeur bi-core on annonce alors np=4 Pas.
Le projet MUST Méso infrastructure de calcul et de stockage ouverte sur la grille européenne LCG/EGEE Colloque Grille Rhône-Alpes 10 janvier 2008.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
Quattor Status Guillaume PHILIPPON. Résumé EMI 2 / 3 DPM Changement de nom de profile SPMA 3 Aquillon Stratuslab Organisation de la communauté Quattor.
INFSO-RI Enabling Grids for E-sciencE Statistiques d'usage d'un site de la grille LCG/EGEE Emmanuel Medernach, IN2P3 LPC.
Evolution des services Retour sur les incidents récents: Disfonctionnements cluster SUN (répertoires disques) : – Incidents et actions réalisées Disfonctionnements.
État de la production LHC et statut de BQS Suzanne Poulat – groupe production.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR Marseille Juin 2010Jean-Michel BARBET Subatech 1 /22 Support de la VO Alice à.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR-T2T3, Annecy Mai 2009Jean-Michel BARBET Subatech 1 /18 IN2P3-SUBATECH :
Gestion des données issues des réseaux de mesures de la qualité : densification et besoin de flexibilité SIG, Géo-traitements.
Messagerie Open Source à la DGCP Implémentation réalisée par IBM et Pilot Systems Sylvain Viollon.
INFSO-RI Enabling Grids for E-sciencE L’activité EGEE au CINES Nicole Audiffren, Adeline Eynard et Gérard Gil Réunion de la fédération.
Xen et l' Art de la Virtualization Antoine Nivard Responsable technique Adéquat région Ouest Responsable de Site francophone de XEN Computer.
Roadmap opérations Revue fin 2013 Planification 2014 CTE 28 – décembre 2013.
EGI FT 2010 European Grid Infrastructure H.Cordier Credit: C. L’Orphelin, D.Fouossong, E.Urbah, M.Pellen.
L’intérêt de sauvegarder certaines données stockées localement sur les postes clients est souvent trop sous-estimée par nos utilisateurs. Casse matérielle,
Exploitation Informatique
Michel Jouvin LAL/Orsay
LCG-France Tier-1 & AF Réunion mensuelle de coordination
Séminaire EOLE Beaune Septembre 2007
philippe jeantet responsable adjoint du SERAS
Portefeuille des compétences
Passage de Main SYSGRID Réunion 1
Opérations France Grilles - structure et fonctions
Réunion Opérations France Grilles – 6 juin 2017
Roadmap opérations Fin 2013 Visio opérations France Grilles juin 2013
GENIUS – GANGA Alternative à la CLI
Atelier Opérations 29 Novembre - INRA - Bordeaux
C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 2 février 2007
Point sur avancement du service de monitoring NAGIOS
Surveillance des services grille par NAGIOS
Intégration de BQS dans CREAM
Pierre Girard LCG-France Tier
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Consolidation des services FTS et LFC
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
Déploiement d’un LCG CE
Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER
Etat actuel et perspectives des CEs
Consolidation des services de grille de production
2018/8/9 CLAP Cluster de virtualisation et de stockage distribué du LAPP Mardi 26 avril 2016 Entrez votre nom.
Présentation OCS-Inventory au LAPP
David Bouvet LCG France T2 T3 – LPNHE
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 11 Juin- 10 Septembre Hélène CORDIER.
Jobs ATLAS sur la grille
Suzanne Poulat - Philippe Olivero
Le Projet GRIF Efficient Handling and processing of
mardi 11 septembre 2018mardi 11 septembre 2018
CREAM-CE et SGE.
Exploitation et déploiement
TreqS TReqS 1.0.
Informations Comité des utilisateurs du mésocentre
Atelier régulation de la production dans un contexte grille
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 10 Septembre – 21 Octobre Hélène CORDIER.
Infrastructure Opérationnelle d’EGEE
GRIF : Site EGEE au Service de la Recherche en IdF
Un cloud de production et de stockage
Middleware : Status et Evolution
Infrastructure Opérationnelle d’EGEE2
DC04 CMS Objectif Status Planning
Comité Scientifique GRIF
Intégration GRIF Michel Jouvin Comité Technique GRIF 28 Novembre 2005.
Transcription de la présentation:

Etat des services grid de production 02/07/2018 12/07/2007 Etat des services grid de production Pierre Girard LCG-France Tier-1 2007-07

Statut des outils globaux d’exploitation Monitoring 02/07/2018 Plan Statut du déploiement Statut des outils globaux d’exploitation Monitoring Infrastructure d’exploitation grille Pierre Girard / Etat des services grid de production 12/07/2007

Statut du déploiement (1) 02/07/2018 Statut du déploiement (1) En juin… Arrêts du 12 et 19 -> 20 et 21 Installation de 5 services grilles sur des machines secouru fait le 11 Top BDII régional redirigé vers le LAL puis le LAPP Quelques problèmes liés à la re-planification en urgence des pannes Mobilisation pendant plusieurs jours Mise en place du T2 Site-BDII + CE (ATLAS, CMS) Accounting (« débrayé » vers le T1 pour l’été) Pierre Girard / Etat des services grid de production 12/07/2007

Statut du déploiement (2) 02/07/2018 Statut du déploiement (2) En juin… encore Remplacement du CE cclcgceli02 (Atlas) par le CE cclcgceli04 Cclcgceli02 va être mise-à-jour et être utilisé pour la soumission sur SL4 Changement du mapping sur tous les CEs Séparation du T1 et T2 Scripts pour extraire les différents mappings Suppression des informations VOMS dans la publication des Ces A la demande du projet (bug WMS) Nouveau Information Provider laissé en suspend du coup Publication « multi-clustering » sur les CEs pour prendre en compte la taille mémoire max. des classes BQS Pierre Girard / Etat des services grid de production 12/07/2007

Statut du déploiement (3) 02/07/2018 Statut du déploiement (3) En juin… toujours Mise à jour d’UI (3.0.22-0) Pour les besoins de la VOBox atlas02 Le lendemain, une version critique sortait… ;) Donc pour l’instant, m-à-j non propagée à toutes les ccalis Arrêt définitif du RLS/RMC de Biomed Mise-à-jour du Top BDII Regional en urgence Nouveau Glue Schema (1.2 -> 1.3) Pierre-Emmanuel a beaucoup appris ;) De plus en plus autonome Pierre Girard / Etat des services grid de production 12/07/2007

Statut du déploiement (4) … pas fait 02/07/2018 Statut du déploiement (4) … pas fait Ce qui n’a pas été fait… M-à-j des WNs et des UIs (SL3) Devient critique Déploiement sur WN/UI SL4_32 En cours L’arrêt définitif des SE classiques Erreur dans l’envoi de l’annonce Repoussé au 3 septembre L’adaptation de la gestion des priorités pour prendre en compte les politiques des T1 et T2 Pierre Girard / Etat des services grid de production 12/07/2007

Statut du déploiement (5) … en cours 02/07/2018 Statut du déploiement (5) … en cours SL4_32 Mise-à-jour du CE cclcgceli02 (fin de semaine) Déploiement des WNs (3.1.0) sur AFS LFC LHCb (réplication r/o du LFC central) Machine SL4_64 en attente (fin de semaine) Version SL4 de LFC non-officielle Mais « full support » des développeurs Base de Données répliquée prête Pierre Girard / Etat des services grid de production 12/07/2007

Statut du déploiement (6) … prévu avant fin juillet 02/07/2018 Statut du déploiement (6) … prévu avant fin juillet Top BDII régional « load-balancé » 2 machines SL4 Installation éprouvée sur une VM SL4 Load-Balancing pour la robustesse du service (lbnamed) M-à-j des WNs/UIs SL3 Migrations des nœuds SL3 Encore sur des machines plus supportées (x330) Au fur et à mesure de la récupération de V20Z Serveurs VMware en cours de migration vers SL4 Pierre Girard / Etat des services grid de production 12/07/2007

Statut du déploiement (7) … travail prospectif (août ?) 02/07/2018 Statut du déploiement (7) … travail prospectif (août ?) Déploiement de test d’un cluster de CEs Tous les CEs supportent toutes les VOs Utilisation de GPFS (Loïc) Mapping commun TAGs des Vos Information provider ? Adaptation de l’Information Provider « Logical Load-Balancing » Prévu sur la nouvelle version de l’information provider Déploiement sur des VMs Clonage de plusieurs images de CE VO-oriented Load-Balancing Computing Element Computing Element Computing Element Computing Element Pierre Girard / Etat des services grid de production 12/07/2007

Statut des outils globaux d’exploitation 02/07/2018 Statut des outils globaux d’exploitation Nouvelle infrastructure SAM incluant des nouveaux « sensors » Beaucoup de changements Beaucoup de problèmes Mauvaise synchronisation avec la GOC DB Problème avec leur base Oracle Nouvelle GOC DB(3) Impact sur les autres outils opérationnels Des petites problèmes ergonomiques et fonctionnels en cours de correction Perturbation de l’exploitation des sites pendant juin Pierre Girard / Etat des services grid de production 12/07/2007

Monitoring Lemon Nagios Réinstallation sur une VM en SL5 02/07/2018 Monitoring Lemon Réinstallation sur une VM en SL5 Aucune avancée notable faute de temps Il va falloir statuer Réaffecter la responsabilité de l’installation ? Abandonner ? Nagios Remise à plat de tests (Pierre-Emmanuel) Mise-à-jour de la liste des nœuds à tester Suppression des tests obsolètes Recherche active de scripts de tests d’autres sites Pierre Girard / Etat des services grid de production 12/07/2007

Infrastructure d’exploitation grille 02/07/2018 Infrastructure d’exploitation grille Gestion du parc des machines Leur état, leur(s) profil(s), leur(s) responsable(s) https://grid.in2p3.fr/html/Private/machine_management/ Gestion de la configuration Des nœuds Du monitoring Gestion de la validation des nœuds Suite de tests post-installation Suite de scripts collectant l’état de la configuration des noeuds (à la source) Ex: http://grid.in2p3.fr/html/Public/Documentation/machines/mapping.html Gestion du statut des jobs grille Fournir des informations pertinentes à la production Grid JobId, état / CE, DN et info. VOMS de l’utilisateur, dates d’expiration du proxy, mail de l’utilisateur Outils d’administration des nœuds Ex.: fermer une queue sur un CE, changer la configuration des UIs/WNs, fermer des channel Développer une infrastructure globale pour gérer tous ces aspects (factorisation et diffusion de l’information) La priorité est là, il faut dégager du temps pour ça Pierre Girard / Etat des services grid de production 12/07/2007