Synthèse problèmes rencontrés par les expériences LHC au CC-IN2P3

Slides:



Advertisements
Présentations similaires
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Advertisements

Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
Evolution des services Retour sur les incidents récents: Disfonctionnements cluster SUN (répertoires disques) : – Incidents et actions réalisées Disfonctionnements.
GCstar Gestionnaire de collections personnelles Christian Jodar (Tian)
Logiciel Assistant Gestion d’Événement Rémi Papillié (Chef d’équipe) Maxime Brodeur Xavier Pajani Gabriel Rolland David St-Jean.
Toulouse _ Gynerisq Equipe _ MODULE COMMUNICATION  Importance +++  Communication entre soignants  Communication soignants-patientes.
RECHERCHE ACTIVE DES PATIENTS VIH + PERDUS DE VUE, SUR L’HOPITAL AVICENNE P.HONORE 2015.
Organisation, gestion de données Les connaissances que l'enseignant doit maîtriser à son niveau Présentation réalisée à partir de l'ouvrage de Roland Charnay.
LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL.
L’intérêt de sauvegarder certaines données stockées localement sur les postes clients est souvent trop sous-estimée par nos utilisateurs. Casse matérielle,
TRAAM Académie de Limoges1 TRAvaux Académiques Mutualisés Comment intégrer à l’enseignement de la technologie les services mis à la disposition des élèves.
Acquisition Rapide Multivoies
Mise en place d’un système de partage de fichiers
Synthèse des difficultés rencontrées et des bonnes pratiques
Utiliser le dossier Mon EBSCOhost
Visite guidée - session 8 L’ordonnancement Métier : Fabrication
Sécurisation de l’accès Internet
BILAN D’ACTIVITES SEMESTRIEL 2014
Présentation du site
Journée Analyse D0, 19 janvier 2004
Module 12 : Configuration et gestion des disques
Passage de Main SYSGRID Réunion 1
Réunion Opérations France Grilles – 6 juin 2017
Projets et Activités 2016 Équipe Opération.
Compte-rendu des réunions de travail Groupware du 29/05
e-Prelude.com Visite guidée - session 4 Les stocks initiaux
Les nouveautés dans les modèles de Calcul au LHC
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
Mini synthèse accès fichier en C
Etat des services grid de production
12 mars 2004, Lyon Reunion CAF F.Chollet 1
Status des problèmes d’accès à la software area de LHCb
Pierre Girard LCG-France Tier
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Un exercice grandeur nature Permet de mesurer/valider
Activités présentes et à venir
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
Les opérations régionales en France au quotidien après le 20 Avril
Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER
2018/8/9 CLAP Cluster de virtualisation et de stockage distribué du LAPP Mardi 26 avril 2016 Entrez votre nom.
LCG-France Tier-1 & AF Réunion mensuelle de coordination
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 11 Juin- 10 Septembre Hélène CORDIER.
Suzanne Poulat - Philippe Olivero
L’exploitation des données du collisionneur LHC: un défi pour le calcul scientifique un enjeu pour le LAPP S. Jézéquel.
TreqS TReqS 1.0.
Les centres d’analyse: introduction
Atelier régulation de la production dans un contexte grille
Bilan reprocessing données cosmiques Atlas
Organisation LCG-France Lien avec le computing LHC
Archivage, sauvegarde, PRA
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 10 Septembre – 21 Octobre Hélène CORDIER.
En savoir plus Microsoft Actualités SharePoint
Module 12 : Configuration et gestion des disques
Prévention de désastre et récupération
Un cloud de production et de stockage
DC04 CMS Objectif Status Planning
La collecte d’informations Présenté par: Boudries. S.
Comité Scientifique GRIF
Chaque transparent est divisé en 3 parties : 1/Vision/ But
Notions d'architecture client-serveur. Présentation de l'architecture d'un système client/serveur Des machines clientes contactent un serveur qui leur.
LUSTRE Integration to SRM
Présentation du site Martine Cochet.
Collaborateurs & managers
Service de consultation en ligne
Résumé des Actions Suite aux Réunions CB et MB
COURS ADMINISTRATION DE BASES DE DONNÉES IMPORT/EXPORT Karim LABIDI ISET Ch
Présentation PISTE pour les partenaires raccordés en API
Qu’est ce qu’une page web? Comment fonctionne un site web?
Transcription de la présentation:

Synthèse problèmes rencontrés par les expériences LHC au CC-IN2P3 Luisa Arrabito, Catherine Biscarat, Farida Fassi, Nelli Pukhaeva, Ghita Rahal

Réunion du 15 décembre 2008 Beaucoup de problèmes peuvent être communs aux expériences sans qu’il y ait échange d’information Réunion entre les supports des expériences pour faire une synthèse des problèmes rencontrés: https://edms.in2p3.fr/file/I-015520/1/CR-Support-dedie-LHC-15-12-08.pdf Regroupement des problèmes en fonction de l’infrastructure sollicitée Attention: les actions (pages roses!) dans la présentation sont proposées, à discuter et à compléter.

Stockage : AFS (1/2) Écroulement de AFS dû à un accès intensif aux zones contenant les releases (ATLAS) Mise en place d’une procédure complexe Pool ->RO->RW->RO->Réplication La technique demande de la coordination (support ou CZAR) entre celui qui lance l’installation dans l’expérience et le AFSMASTER (XC) Procédure en cours pour fournir un script (XC) et des privilèges qui permet l’installation par Atlagrid (A de S) Problème: tache en cours depuis xx mois; difficulté d’assigner une priorité (afsmaster: surcharge de tâche et une seule personne). Beaucoup de suivi et de relance support.

Stockage AFS (2/2) Problème d’accès à la zone shared (LHCb): diminution de 50 à 20 pour l’accès simultané. Même problème que ATLAS? Y appliquer la même requête

Stockage AFS (2/2) Action AFS: Plus d’intervenants experts AFS ????

Stockage: dcache/HPSS (1/5) Prestaging (CMS): tests de prestaging 10TB  5jours. Impossible d’améliorer ce score (hardware) s’il n’y a pas une optimisation du classement des données. Analyse des tests dans: http://indico.in2p3.fr/conferenceDisplay.py?confId=800 Mécanisme demandé par CMS: tape families: https://twiki.cern.ch/twiki/bin/view/CMS/DMWMPG_Namespace#Proposal exemple: /store/data/acquisition_era/primary-dataset/data-tier/xxxxxxxxxx Primary-dataset= electron, muon, etc… Data_tier=RAW, RECO, …. Tape families par primary_dataset et par data_tier Nombre de familles adaptables au T1 considéré. Pb: Implémentation

Stockage: dcache/HPSS (2/5) Avantages d’un tel classement: Optimiser la lecture d’une cartouche Récupérer des cartouches lors de l’effacement. Issues: Dcache: Capacité de rangement des fichiers pour organiser leur descente de la cartouche? HPSS: possibilité de faire du montage regroupé de fichiers CMS: Comment l’expérience fournit elle la liste des fichiers? (réponse CMS: par groupe, notion de dataset).

Stockage: dcache/HPSS (3/5) Tests de Staging (LHCb) 2 semaines, 60 TB, T1 non prévenu. Pbs rencontrés: srmls…. Issue: Prochains tests à faire en coordination avec le CC

Stockage: dcache/HPSS (4/5) Demande massive de fichiers sur tape de la part des Tiers2 (CMS): Timeout dans tous les T1 Impossibilité de fonctionner avec un tel modèle Développeurs sollicités. Issues: (question perso) Y a-t-il un moyen de filtrage des demandes sur HPSS

Stockage: dcache/HPSS (5/5) Action Réunion en janvier: rediscussion des modalités/possibilités d’implémentation des tapefamilies . Implémentation pour CMS et d’autres expériences. Pour chaque expérience: comment se font les écritures et les lectures des données sur cartouche (envoi requête globale pouvant être exploitée par le système?)

Stockage: dcache (1/3) Fichiers perdus (ATLAS): Fichiers qui n’existent plus sur le disque dcache mais dont le path /pnfs est présent. 2 raisons pointées jusqu’à aujourd’hui: Coupure electrique et mauvais restart de dcache (14 Aout) Bug module de copie pool-to-pool de dcache La liste globale des fichiers perdus n’est pas disponible après incident.

Stockage: dcache (2/3) Issues: Issue majeure: intégrité des données. Un fichier n’est découvert comme inexistant que lorsque la production ou un utilisateur veulent l’utiliser. Une fois identifié, génère beaucoup d’activité et de tracas: BQS (pending jobs car le /pnfs est présent) Trouver si dans un dataset d’autres fichiers d’un même dataset sont aussi vus comme manquants Effacer sur les catalogues DDM, LFC, dcache les traces de ce(s) fichier(s) Issue majeure: intégrité des données.

Stockage: dcache (3/3) Actions: Audit du catalogue de dcache (shutdown?) Audit incrémental régulier Étanchéité des instances dcache entre les expériences LHC

BQS Incompatibilité ressources allouées et limitations (dcache, hpss, sps, afs) (LHC) Changements d’objectifs sur BQS sans communication à l’utilisateur (LHC)

Grille, CE Jobs qui ne rentrent pas dans BQS (ATLAS): Restent en état d’attente puis rejetés par timeout; Plusieurs modifications (upgrade, nombre de ports,…) mais sans succès Vobox?

Général (1/4) Problèmes rencontrés en général: Demande un suivi et une relance continus des supports Pas de retour automatique lors de la résolution d’un problème ou en cours de résolution  peut induire des retards de démarrage sur services associés. Pas toujours d’explication, même simplifiée, sur l’origine du problème. Difficulté d’analyse sur l’origine d’un problème

Général (2/4) Action: Information pendant et après incident (logbook centre publié à chaque insertion d’information?) Plus d’outils au support pour intervenir dans les problèmes récurrents ciblés; exemples: effacement et ménage pools dCache, réplication de volumes AFS,… Mise au point de tests « on demand » pour reproduire les problèmes d’une expérience, en vérifier la résolution, avant de revenir au tests de l’expérience.

Général (3/4) Amélioration des outils de monitoring Généraux: pour permettre aux experts de cibler le problème Orientés VO; exemple pour le stockage Nombre de requêtes sur dcache de chaque VO en fonction du temps Nombre d’accès aux pools, connections gridftp protocoles (dccp,srm…), etc Graphe du type ci-dessous: attention pas de rapport pour le contenu

Général (4/4) Outil BQS: Information suivie des modifications des valeurs limites des ressources utilisées pour la régulation des jobs (est ce que la valeur instantanée des modifications est stockée?). Moyen simplifié d’accès aux logs des jobs sur les workers.