Pierre Girard LCG France 2011 Strasbourg, May 30th-31th, 2010 Activité et nouvelles du CCIN2P3 Tier-1.

Slides:

Advertisements

Présentations similaires

LCG DATAGRID - France 8 Juillet 2002 LCG : LHC Grid computing - qui, quoi, quand, comment ? Quoi ? But : préparer l'infrastructure informatique des 4 expériences.

Advertisements

Architecture de grille générique, multi-

Un serveur de données au format ROOT.

Le CC-IN2P3 Fonctionnement – Évolution - Extension Réunion LCG-France - Annecy Lundi 18 mai 2009 Dominique Boutigny.

Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue

Nouvelles du CC-IN2P3 Réunion des sites-LCG France 22 novembre 2010 Dominique Boutigny.

Services de production grille en France Gilles Mathieu IN2P3-CC France Grilles Frédérique Chollet IN2P3-LAPP LCG France Rencontres France Grilles et LCG-France,

Alice LCG Task Force Meeting 16 Oct 2008Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1/20BARBET Jean-Michel - 1/20 LCGFR Marseille Juin.

EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.

9-mai-2006 Eric Lancon 1 Tier-1 et Ferme d’Analyse à Lyon Tier-1 de Lyon  Processing et stockage des données réelles  Stockage des données de simulations.

Offre DataCenter & Virtualisation Laurent Bonnet, Architecte Systèmes Alain Le Hegarat, Responsable Marketing 24 Novembre 2009.

Frédérique Chollet Yannick Patois Réunion LCG-France, Nantes 19 septembre 2012 Résultats du questionnaire DPM.

LCG-France: Tier-1 au CC-IN2P3 Bilan 2005 et perspectives 2006 Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3

Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.

Roadmap opérations - Fin 2013 Revue et avancement Visio opérations France Grilles octobre 2013.

Tier1 at the CC-IN2P3 March Current state at the CC-IN2P3 storage, computation, network...

Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.

Le noeud de grille Tier 3 LAPP.

Service Challenge 4 – Tests de Débit Bilan pour le Tier-1 LCG-France Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3

Le Tier2 de Subatech Logiciel : Jean-Michel Barbet

Production DC2 ATLAS David Bouvet LHC Calcul 22 juillet 2004.

19 janvier 2006J-P Meyer1 Revue du projet GRIF  Les enjeux scientifiques (J-P Meyer)  Le calcul au LHC  Les Projet EGEE et LCG  Le projet GRIF  La.

L’environnement Labo : Laboratoire de Physique des Particules d’Annecy-le vieux: LAPP (PP, Astro) Effectif du labo : 144 personnes Nombre d’IT : 76 dont.

1 Le groupe exploitation informatique au LAL Réalisations 2010 et projets 2011 Infrastructures de la Salle Machines Grille Services centraux et réseau.

Recapitulatif des sujets abordés Frédérique Chollet Fabio Hernandez Fairouz Malek Réunion LCG-France Tier-2s & Tier-3s Paris, 20 mars 2008.

Les fermes de PCs au Centre de Calcul de l’IN2P3 Journée « ferme de PCs » 27 juin 2000 Benoit Delaunay

ATLAS Ghita Rahal CC-IN2P3 Novembre 9, /6/2006Réunion CAF2 Activités Création et externalisation d’outils de monitoring de l’état du T1 (CPU,

LHCb DC06 status report (LHCb Week, 13/09/06) concernant le CC : –Site currently fine / stable 3% of simulatated events 30% of reconstructed events –Site.

D0 côté info D0 à FNAL  Données du RunII  Infrastructure matérielle  Infrasturucture logicielle  Monte Carlo à D0 D0 à Lyon  Production Monte Carlo.

Yannick Patois _ Journée du Libre _ 1er Novembre n° 1 Datagrid Une grille de calcul sous Linux Yannick Patois.

29 mars 2006J-P Meyer1 Evaluation des besoins en infrastructures et réseau  Evaluation des besoins en infrastructures  Evaluation des besoins réseau.

Hébergement d’une infrastructure de Cloud Expérience d’un laboratoire Guillaume Philippon.

Retour d'expérience de l'utilisation du cloud comme infrastructure de service Guillaume PHILIPPON.

VEILLE TECHNOLOGIQU E LE CLOUD R. Mars al A. Guel louz B. Covo lo C. Eise nhauer G. Monn el.

BaBar France 18/01/2010 Vincent Poireau 1 Page d’aide :

Frédérique Chollet Fairouz Malek Pierre Girard Yannick Patois Réunion LCG-France, Lyon 1 er décembre 2010 Pour clore cette édition…

(Mon) Résumé (?) Fabio Hernandez Frédérique Chollet Fairouz Malek Réunion Sites LCG-France Marseille, 25 juin 2010.

Journées informatique IN2P3/Dapnia, Lyon Septembre 2006 Consolidation des serveurs par virtualisation Retour d’expérience sur l’utilisation de VMware.

Stratégie vers les utilisateurs G. Romier. Les utilisateurs 2 environ 750 utilisateurs « nationaux » regroupés en organisations virtuelles (VO) 89 Organisations.

Roadmap opérations Revue fin 2013 Planification 2014 Visio opérations – décembre 2013.

BABAR Georges Vasseur CEA Saclay, DSM/IRFU/SPP Workshop sur l’analyse des données au centre de calcul de Lyon 17 avril 2008.

PUGNERE Denis Institut de Physique Nucléaire de Lyon Rencontres LCG-France mai 2013 – LLR Palaiseau.

Migration du système de sauvegarde d’une infrastructure locale à un système centralisé IN2P3 101/06/2016 HEPIX Spring 2013 Muriel Gougerot (LAPP) and Remi.

Guide-Share Présentation du 24 novembre Didier SANSON 10/12/2004 © Natexis Banques Populaires Sommaire Nos solutions de backup Les sauvegardes.

04/06/20151J-P Meyer GRIF-10ans déjà! ( )

Opérations France-Grilles : Etat des lieux Hélène Cordier/Gilles Mathieu LCG France, 30 Mai 2011.

2011/06/14 Efficacité des jobs d’Atlas Pierre Girard Réunion de travail avec Atlas CC-IN2P3, le 14 juin 2011.

Retour d'expérience sur le déploiement d'un site grille de production Pierre Girard EGEE/LCG ROC Deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3.

Mercredi 7 novembre 2007 Dominique Boutigny Activités et Évolution du CC-IN2P3 Réunion des Expériences 2007.

CAF LCG-FRANCE A.Rozanov LCG France 22 Juillet SOMMAIRE Composition CAF DC2 ATLAS Demandes fin 2004.

Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue

6-7 Octobre 2008J-P MEYER1 Conclusions du groupe de travail thématique 7 Physique subatomique: - physique des particules, - physique nucléaire, - astroparticules.

Conclusions (?) Fabio Hernandez Frédérique Chollet Fairouz Malek Réunion Sites LCG-France Annecy, May

C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.

Configuration des sites Intérêt de la mutualisation ! Existant avec Quattor Tendance Puppet Discussion.

Projet LCG: Vue d’Ensemble Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3 Rencontre IN2P3/STIC Grenoble, 25.

EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.

1er septembre 2005J-P Meyer1 Statut du projet GRIF (Grille de Recherche d’Île de France) Rappel du projet But: Mettre en place une ressource d’analyse.

Fabio Hernandez Lyon, 9 novembre 2006 LCG-France Tier-1 Réunion de Coordination.

Réunion des sites LCG France- Marseille juin ACTIVITES DU GROUPE ACCOUNTING FRANCE GRILLES Cécile Barbier (LAPP)

20-mars-2008Eric Lançon1 Activités ATLAS sur le nuage Français Emprunts a K. Bernardet, C. Biscarat, S. Jezequel, G. Rahal.

Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.

EGEE induction course, 22/03/2005 INFSO-RI Enabling Grids for E-sciencE Infrastructure Overview Pierre Girard French ROC deputy.

Session: Intégration de nouveaux sites Le point de vue du ROC Pierre Girard French EGEE ROC deputy CC-IN2P3 grid site administrator.

1DSM - IRFU / PM Compte rendu du site GRIF.

Réunion des utilisateurs de MUST 8 juillet 2011 Bourget du Lac.

CALCUL ATLAS LCG France (CC IN2P3 Lyon) 30 Avril SOMMAIRE Data Challenge 2 (DC2) d’ATLAS Utilisation du CC IN2P3.

LCG-France Tier-1 & AF Réunion mensuelle de coordination

Transcription de la présentation:

Pierre Girard LCG France 2011 Strasbourg, May 30th-31th, 2010 Activité et nouvelles du CCIN2P3 Tier-1

P.Girard 2 Plan N ouvelles du Centre de Calcul de l’IN2P3 Activités des VOs LHC Problèmes et préoccupations Conclusions et perspectives Questions Backup slides

P.Girard 3

Nouvelle salle machine Du virtuel … 4 Illustration : Cabinet UNANIME Architectes - © Guillaume HANOUN … au réel

P.Girard Nouvelle salle machine Nouvelle salle « Vil2 » (Phase 1) ■ 50 racks de matériel informatique 40 racks réels ■ 600 kW de puissance froid ■ Redondance électrique minimale (1 seule chaine d’onduleur) ■ Climatisations « InRaw » de 20kW Max réel 25KW Utilisation mesurée 12KW ■ Alimentations électriques par Canalis (au plafond) Livrée le 14 mars ■ 1,5 mois de retard (bon résultat !) Sans migration rapide des WNs de « Vil1 » à « Vil2 », nous ne passions pas l’été KW

P.Girard Nouvelle salle machine Phase 1: accueil des worker nodes ■ 5 racks CINES rapatriés le 28 avril ■ 9 racks PowerEdge 1950 du 4 au 13 mai ■ 3 racks C6100 reçus le 19 mai (144=12x4x3) ■ Le reste du CPU de « Vil1 » du 23 au 24 mai Etat après migration ■ 270 KW de froid dans la salle « Vil2 » ■ Dont 180 KW sorti de la salle « Vil1 » 6

P.Girard Nouvelle salle machine Phase 2, prévue en 2012 ■ Extension de la climatisation ■ Aménagement d’une deuxième ligne de racks ■ Marge d’anticipation possible grâce au budget prévu pour les aléas sur la phase 7

P.Girard Nouveau Batch System Grid Engine ■ Version 6.2u5 Dernière version opensource de SUN ■ Portage de la configuration de BQS ■ Planning de migration de BQS vers GE 60 % des workers d’ici fin juin Le reste des workers sera basculé en été En septembre, GE deviendra la plate-forme par défaut pour le Batch. BQS cessera de fonctionner dès que possible, au plus tard à la fin de cette année. 8

P.Girard Nouveau Batch System Etat actuel de la migration ■ Taux de migration BQS vers GE: 20% ■ Ferme GE 321 machines, 3352 cœurs, HS06 ■ Ferme BQS 955 machines, cœurs, HS06 Les jobs grille tournent encore sur BQS ■ Bug CREAM GE en cours de résolution Premier feedback ■ + d’une dizaine d’expérience tournent sur GE ■ Equipe d’exploitation plutôt satisfaite ■ Mais on déplore 1 crash de GE par semaine… Bascule automatique sur le serveur esclave Perte de tous les jobs en queue Travail d’investigation en cours 9

P.Girard 10

P.Girard Utilisation CPU 11 Sources: WLCG-T1 Monthly report EGI accounting portal 64% du CPU “pledgé”: ALICE: 42% ATLAS: 61% CMS: 67,5% LHCb: 30,5% Répartition d’utilisation ALICE: 7,3% ATLAS: 56% CMS: 24,6% LHCb: 12,1% CPU des pledges 2011 disponible depuis le 26 mai 7,6% du CPU délivrés par les T1s

P.Girard Utilisation du disque 12 74% d‘utilisation (70% eff.) ALICE: 51% (36% brut) ATLAS: 83% (58% brut) CMS: 30% (21% brut) LHCb: 65% (45% brut) Disque pledgé pour 2011 partiellement déployé mi- avril. Le restant en attente de place dans « Vil1 ». Ok, depuis le 25 mai. Le déploiement peut reprendre (en juin). Source: WLCG-T1 Monthly report

P.Girard Déploiement du disque

P.Girard Utilisation du stockage sur bande 14 Source: WLCG-T1 Monthly report 82% de pledges 2010 Mars 2011 / Pledges 2010 ALICE: 17% ATLAS: 80% CMS: 110% LHCb: 32% Avril 2011 / Pledges 2011 ALICE: 19% ATLAS: 34% CMS: 71% LHCb: 19% Pledges 2011: TB ALICE: + 0% ATLAS: + 160% CMS: + 70% LHCb: + 88,5% Achat au fur et à mesure des besoins.

P.Girard Activités spécifiques Atlas ■ Réorganisation de l’espace de stockage ■ Utilisation de la migration des données pour effectuer un stress test de dCache Reproduction contrôlée du problème de transferts lents qui a impacté les campagnes de reprocessing d’octobre et novembre 2010 Alice ■ Test de torrent pour la distribution du soft. Echoué car utilisation de /tmp ■ Migration des serveurs Xrootd de Solaris vers Linux Pour résoudre le problème du plugin d’authentification plus supporté sur Solaris En cours 15

P.Girard Activités spécifiques LHCb ■ Réorganisation de l’espace de stockage ■ Récupération de 4407 fichiers (SDST) stockés sur bande Effacés par LHCb par erreur sur plusieurs T1s Mise en place d’une procédure pour monter une deuxième instance HPSS utilisant un backup de la base des méta-données. Plusieurs FTE-jours. ■ Demande de 5 Go par job pour finir leur production actuelle Problème de fuite mémoire dans le soft LHCb. Reconfiguration des CEs en urgence o Effet de bord: Disponibilité du T1 calculé à 0 pour une bonne partie de mai !!! o Ticket affecté à GSTAT, problème identifié, manque de réactivité CMS ■ Sur-charge de dCache Demande de « staging » par mail et lancement des jobs sans attendre que ce soit fait Jobs demandant systématiquement le « staging » (mauvaise utilisation d’une option dans dccp) pour des milliers de fichiers A néanmoins permis de mettre en évidence un problème de dCache o Corrigé avec la dernière version installée au T1 16

P.Girard 17

P.Girard Problèmes résolus Problèmes des transferts d’Atlas avec dCache ■ WLCG SIR détaillant les raisons du problème WLCG SIR ■ Combinaison de problèmes Concurrence écriture/lecture accentué par la configuration du calcul de checksum Mauvais load-balancing entre les pools de dCache ■ Changement de configuration faite début décembre ■ Stress test en collaboration avec Atlas pour reproduire le problème 18 Source: Ghita Rahal

P.Girard Problèmes résolus Problème du Software AREA de LHCb ■ WLCG SIR détaillant les raisons du problème WLCG SIR ■ Changement de version du client AFS ■ Réduction du nombre de job slots sur nos WNs 24 cœurs ■ Travail en cours sur le problème de latence avec les FS partagés (côté client) NFS, AFS, CVMFS (vs FS local) 19 Source: Yannick Perret Pierre Girard Pour + de détails, cf. backup slides

P.Girard Problèmes en cours Efficacité des jobs ATLAS ■ Investigations en cours Côté ATLAS Côté CCIN2P3 ■ 98% d’efficacité sur un WN 24 cœurs configurés avec 5 job slots 20 Source: Eric Lançon

P.Girard Préoccupations Technique ■ Comportement de nos dernières acquisitions Salle machine et Grid Engine Aléas et temps d’adaptation ■ Arrivée de glexec/Argus Validé pour ATLAS, CMS et LHCb o Configuration aurait pu être plus simple »« ALLOW one to glexec, DENY someone to run on need » Déploiement controversé (GDB) o Par les sites et les VOs o Pourtant une nécessité pour la sécurité (du site) 21

P.Girard Préoccupations Fonctionnement ■ Turnover du personnel Au revoir et bravo à o Damien, Catherine, Farida, Luisa, et peut-être Eric Bienvenue à o Sébastien Gadrat (CMS) o Une personne (stockage) attendue pour juillet ■ Politique de rigueur du CNRS Plus de possibilité de réutiliser les mois de CDD restant après la départ de quelqu’un Diminution drastique des CDDs et postes pérennes Diminution des budgets (CC et LCG-Fr) 22

P.Girard Préoccupations Projets ■ Incompréhension entre WLCG et EGI/EMI Présentation de Markus Schulz (GDB Mai) Difficile de danser sur 2 rythmes en même temps ■ Et pourtant Opérations (EGI/EMI) Middleware (EGI/EMI) Ressources (majoritairement LCG) Utilisateurs (majoritairement LCG) ■ Dynamique des VOs LHC participent à la dispersion Demandent aux sites la mise en place de solutions spécifiques o Torrent, CVMFS, Monitoring, xrootd, etc. Jouent sur la concurrence entre sites 23

P.Girard 24

P.Girard Conclusions Une nouvelle infrastructure qui est un atout pour l’avenir ■ Merci à D. Boutigny pour ces nouveaux joujoux Une bonne utilisation/activité des VOs ■ Attention avec ALICE Ok pour 2011 ■ Avec notre lot de problèmes habituels à résoudre Multiples préoccupations quant à l’avenir ■ Dispersion qui ne colle pas avec notre modèle de mutualisation ■ Besoin de fédérer les projets Merci à France Grilles d’assurer les opérations au quotidien 25

P.Girard Perspectives Monitoring ■ Adapter les anciens outils à la nouvelle infrastructure ■ Outils d’aide au diagnostic Travail avec les VOs/Support CVMFS ■ Simplifie la distribution du soft ■ Introduction progressive en production pour ATLAS/LHCb Cloud computing/virtualisation ■ « Virtualisation and Clouds » au GDB de Mai « Virtualisation and Clouds » au GDB de Mai ■ Du réel… au virtuel (pour boucler la boucle) 26

P.Girard 27 Questions

P.Girard 28

P.Girard Comparaison des clients de FS partagés sur une machine 29

P.Girard CVMFS: effet de la taille du cache sur la durée du job 30