Retour d'expérience sur le déploiement d'un site grille de production Pierre Girard EGEE/LCG ROC Deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3.

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

Projet de Virtualisation dans le cadre d’un PCA/PRA
LCG DATAGRID - France 8 Juillet 2002 LCG : LHC Grid computing - qui, quoi, quand, comment ? Quoi ? But : préparer l'infrastructure informatique des 4 expériences.
Grille Régionale Rhône-Alpes Institut des Grilles du CNRS Yonny CARDENAS CC-IN2P3 Réunion du groupe de travail grilles Projet CIRA Grenoble, le 2 Juin.
Système de stockage réseaux NAS - SAN
FrontCall - 4C Les Centres de Contacts Virtuels
Le centre de calcul de l'IN2P3 : une architecture pour le calcul intensif et le stockage de masse Pascal Calvat.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks La région France et les sites de calcul EGEE.
Services de production grille en France Gilles Mathieu IN2P3-CC France Grilles Frédérique Chollet IN2P3-LAPP LCG France Rencontres France Grilles et LCG-France,
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Les sites de calcul EGEE en France David.
EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.
Projet LCG: Déploiement Pierre Girard EGEE/LCG ROC EGEE/LCG site deployment Centre de Calcul de l’IN2P3 LCG France Lyon, 14 décembre.
Offre DataCenter & Virtualisation Laurent Bonnet, Architecte Systèmes Alain Le Hegarat, Responsable Marketing 24 Novembre 2009.
Réunion LCG-France, 7/4/2008 C.Charlot Acc è s aux donn é es Accès à dCache Problèmes de stageout des fichiers produits sur les WNs  Aussi pour le stagein.
LCG-France: Tier-1 au CC-IN2P3 Bilan 2005 et perspectives 2006 Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3
Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Contact Sécurité du ROC français R. Rumler.
Ministère de la Fonction Publique et de la Modernisation de l’Administration Rencontre mensuelle avec les responsables informatiques des départements ministériels.
Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.
Le noeud de grille Tier 3 LAPP.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Transition vers EGEE-III (et EGI?) Pierre.
Service Challenge 4 – Tests de Débit Bilan pour le Tier-1 LCG-France Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3
Transition EGEE SA1 FR vers Opérations France Grille
Centralisation des sites web d’ELTA & Mise en place d’un serveur NAS
L’environnement Labo : Laboratoire de Physique des Particules d’Annecy-le vieux: LAPP (PP, Astro) Effectif du labo : 144 personnes Nombre d’IT : 76 dont.
Recapitulatif des sujets abordés Frédérique Chollet Fabio Hernandez Fairouz Malek Réunion LCG-France Tier-2s & Tier-3s Paris, 20 mars 2008.
Les fermes de PCs au Centre de Calcul de l’IN2P3 Journée « ferme de PCs » 27 juin 2000 Benoit Delaunay
ATLAS Ghita Rahal CC-IN2P3 Novembre 9, /6/2006Réunion CAF2 Activités Création et externalisation d’outils de monitoring de l’état du T1 (CPU,
LHCb DC06 status report (LHCb Week, 13/09/06) concernant le CC : –Site currently fine / stable 3% of simulatated events 30% of reconstructed events –Site.
Lellouche Aaron ITIC Paris
Master 1ère année Sécurité des Systèmes d’Information 1 Rôle et profil de l'administrateur  Profession généraliste peu connue mais très recherchée  Il.
GRIF Status Michel Jouvin LAL/Orsay
Hébergement d’une infrastructure de Cloud Expérience d’un laboratoire Guillaume Philippon.
Retour d'expérience de l'utilisation du cloud comme infrastructure de service Guillaume PHILIPPON.
BaBar France 18/01/2010 Vincent Poireau 1 Page d’aide :
Journées informatique IN2P3/Dapnia, Lyon Septembre 2006 Consolidation des serveurs par virtualisation Retour d’expérience sur l’utilisation de VMware.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.
Cécile Barbier David Bouvet Christine Leroy L'exploitation de la grille au quotidien.
Développement des templates Quattor de gLite à EMI Guillaume PHILIPPON.
Catalogues de fichiers de données. David Bouvet2 Problématique Possibilité de répliquer les fichiers sur divers SE  nécessité d’un catalogue de fichiers.
Mercredi 1er juin 2016 Panorama sur les outils de monitoring Cyril L’Orphelin David Bouvet.
Opérations France-Grilles : Etat des lieux Hélène Cordier/Gilles Mathieu LCG France, 30 Mai 2011.
Projet LCG: Infrastructure opérationnelle Pierre Girard EGEE/LCG ROC deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3
Réunion EGEE France 11/6/2004Page 1Rolf Rumler Structure de l’exploitation d’EGEE.
Grid au LAL Michel Jouvin LAL / IN2P3
Conclusions (?) Fabio Hernandez Frédérique Chollet Fairouz Malek Réunion Sites LCG-France Annecy, May
C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.
EGEE is a project funded by the European Union under contract IST Initiation à l’infrastructure Tutorial Grille (LCG/EGEE)
Projet LCG: Vue d’Ensemble Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3 Rencontre IN2P3/STIC Grenoble, 25.
EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.
Groupe de travail Monitoring LCG-France / SA1-FR Christine Leroy Pierre Girard Fabio Hernandez Frédérique Chollet.
Fabio Hernandez Lyon, 9 novembre 2006 LCG-France Tier-1 Réunion de Coordination.
Réunion des sites LCG France- Marseille juin ACTIVITES DU GROUPE ACCOUNTING FRANCE GRILLES Cécile Barbier (LAPP)
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks La région France dans la grille EGEE David.
Mardi 30 mars 2010 Les Outils d'Exploitation et de Surveillance Cyril L’Orphelin, Atelier technique France Grilles, 31 Mai 2010 IN2P3/CNRS Computing Centre,
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
Tier 2 au LAPP. Plan Historique Objectifs Infrastructures Status/métriques Avenir Conclusion.
EGEE induction course, 22/03/2005 INFSO-RI Enabling Grids for E-sciencE Infrastructure Overview Pierre Girard French ROC deputy.
Session: Intégration de nouveaux sites Le point de vue du ROC Pierre Girard French EGEE ROC deputy CC-IN2P3 grid site administrator.
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
Stratégie technique G. Mathieu – V. Breton. Stratégie vers les fournisseurs de services et de ressources France Grilles2 Jouer le rôle central dans le.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
INFSO-RI Enabling Grids for E-sciencE Data management Daniel Jouvenot IN2P3-LAL ORSAY - 02/02/2007.
EGEE France, Marseille, 24 mars 2005 INFSO-RI Enabling Grids for E-sciencE Activité SA1 Regional Operations Centre Pierre Girard.
08/02/2007 Site Grille : Ambitions 2007 Pierre Girard LCG-France Tier
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.
CALCUL ATLAS LCG France (CC IN2P3 Lyon) 30 Avril SOMMAIRE Data Challenge 2 (DC2) d’ATLAS Utilisation du CC IN2P3.
Etat des services grid de production
Infrastructure Opérationnelle d’EGEE
Infrastructure Opérationnelle d’EGEE2
Transcription de la présentation:

Retour d'expérience sur le déploiement d'un site grille de production Pierre Girard EGEE/LCG ROC Deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3 5ième Journées Informatique de l'IN2P3 et du DAPNIA Lyon, 20 Septembre 2006

P.Girard 2 Plan Introduction Fonctionnement du Centre de Calcul de l’IN2P3 Intégration de la grille au CCIN2P3 Liens utiles

P.Girard 3 Introduction Déployer un site grille… c’est mettre le doigt dans l’engrenage de la production Brêve de couloir: “Gérer la production au CC, c’est comme manæuvrer un paquebot” [R. Rumler, 2004]

P.Girard 4 Plan Vous êtes ici Fonctionnement du Centre de Calcul de l’IN2P3  Missions  Infrastructure de production  Organisation autour de la Production Intégration de la grille au CCIN2P3 Synthèse Liens utiles

P.Girard 5 Fonctionnement du CCIN2P3 Missions Pour qui :  Expériences gourmandes (~70)  En puissance de calcul  En stockage de données  Expériences géographiquement distribuées  Travail collaboratif  Partage des applicatifs  Partage des données Pourquoi :  Mutualisation  des ressources informatiques  des compétences informatiques  Accès partagé aux ressources Comment :  Mise en place d’une infrastructure de production  Gestion de l’exploitation  Optimisation de l’utilisation des machines  Continuité des services Zz z MeteoSys> La météo d’hier sera: Bonne

P.Girard 6 Fonctionnement du CCIN2P3 Infrastructure de production HPSS ~80To TSM ~0,5To ~1,66Po (7Po) 62To AFS ~10To ~80To XROOTD ~32To ~110To DCACHE AnastasiePistoo Batch System BQS … WN NFS/GPFS ~10To Calcul Stockage Machines interactives ~5To Interconnexions

P.Girard 7 Fonctionnement du CCIN2P3 Organisation autour de la Production (1) Equipe « Production »  Gestion de l’exploitation des fermes de calcul  Batch system BQS (développement, amélioration)  Fermes –Anastasie : 754 workers, processors. Puissance : UI, SI2k –Pistoo : 31 workers, 62 processors. Puissance : UI, SI2k  Surveillance des « jobs » utilisateurs  Gestion de l’utilisation des machines  Suivi des besoins des expériences  Comptabilité  Coordination de l’astreinte et du monitoring Equipe « Stockage »  Bandes: 1.66 Po (7 Po) ; Disque : ~1Po  Services: HPSS, Dcache, Xrootd  Protocoles: SRM (gridftp, dcap), rfio  FS partagés: XFS, NFS, GPFS  Service de Backup  Conseil aux expériences  Achat/Validation de matériel et systèmes de stockage (GPFS) Production Stockage Support aux Utilisateurs Web / B.D. Système et Réseaux Utilisateurs/Expériences

P.Girard 8 Fonctionnement du CCIN2P3 Organisation autour de la Production (2) Equipe « Support aux utilisateurs »  Suivi des incidents et demandes utilisateurs  Communication avec les expériences  Assistance à la mise en place de solutions pour les expériences  Développement d’outils  Utilisation des ressources  Base de connaissances  Etc. Equipe « Systèmes d'Information et de Communication »  Administration de SGBDs  MySQL, cluster Oracle  Administration des serveurs Web (migration en cours vers un cluster)  Mise en place d’outils pour l’intranet Production Stockage Support aux Utilisateurs Web / B.D. Système et Réseaux Utilisateurs/Expériences

P.Girard 9 Fonctionnement du CCIN2P3 Organisation autour de la Production (2) Equipe « Réseaux et Systèmes »  Télécommunications  Mise en place/exploitation du réseau –Connectivité internet des laboraroires de l’IN2P3 –Accès aux sites de production de données –Liaison privée 10Gbps avec le CERN –NRD (RENATER), AMPLIVIA (réseau régional à haut débit de la Région Rhône- Alpes), RMU (Universitaire), LYONIX (Lyon et région) –Réseau interne : épine dorsale de 10Gbps, + de 500 connexions 1Gbps  Applicatifs réseaux: –Courrier electronique, liste de diffusion, etc.  Sécurité réseau  Systèmes  Installation des machines: couche système et environnement du CCIN2P3  Dépannage (~10 incidents/jour sur la ferme Anastasie)  Développement d’un outil d’installation (EPIMETHEUS) par profils de service  Surveillance système  Sécurité au niveau système Production Stockage Support aux Utilisateurs Web / B.D. Système et Réseaux Utilisateurs/Expériences

P.Girard 10 Plan Vous êtes ici Le Centre de Calcul de l’IN2P3 Intégration de la grille au CCIN2P3  Activités dans les projets LCG/EGEE  Intégration de l’équipe « Grille »  Historique du déploiement  Site grille « IN2P3-CC »  Préoccupations majeures  Elements de solution Liens utiles

P.Girard 11 Intégration de la grille au CCIN2P3 Activités dans les projets LCG/EGEE Activités EGEE-SA1 : European Grid Support, Gestion de l’exploitation, Site grille Activités LCG Tier-1 : Centre de stockage des données aux niveaux local et national, Reconstruction de données, Distribution des données entre Tiers-2, etc. CC IN2P3 (EGEE) CIC: Core Infrastructure Centre (EGEE) ROC: Regional Operations Centre (EGEE/EGEE-II/LCG) EGEE Resource Centre T1 LCG-Site Local Global National Grid services Storage Monitoring User Support Computing Accounting Site Support (EGEE-II) Super ROC 2 ième phase (Actuellement) 1 ière phase (04/04 – 04/06) 2 ième phase (Actuellement)

P.Girard 12 Intégration de la grille au CCIN2P3 Intégration de l’équipe « Grille » Créée sur l’infrastructure de production  « Stratégie du café crème : Tu poses la crème sur le café, et elle finit par se diluer toute seule dans le café. » [R. Rumler, 2006] Des membres des équipes existantes participent aux réunions « grille »  Pour accélérer la diffusion de la technologie grille au CCIN2P3  Pour faciliter le travail d’interfaçage entre l’intergiciel grille et les ressources/services du CCIN2P3  Diffusion de l’information dans les 2 sens. Production Stockage Support aux Utilisateurs Web / B.D. Système et Réseaux Grid

P.Girard 13 Intégration de la grille au CCIN2P3 Equipe « grille » Participation aux projets grille (~3 FTEs)  Coordination nationale de l’exploitation (ROC)  Participation à la mise en place de l’exploitation et du support (ROCs)  Interopérabilité de grilles (EGEE, OSG, NAREGUI)  Co-coordination du groupe OAG qui suit les demandes des expériences en ressources de la grille Administration du middleware (~2 FTEs)  Installation/configuration des services de grille  Mise en place d’une infrastructure d’exploitation  Interfaçage avec les ressources du CC Développement Web (~2 FTEs)  Site CIC (gestion du workflow d’exploitation EGEE)  Intranet Grille Monitoring (~1 FTE)  Développement d’outils  CIC On Duty (Astreinte de la grille) Support (~1 FTE)  VO Support  ROC (Sites) Support  User Support Grid Tea m

P.Girard 14 Intégration de la grille au CCIN2P3 Historique du déploiement EGEE/LCG phase 1 (04/2004 – 03/2006):  Intergiciel LCG (adaptation de Datagrid)  Mise à jour tous les 2 mois :  LCG > LCG2.6.0  Système d’exploitation  RedHat 7.3  Puis, à partir de LCG2.3.0 (2005), Scientific Linux 3  Installation/configuration:  LCFGng (RH7.3),  Puis, avec APT (installation) et les scripts YAIM (configuration) EGEE/LCG phase 2:  Actuellement: LCG2.7.0 and GLITE3.0  GLITE3.0: mixe des composants de 2 intergiciels, LCG et gLite  Nouveaux nœuds introduits par gLite :  Job management: CE gLite, WMS gLite (not yet in production)  Service de gestion de transferts: FTS  Service de VO: VOMS  La gestion des jobs à travers gLite ne semble pas encore très stable

P.Girard 15 VO Box VO LHC Site BDII Intégration de la grille au CCIN2P3 Site grille IN2P3-CC Computing Element Computing Element Storage Element Storage Element VOMS 4 VOs LFC Central Biomed HPSS DCACHE Storage Element SRM Gridftp XFS Stockage BQS Anastasie WN Calcul LFC Local 4 VOs LHC FTS 4 VOs LHC MonBox 4 Sites Système d’informatio n de la grille VO Box VO LHC V OBox VO LHC VO Box VO LHC

P.Girard 16 Intégration de la grille au CCIN2P3 Préoccupations majeures Services de grille critiques  Indisponibilité des services de VO (VOMS, LFC, FTS, …)  Indisponibilité du système d’information du site (site BDII) Sécurité  Systèmes et réseaux  Traçabilité de l’utilisation des nœuds grilles  Trou de sécurité introduit par le M/W Gestion des données des VOs  Indisponibilité/perte des données applicatives (Storage Element)  Indisponibilité/perte des données de service spécifiques aux VOs:  BDs des membres d’une VO ou des catalogues de fichiers d’une VO  Tags des VO enregistrés sur les Ces  Software des VOs installés sur les espaces partagés Mises à jour du Middleware/Changements de configuration  Dysfonctionnement dû à de mauvaises configurations, des nouveaux bugs, etc.  Ex.: Mauvaise publication d’un CE créant un « trou noir » sur la grille (7000 Jobs d’Atlas en 1 nuit en mai)  Rupture de services

P.Girard 17 Intégration de la grille au CCIN2P3 Eléments de solution(1) Identifier dans le M/W les composants dont l’administration peut être déléguée aux experts locaux  Toutes nos BDs sont en charge de l’équipe « Bases de Données »  L’installation du système et la gestion réseau des nœuds grille sont assurées par l’équipe « Systèmes et Réseaux »  Une grande partie des problèmes de sécurité est couverte par les experts en sécurité du CCIN2P3  L’environnement des nœuds de grille est cohérent avec les autres machines du parc  On dispose des outils de surveillance matériel et systèmes pour les nœuds de la grille  Le stockage de données est géré par l’équipe « stockage » Disposer d’une infrastructure de test/validation  Pour éprouver le M/W, son installation, mieux le comprendre et donc le maîtriser avant de le mettre en production  Utilisation de la technologie des machines virtuelles (5 serveurs VMWare)  Economique  Gain de temps grâce au clonage d’images de référence  Adaptée aux installations répétées  Evite l’intervention des administrateurs systèmes pour des réinstallation from scratch  Permet de disposer de services de grille hors production nécessaires aux tests d’autres noeuds.

P.Girard 18 Intégration de la grille au CCIN2P3 Eléments de solution(2) Communiquer des alias plutôt que des noms de machines pour les nœuds de la grille  Quand le M/W le permet (pb avec les CEs)  Quand le nom d’un nœud entre dans la configuration d’autres nœuds de grille  Permet de changer de machine lors de panne ou de mise à jour L’utilisation d’une machine de rechange permet des mises à jour sans arrêt de service (BDII, CE)  Le nœud de remplacement fraîchement mis-à-jour peut être largement testé avant son entrée en production  Dans le cas d’un CE, on peut faire tourner 2 CEs simultanément sans avoir à drainer le gestionnaire de jobs  Mise en production du nouveau CE  Fermeture de l’ancien CE (il n’accepte plus de nouveaux jobs)  Sortie de l’ancien CE lorsque tous ses jobs sont finis L’installation partagée des WN/UI sur AFS  De faire une installation pour l’ensemble de la ferme  De faire coéxister différentes version de M/W  Pour les WNs, la version du M/W à utiliser pour un job est fixé au niveau du CE

P.Girard 19 Intégration de la grille au CCIN2P3 Eléments de solution(3) Utilisation de système de « backup » pour les données critiques  La plupart des logs des noeuds de grille Grid sont dupliquée sur une machine distante grâce au service « syslog ». Ils sont conservés 3 mois (durée définie par le projet)  Les Tags des VOs (on CEs) sont sauvées régulièrement sur cette machine  Les softwares de VO sont déposés sur des volumes sauvegardés d’AFS S’armer pour une surveillance active  NAGIOS (CA, CRLS, site BDII, etc.)  LEMON (en cours de test)  Outils « maison »  Ex.: Surveillance de l’évolution du ratio entre le total des jobs de la grille et les jobs grille locaux. Permet de détecter des changements anormaux de férquentation du site. Communiquer rapidement lors de la détection de problème  Pour s’économiser le traitement de tickets d’incident  Pour sortir de production si besoin est

P.Girard 20 Liens utiles CCIN2P3  EGEE  CIC :  Projet EGEE : LCG  GOC :  Projet LCG :

P.Girard 21 Questions