EGEE-II INFSO-RI-031688 Enabling Grids for E-sciencE www.eu-egee.org EGEE and gLite are registered trademarks Les sites de calcul EGEE en France David.

Slides:

Advertisements

Présentations similaires

LCG DATAGRID - France 8 Juillet 2002 LCG : LHC Grid computing - qui, quoi, quand, comment ? Quoi ? But : préparer l'infrastructure informatique des 4 expériences.

Advertisements

Grille Régionale Rhône-Alpes Institut des Grilles du CNRS Yonny CARDENAS CC-IN2P3 Réunion du groupe de travail grilles Projet CIRA Grenoble, le 2 Juin.

Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks VO Fusion Pierrick Micout, CEA - DAPNIA.

LEGO – Rennes, 18 Septembre 2006 Un outil de monitoring pour le déploiement dynamique de JuxMem Loïc Cudennec IRISA / INRIA, PARIS project-team Stage de.

Planification budgétaire Tier-2s Tier-3s Fairouz Malek, Fabio Hernandez, Frédérique Chollet Comité de direction 7 juillet 2008.

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Le monitoring réseau dans EGEE Guillaume.

Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks La région France et les sites de calcul EGEE.

Plan Définitions et exemples Composants de cluster

Services de production grille en France Gilles Mathieu IN2P3-CC France Grilles Frédérique Chollet IN2P3-LAPP LCG France Rencontres France Grilles et LCG-France,

Alice LCG Task Force Meeting 16 Oct 2008Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1/20BARBET Jean-Michel - 1/20 LCGFR Marseille Juin.

EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.

Projet LCG: Déploiement Pierre Girard EGEE/LCG ROC EGEE/LCG site deployment Centre de Calcul de l’IN2P3 LCG France Lyon, 14 décembre.

Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Contact Sécurité du ROC français R. Rumler.

Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.

Quattor : Opérations Courantes - G. Philippon/M. Jouvin4-5/2/2009Quattor : Opérations Courantes - G. Philippon Opérations courantes.

Le noeud de grille Tier 3 LAPP.

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Transition vers EGEE-III (et EGI?) Pierre.

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Rapport du ROC France Pierre Girard French.

Transition EGEE SA1 FR vers Opérations France Grille

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks TP Data Management René Météry CS Tutorial.

L’environnement Labo : Laboratoire de Physique des Particules d’Annecy-le vieux: LAPP (PP, Astro) Effectif du labo : 144 personnes Nombre d’IT : 76 dont.

Recapitulatif des sujets abordés Frédérique Chollet Fabio Hernandez Fairouz Malek Réunion LCG-France Tier-2s & Tier-3s Paris, 20 mars 2008.

Les fermes de PCs au Centre de Calcul de l’IN2P3 Journée « ferme de PCs » 27 juin 2000 Benoit Delaunay

ATLAS Ghita Rahal CC-IN2P3 Novembre 9, /6/2006Réunion CAF2 Activités Création et externalisation d’outils de monitoring de l’état du T1 (CPU,

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Data management David Bouvet IN2P3-CC Clermont.

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Sécurité sur le GRID Ahmed Beriache (CGG)

EGEODE 08/11/2006 Équipe GRID1 EGEODE EGEODE. 08/11/2006 Équipe GRID2 Plan  La géophysique sur la Grille : EGEODE  Partenariat académique  Comment.

Enabling Grids for E-sciencE EGEE-III INFSO-RI Sécurité sur la Grille G. Philippon (LAL – CNRS ) Tutorial EGEE Utilisateur (DAKAR)

9ème Forum Utilisateurs CATIA CERN Retour d‘expérience IN2P3 08 novembre 2011V. Boninchi1.

GRIF Status Michel Jouvin LAL/Orsay

Monitoring: état et perspectives Cette présentation fera le point sur le travail effectué au sein du groupe de travail, créé au sein de LCG-France et EGEE.

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.

Cécile Barbier David Bouvet Christine Leroy L'exploitation de la grille au quotidien.

Mardi 30 mars 2010 Technologies employées par le portail des opérations Cyril L’Orphelin, Olivier Lequeux, Pierre Veyre IN2P3/CNRS Computing Centre, Lyon,

Catalogues de fichiers de données. David Bouvet2 Problématique Possibilité de répliquer les fichiers sur divers SE  nécessité d’un catalogue de fichiers.

Mercredi 1er juin 2016 Panorama sur les outils de monitoring Cyril L’Orphelin David Bouvet.

Projet LCG: Infrastructure opérationnelle Pierre Girard EGEE/LCG ROC deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3

Retour d'expérience sur le déploiement d'un site grille de production Pierre Girard EGEE/LCG ROC Deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3.

Réunion EGEE France 11/6/2004Page 1Rolf Rumler Structure de l’exploitation d’EGEE.

Grid au LAL Michel Jouvin LAL / IN2P3

CAF LCG-FRANCE A.Rozanov LCG France 22 Juillet SOMMAIRE Composition CAF DC2 ATLAS Demandes fin 2004.

Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue

Conclusions (?) Fabio Hernandez Frédérique Chollet Fairouz Malek Réunion Sites LCG-France Annecy, May

C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.

EGEE is a project funded by the European Union under contract IST Initiation à l’infrastructure Tutorial Grille (LCG/EGEE)

INFSO-RI Enabling Grids for E-sciencE Sécurité sur la Grille C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 8 octobre 2007.

EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.

Fabio Hernandez Lyon, 9 novembre 2006 LCG-France Tier-1 Réunion de Coordination.

Tutorial ATLAS France, CCIN2P3, 05/02/2007 INFSO-RI Enabling Grids for E-sciencE Introduction à la grille LCG/EGEE Pierre Girard.

Réunion des sites LCG France- Marseille juin ACTIVITES DU GROUPE ACCOUNTING FRANCE GRILLES Cécile Barbier (LAPP)

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks La région France dans la grille EGEE David.

Mardi 30 mars 2010 Les Outils d'Exploitation et de Surveillance Cyril L’Orphelin, Atelier technique France Grilles, 31 Mai 2010 IN2P3/CNRS Computing Centre,

Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.

Tier 2 au LAPP. Plan Historique Objectifs Infrastructures Status/métriques Avenir Conclusion.

Tier2: Subatech Tier2: LPC Tier2: GRIF CEA/DAPNIA LAL LLR LPNHE IPNO Tier2: GRIF CEA/DAPNIA LAL LLR LPNHE IPNO AF: CC-IN2P3 Tier3: LAPP Tier1: CC- IN2P3.

EGEE induction course, 22/03/2005 INFSO-RI Enabling Grids for E-sciencE Infrastructure Overview Pierre Girard French ROC deputy.

Tutorial “Administrateur de site EGEE”, CCIN2P3, 24/10/2007 INFSO-RI Enabling Grids for E-sciencE Introduction à la grille LCG/EGEE.

TÂCHES D’ADMINISTRATION DE LA NAGIOSBOX BIOMED LE 24 Mai 2011, Christine Leroy,

Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.

INFSO-RI Enabling Grids for E-sciencE Data management Daniel Jouvenot IN2P3-LAL ORSAY - 02/02/2007.

EGEE France, Marseille, 24 mars 2005 INFSO-RI Enabling Grids for E-sciencE Activité SA1 Regional Operations Centre Pierre Girard.

08/02/2007 Site Grille : Ambitions 2007 Pierre Girard LCG-France Tier

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.

Fonctionnement de la grille

Infrastructure Opérationnelle d’EGEE

Infrastructure Opérationnelle d’EGEE2

Transcription de la présentation:

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Les sites de calcul EGEE en France David Bouvet Tutorial CGG 07-10/11/2006

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet2 Plan Sites français Site grille Site de calcul –infrastructure –aspects fonctionnels –ex. –préoccupations majeures –quelques éléments de solutions (retour d’exp. IN2P3-CC) Conclusions Liens utiles

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet3 Sites français ROC Français: IN2P3-CC IN2P3-CC Lyon (Centre de Calcul de l'IN2P3) IN2P3-CC IN2P3-LPC Clermont (Laboratoire de Physique Corpusculaire) IN2P3-LPC IN2P3-CPPM Marseille (Centre de Physique des Particules de Marseille) IN2P3-CPPM GRIF Ile de France (Grille de Recherche d’Ile de France) Site distribué sur les sites : DAPNIA (CEA/Saclay), IPNO (IN2P3, Orsay), LAL (IN2P3, Orsay), LLR (Ecole Polytechnique, Palaiseau) et LPNHE (IN2P3, Paris 6) GRIF CGG Massy (Compagnie Générale de Géophysique) CGG IPSL/IPGP Paris (Institut Pierre Simon Laplace/Institut de Physique du Globe de Paris) IPSL/IPGP IN2P3-LAPP Annecy (Laboratoire d'Annecy-Le-Vieux de Physique des Particules) IN2P3-LAPP IN2P3-SUBATECH Nantes (Laboratoire de physique SUBAtomique et des TECHnologies associées) IN2P3-SUBATECH IN2P3-IRES Strasbourg (Institut de Recherches Subatomiques) IN2P3-IRES AUVERGRID Clermont (site pour une grille régionale) AUVERGRID  IN2P3-LPSC Grenoble (Laboratoire de Physique Subatomique et de Cosmologie) IN2P3-LPSC

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet4 Déployer un site grille… c’est mettre le doigt dans l’engrenage de la production [P. Girard 2005]

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet5 Site grille : un autre niveau de mutualisation des ressources Centre de calcul : –Supercalculateur / Fermes de calcul  ensemble de “Worker Nodes”  machines hétérogènes (Hardware, OS) –Grande capacité de stockage (disques, bandes) –Gestion de communauté d’utilisateurs via les comptes (groupes et utilisateurs) –Gestion experte de la production Grille de calcul : –Mutualisation des centres de ressources –Gestion de communautés via le concept de “Virtual Organization” –Minimisation du temps de latence des utilisateurs

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet6 Site grille : un autre niveau de mutualisation des ressources Centre de calcul :Grille de calcul : Ferme1Ferme2 Batch System Système de partage de fichiers WN … Stockage France Resource Broker(s) Catalogue de fichiers RC Italie RC … Stockage VO

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet7 Site de calcul : infrastructure Centre de ressources / Site (SA1) –fournit à la grille  des ressources de calcul  des ressources de stockage  éventuellement des services/VO RC France Resource Broker Catalogue de fichiers RC Italie … Stockage VO Storage Element Computing Element RB BDII LFCUI VOMSFTS

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet8 Site de calcul : aspects fonctionnels Gestion des membres d’une VO –sur les noeuds de grille, “Mapping” des membres de la VO vers la notion d’utilisateurs des systèmes d’exploitation  génération d’un “grid-mapfile” sur certains services de la grille  configuration faite par le site sur le noeud pour mapper le “proxy” vers le compte fonction des gestion de “pool” de comptes: egeode001, egeode002… les différents groupes et rôles se traduisent par un mapping sur des pools/comptes différents tous les pools de la VO partage le même groupe local users VO1_User VO2_User Grid-mapfile SE CE RB ACL Proxy VO VOMS ACL1 ACL2 ACL3

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet9 Site de calcul : aspects fonctionnels Publication d’information sur la grille –chaque site publie  Une description des ressources/services qu’il fournit par VO  L’état actuel de ses ressources (CPU libres, espace de stockage...)  Sur les RC, ce qu’une VO a installé (“Tags” des Software Managers) RC3RC2 RC1RB1 RB2LFC Système d’information (BDII) Site CC-IN2P3 VO1 VO2 VO3

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet10 Site de calcul (ex.) : IN2P3-CC VO Box VO LHC Site BDII Computing Element Computing Element Storage Element Storage Element VOMS 4 VOs LFC Central Biomed HPSS DCACHE Storage Element SRM Gridftp XFS Stockage BQS Anastasie WN Calcul LFC Local 4 VOs LHC FTS 4 VOs LHC MonBox 4 Sites Système d’informatio n de la grille VO Box VO LHC V OBox VO LHC VO Box VO LHC

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet11 Site de calcul : préoccupations majeures Services de grille critiques –indisponibilité des services de VO (VOMS, LFC, FTS, …)  impossibilité pour la VO d’utiliser la grille –indisponibilité du système d’information du site (site BDII)  disparition des services critiques du système d’information globale Sécurité –traçabilité de l’utilisation des nœuds grilles –trou de sécurité introduit par le M/W Gestion des données des VO –indisponibilité/perte des données applicatives (Storage Element) –indisponibilité/perte des données de service spécifiques aux VO :  BD des membres d’une VO ou des catalogues de fichiers d’une VO  Tags des VO enregistrés sur les CE (indiquant les softwares installés sur le site par la VO)  software des VO installés sur les espaces partagés Mises à jour du Middleware/Changements de configuration –dysfonctionnement dû à de mauvaises configurations, des nouveaux bugs, etc.  ex. : mauvaise publication d’un CE créant un « trou noir » sur la grille (7000 Jobs d’Atlas en 1 nuit en mai pour IN2P3-CC) –rupture de services –perturbation/rupture de la production locale

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet12 Site de calcul (ex. IN2P3-CC) : quelques éléments de solution (1) Disposer d’une infrastructure de test/validation –pour éprouver le M/W, son installation, mieux le comprendre et donc le maîtriser avant de le mettre en production  utilisation de la technologie des machines virtuelles (5 serveurs VMWare avec 4 machines virtuelles) économique gain de temps grâce au clonage d’images de référence adaptée aux installations répétées évite l’intervention des administrateurs systèmes pour des réinstallation à répétition permet de disposer de services de grille hors production nécessaires aux tests d’autres noeuds.

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet13 Site de calcul (ex. IN2P3-CC) : quelques éléments de solution (2) Utiliser l’expertise locale et déléguer aux experts la part qui leur incombe –toutes nos BD sont en charge de l’équipe « Bases de Données » –l’installation du système et la gestion réseau des nœuds grille sont assurées par l’équipe « Systèmes et Réseaux »  une grande partie des problèmes de sécurité est couverte par les experts en sécurité du CCIN2P3  l’environnement des nœuds de grille est cohérent avec les autres machines du parc  on dispose des outils de surveillance matériel et systèmes pour les nœuds de la grille –le stockage/transfert de données est géré par l’équipe « Stockage » –le suivi des jobs « grille » est assuré par l’équipe « Production » –une partie du support aux utilisateurs grille est pris en charge par le « Support aux utilisateurs »

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet14 Site de calcul (ex. IN2P3-CC) : quelques éléments de solution (3) Communiquer des alias plutôt que des noms de machines pour les nœuds de la grille –quand le M/W le permet (pb avec les CE) –quand le nom d’un nœud entre dans la configuration d’autres nœuds de grille  changement transparent de machine lors de panne ou de mise à jour de l’intergiciel L’utilisation d’une machine de rechange permet des mises à jour sans arrêt de service (BDII, CE) –le nœud de remplacement fraîchement mis à jour peut être largement testé avant son entrée en production –dans le cas d’un CE, on peut faire tourner 2 CE simultanément sans avoir à drainer le gestionnaire de jobs 1.mise en production du nouveau CE 2.fermeture de l’ancien CE (il n’accepte plus de nouveaux jobs) 3.sortie de l’ancien CE lorsque tous ses jobs sont finis

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet15 Site de calcul (ex. IN2P3-CC) : quelques éléments de solution (4) L’installation partagée des WN/UI sur AFS  faire l’installation pour l’ensemble de la ferme sans altérer l’installation de chaque WN  pour éviter de sortir les WN de production le temps de la mise à jour mise à jour de tous les WN en une fois  durée: un drainage de la ferme (24 à 48h selon les jobs en machine) mise à jour par N lots de WN  durée: N x drainage des lots de WN (24 à 48h selon les jobs en machine)  de faire coexister différentes version de l’intergiciel  pour les WN, mise en œuvre au niveau du CE d’un mécanisme de sélection de la version du M/W à utiliser pour un job  changer de version à la volée par (re)configuration du CE GLITE3.0.0 GLITE3.0.4 CE WN CE WN AFS

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet16 Site de calcul (ex. IN2P3-CC) : quelques éléments de solution (5) Utilisation de système de « backup » pour les données contingentes –la plupart des logs des noeuds de grille est dupliquée sur une machine distante grâce au service « syslog ». Ils sont conservés 3 mois (durée définie par le projet) –les Tags des VO (sur les CE) sont sauvés régulièrement sur cette machine –les softwares de VO sont déposés sur des volumes sauvegardés d’AFS S’armer pour une surveillance active –NAGIOS (CA, CRL, site BDII, etc.) –LEMON (en cours de test) –outils « maison »  ex. : surveillance de l’évolution du ratio entre le total des jobs de la grille et les jobs grille locaux. Permet de détecter des changements anormaux de fréquentation du site. Communiquer rapidement lors de la détection de problème –pour s’économiser le traitement de tickets d’incident –pour sortir de production si besoin est Collaborer avec d’autres sites pour répliquer les services critiques

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet17 Conclusions Déployer et gérer un site grille de production fait appel à plusieurs rôles –administration Réseaux et Systèmes, administration et exploitation de fermes de calcul, administration et exploitation de serveurs de stockages, support aux utilisateurs et aux VO, administration de base de données, expert « grille » Comprendre le middleware et son installation pour –l’adapter à son infrastructure –être réactif mais aussi proactif « Etre proactif, c’est faire des footings dès septembre pour perdre les kilos qu’on prendra aux fêtes de fin d’année. » [P. Girard, 2006]  prévoir les pannes, les évolutions possibles, et s’affranchir tant que possible de dépendances externes  collaborer avec d’autres sites pour garantir la pérennité des services critiques La stabilité du middleware s’est grandement améliorée –l’effet « production » contribue à cette stabilité  la multiplication d’utilisateurs et de sites est la meilleure garantie d’une stabilité vite retrouvée  la mise en place d’une infrastructure opérationnelle –elle repose encore sur une logique de « best effort » et de savoir-faire  manque d’outils d’administrations (administrer n’est pas configurer)  manque de documentation mais aussi trop d’information (mails, wikis, sites web, …)  devrait s’améliorer avec le nouveau middleware, l’utilisation de standard, et la pression mise par les sites

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet18 Liens utiles COD operators –rotation sur les ROC pour fournir une équipe d’opérateurs de surveillance (CIC On Duty) User support : GGUS – Outils de monitoring –CIC portal  point d’entrée sur les autres outils vue intégrée des autres outils à l’usage des COD opérateurs –Service Availability Monitoring (SAM)  –Grid Operations Centre Core Database (GOCDB)  –GIIS monitor (Gstat)  –GOC monitoring tools  –GOC job monitor  Accounting – support.ac.uk/gridsite/accounting/index.htmlhttp://goc.grid- support.ac.uk/gridsite/accounting/index.html

Enabling Grids for E-sciencE Tutorial CGG – 07-10/11/2006David Bouvet19 Merci