La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Retour d'expérience sur le déploiement d'un site grille de production Pierre Girard EGEE/LCG ROC Deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3.

Présentations similaires


Présentation au sujet: "Retour d'expérience sur le déploiement d'un site grille de production Pierre Girard EGEE/LCG ROC Deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3."— Transcription de la présentation:

1 Retour d'expérience sur le déploiement d'un site grille de production Pierre Girard EGEE/LCG ROC Deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3 pierre.girard@in2p3.fr 5ième Journées Informatique de l'IN2P3 et du DAPNIA Lyon, 20 Septembre 2006

2 P.Girard 2 Plan Introduction Fonctionnement du Centre de Calcul de l’IN2P3 Intégration de la grille au CCIN2P3 Liens utiles

3 P.Girard 3 Introduction Déployer un site grille… c’est mettre le doigt dans l’engrenage de la production Brêve de couloir: “Gérer la production au CC, c’est comme manæuvrer un paquebot” [R. Rumler, 2004]

4 P.Girard 4 Plan Vous êtes ici Fonctionnement du Centre de Calcul de l’IN2P3  Missions  Infrastructure de production  Organisation autour de la Production Intégration de la grille au CCIN2P3 Synthèse Liens utiles

5 P.Girard 5 Fonctionnement du CCIN2P3 Missions Pour qui :  Expériences gourmandes (~70)  En puissance de calcul  En stockage de données  Expériences géographiquement distribuées  Travail collaboratif  Partage des applicatifs  Partage des données Pourquoi :  Mutualisation  des ressources informatiques  des compétences informatiques  Accès partagé aux ressources Comment :  Mise en place d’une infrastructure de production  Gestion de l’exploitation  Optimisation de l’utilisation des machines  Continuité des services Zz z MeteoSys> La météo d’hier sera: Bonne

6 P.Girard 6 Fonctionnement du CCIN2P3 Infrastructure de production HPSS ~80To TSM ~0,5To ~1,66Po (7Po) 62To AFS ~10To ~80To XROOTD ~32To ~110To DCACHE AnastasiePistoo Batch System BQS … WN NFS/GPFS ~10To Calcul Stockage Machines interactives ~5To Interconnexions

7 P.Girard 7 Fonctionnement du CCIN2P3 Organisation autour de la Production (1) Equipe « Production »  Gestion de l’exploitation des fermes de calcul  Batch system BQS (développement, amélioration)  Fermes –Anastasie : 754 workers, 2 068 processors. Puissance : 46 591 UI, 2 329 535 SI2k –Pistoo : 31 workers, 62 processors. Puissance : 1 590 UI, 79 515 SI2k  Surveillance des « jobs » utilisateurs  Gestion de l’utilisation des machines  Suivi des besoins des expériences  Comptabilité  Coordination de l’astreinte et du monitoring Equipe « Stockage »  Bandes: 1.66 Po (7 Po) ; Disque : ~1Po  Services: HPSS, Dcache, Xrootd  Protocoles: SRM (gridftp, dcap), rfio  FS partagés: XFS, NFS, GPFS  Service de Backup  Conseil aux expériences  Achat/Validation de matériel et systèmes de stockage (GPFS) Production Stockage Support aux Utilisateurs Web / B.D. Système et Réseaux Utilisateurs/Expériences

8 P.Girard 8 Fonctionnement du CCIN2P3 Organisation autour de la Production (2) Equipe « Support aux utilisateurs »  Suivi des incidents et demandes utilisateurs  Communication avec les expériences  Assistance à la mise en place de solutions pour les expériences  Développement d’outils  Utilisation des ressources  Base de connaissances  Etc. Equipe « Systèmes d'Information et de Communication »  Administration de SGBDs  MySQL, cluster Oracle  Administration des serveurs Web (migration en cours vers un cluster)  Mise en place d’outils pour l’intranet Production Stockage Support aux Utilisateurs Web / B.D. Système et Réseaux Utilisateurs/Expériences

9 P.Girard 9 Fonctionnement du CCIN2P3 Organisation autour de la Production (2) Equipe « Réseaux et Systèmes »  Télécommunications  Mise en place/exploitation du réseau –Connectivité internet des laboraroires de l’IN2P3 –Accès aux sites de production de données –Liaison privée 10Gbps avec le CERN –NRD (RENATER), AMPLIVIA (réseau régional à haut débit de la Région Rhône- Alpes), RMU (Universitaire), LYONIX (Lyon et région) –Réseau interne : épine dorsale de 10Gbps, + de 500 connexions 1Gbps  Applicatifs réseaux: –Courrier electronique, liste de diffusion, etc.  Sécurité réseau  Systèmes  Installation des machines: couche système et environnement du CCIN2P3  Dépannage (~10 incidents/jour sur la ferme Anastasie)  Développement d’un outil d’installation (EPIMETHEUS) par profils de service  Surveillance système  Sécurité au niveau système Production Stockage Support aux Utilisateurs Web / B.D. Système et Réseaux Utilisateurs/Expériences

10 P.Girard 10 Plan Vous êtes ici Le Centre de Calcul de l’IN2P3 Intégration de la grille au CCIN2P3  Activités dans les projets LCG/EGEE  Intégration de l’équipe « Grille »  Historique du déploiement  Site grille « IN2P3-CC »  Préoccupations majeures  Elements de solution Liens utiles

11 P.Girard 11 Intégration de la grille au CCIN2P3 Activités dans les projets LCG/EGEE Activités EGEE-SA1 : European Grid Support, Gestion de l’exploitation, Site grille Activités LCG Tier-1 : Centre de stockage des données aux niveaux local et national, Reconstruction de données, Distribution des données entre Tiers-2, etc. CC IN2P3 (EGEE) CIC: Core Infrastructure Centre (EGEE) ROC: Regional Operations Centre (EGEE/EGEE-II/LCG) EGEE Resource Centre T1 LCG-Site Local Global National Grid services Storage Monitoring User Support Computing Accounting Site Support (EGEE-II) Super ROC 2 ième phase (Actuellement) 1 ière phase (04/04 – 04/06) 2 ième phase (Actuellement)

12 P.Girard 12 Intégration de la grille au CCIN2P3 Intégration de l’équipe « Grille » Créée sur l’infrastructure de production  « Stratégie du café crème : Tu poses la crème sur le café, et elle finit par se diluer toute seule dans le café. » [R. Rumler, 2006] Des membres des équipes existantes participent aux réunions « grille »  Pour accélérer la diffusion de la technologie grille au CCIN2P3  Pour faciliter le travail d’interfaçage entre l’intergiciel grille et les ressources/services du CCIN2P3  Diffusion de l’information dans les 2 sens. Production Stockage Support aux Utilisateurs Web / B.D. Système et Réseaux Grid

13 P.Girard 13 Intégration de la grille au CCIN2P3 Equipe « grille » Participation aux projets grille (~3 FTEs)  Coordination nationale de l’exploitation (ROC)  Participation à la mise en place de l’exploitation et du support (ROCs)  Interopérabilité de grilles (EGEE, OSG, NAREGUI)  Co-coordination du groupe OAG qui suit les demandes des expériences en ressources de la grille Administration du middleware (~2 FTEs)  Installation/configuration des services de grille  Mise en place d’une infrastructure d’exploitation  Interfaçage avec les ressources du CC Développement Web (~2 FTEs)  Site CIC (gestion du workflow d’exploitation EGEE)  Intranet Grille Monitoring (~1 FTE)  Développement d’outils  CIC On Duty (Astreinte de la grille) Support (~1 FTE)  VO Support  ROC (Sites) Support  User Support Grid Tea m

14 P.Girard 14 Intégration de la grille au CCIN2P3 Historique du déploiement EGEE/LCG phase 1 (04/2004 – 03/2006):  Intergiciel LCG (adaptation de Datagrid)  Mise à jour tous les 2 mois :  LCG2.0.0 -> LCG2.6.0  Système d’exploitation  RedHat 7.3  Puis, à partir de LCG2.3.0 (2005), Scientific Linux 3  Installation/configuration:  LCFGng (RH7.3),  Puis, avec APT (installation) et les scripts YAIM (configuration) EGEE/LCG phase 2:  Actuellement: LCG2.7.0 and GLITE3.0  GLITE3.0: mixe des composants de 2 intergiciels, LCG et gLite  Nouveaux nœuds introduits par gLite :  Job management: CE gLite, WMS gLite (not yet in production)  Service de gestion de transferts: FTS  Service de VO: VOMS  La gestion des jobs à travers gLite ne semble pas encore très stable

15 P.Girard 15 VO Box VO LHC Site BDII Intégration de la grille au CCIN2P3 Site grille IN2P3-CC Computing Element Computing Element Storage Element Storage Element VOMS 4 VOs LFC Central Biomed HPSS DCACHE Storage Element SRM Gridftp XFS Stockage BQS Anastasie WN Calcul LFC Local 4 VOs LHC FTS 4 VOs LHC MonBox 4 Sites Système d’informatio n de la grille VO Box VO LHC V OBox VO LHC VO Box VO LHC

16 P.Girard 16 Intégration de la grille au CCIN2P3 Préoccupations majeures Services de grille critiques  Indisponibilité des services de VO (VOMS, LFC, FTS, …)  Indisponibilité du système d’information du site (site BDII) Sécurité  Systèmes et réseaux  Traçabilité de l’utilisation des nœuds grilles  Trou de sécurité introduit par le M/W Gestion des données des VOs  Indisponibilité/perte des données applicatives (Storage Element)  Indisponibilité/perte des données de service spécifiques aux VOs:  BDs des membres d’une VO ou des catalogues de fichiers d’une VO  Tags des VO enregistrés sur les Ces  Software des VOs installés sur les espaces partagés Mises à jour du Middleware/Changements de configuration  Dysfonctionnement dû à de mauvaises configurations, des nouveaux bugs, etc.  Ex.: Mauvaise publication d’un CE créant un « trou noir » sur la grille (7000 Jobs d’Atlas en 1 nuit en mai)  Rupture de services

17 P.Girard 17 Intégration de la grille au CCIN2P3 Eléments de solution(1) Identifier dans le M/W les composants dont l’administration peut être déléguée aux experts locaux  Toutes nos BDs sont en charge de l’équipe « Bases de Données »  L’installation du système et la gestion réseau des nœuds grille sont assurées par l’équipe « Systèmes et Réseaux »  Une grande partie des problèmes de sécurité est couverte par les experts en sécurité du CCIN2P3  L’environnement des nœuds de grille est cohérent avec les autres machines du parc  On dispose des outils de surveillance matériel et systèmes pour les nœuds de la grille  Le stockage de données est géré par l’équipe « stockage » Disposer d’une infrastructure de test/validation  Pour éprouver le M/W, son installation, mieux le comprendre et donc le maîtriser avant de le mettre en production  Utilisation de la technologie des machines virtuelles (5 serveurs VMWare)  Economique  Gain de temps grâce au clonage d’images de référence  Adaptée aux installations répétées  Evite l’intervention des administrateurs systèmes pour des réinstallation from scratch  Permet de disposer de services de grille hors production nécessaires aux tests d’autres noeuds.

18 P.Girard 18 Intégration de la grille au CCIN2P3 Eléments de solution(2) Communiquer des alias plutôt que des noms de machines pour les nœuds de la grille  Quand le M/W le permet (pb avec les CEs)  Quand le nom d’un nœud entre dans la configuration d’autres nœuds de grille  Permet de changer de machine lors de panne ou de mise à jour L’utilisation d’une machine de rechange permet des mises à jour sans arrêt de service (BDII, CE)  Le nœud de remplacement fraîchement mis-à-jour peut être largement testé avant son entrée en production  Dans le cas d’un CE, on peut faire tourner 2 CEs simultanément sans avoir à drainer le gestionnaire de jobs  Mise en production du nouveau CE  Fermeture de l’ancien CE (il n’accepte plus de nouveaux jobs)  Sortie de l’ancien CE lorsque tous ses jobs sont finis L’installation partagée des WN/UI sur AFS  De faire une installation pour l’ensemble de la ferme  De faire coéxister différentes version de M/W  Pour les WNs, la version du M/W à utiliser pour un job est fixé au niveau du CE

19 P.Girard 19 Intégration de la grille au CCIN2P3 Eléments de solution(3) Utilisation de système de « backup » pour les données critiques  La plupart des logs des noeuds de grille Grid sont dupliquée sur une machine distante grâce au service « syslog ». Ils sont conservés 3 mois (durée définie par le projet)  Les Tags des VOs (on CEs) sont sauvées régulièrement sur cette machine  Les softwares de VO sont déposés sur des volumes sauvegardés d’AFS S’armer pour une surveillance active  NAGIOS (CA, CRLS, site BDII, etc.)  LEMON (en cours de test)  Outils « maison »  Ex.: Surveillance de l’évolution du ratio entre le total des jobs de la grille et les jobs grille locaux. Permet de détecter des changements anormaux de férquentation du site. Communiquer rapidement lors de la détection de problème  Pour s’économiser le traitement de tickets d’incident  Pour sortir de production si besoin est

20 P.Girard 20 Liens utiles CCIN2P3  http://cc.in2p3.fr/ EGEE  CIC : http://cic.in2p3.fr/  Projet EGEE : http://www.eu-egee.org/http://www.eu-egee.org/ LCG  GOC : http://goc.grid-support.ac.uk/http://goc.grid-support.ac.uk/  Projet LCG : http://lcg.web.cern.ch/LCG/http://lcg.web.cern.ch/LCG/

21 P.Girard 21 Questions


Télécharger ppt "Retour d'expérience sur le déploiement d'un site grille de production Pierre Girard EGEE/LCG ROC Deputy EGEE/LCG RC coordinator Centre de Calcul de l’IN2P3."

Présentations similaires


Annonces Google