Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parAngèle Bourget Modifié depuis plus de 8 années
1
1DSM - IRFU / PM22102008 Compte rendu du site GRIF
2
2DSM - IRFU / PM22102008 GRIF - EGEE - LCG LPNHE 3 universités et une école 1 partenaire hébergé 6 laboratoires ~30 personnes 8,2 TEP Opérations 1,5 TEP Management 0,4 TEP Physiciens 5,4 TEP EGEE3 dont 2 SA1 -------------------------------------------------------------- 15,5 TEP dont 10,2 TEP Opérations Une équipe soudée
3
3DSM - IRFU / PM22102008 GRIF et la grille française ALL VO 21,6% LCG 25,1%
4
4DSM - IRFU / PM22102008 Monitoring LCG
5
5DSM - IRFU / PM22102008 Accounting
6
6DSM - IRFU / PM22102008 Accounting
7
7DSM - IRFU / PM22102008 Configurations 9 CE, dont 2 MPI 32 bits, 1 MPI 64 bits, et 2 de test –6 CE de production fournissent SDJ –7024 slots –Torque + maui 7 SE DPM, dont 1 de test IRFU4x1GBits/s IP Bonding 7 disk servers LLR2x1Gbits/s IP Bonding 5 disk servers LAL1 Gbits/s 10GBits/s sous peu 5 disk servers APC1 Gbits/s1 disk server LPNHE1 Gbits/s3 disk servers IPNO1 GBits/s2 disk servers
8
8DSM - IRFU / PM22102008 Nouveautés Réseau –10Gbits/s pour liaisons inter-sites –Reste LPNHE et APC à déployer 4 WMS gLite 3.1 (3 WMS purs, 1 LB pur, 1 WMSLB) GRIF sélectionné pour fournir des seed ressources EGEE –12.75 k€ –39 CPU Cores, 4.5 TB à fournir Machines virtuelles –Xen (LAL), VmWare (LLR), KVM + VT-x (IRFU) –Tests au LAL/LLR –Production à l’IRFU LFC, MON, CE MPI (16 cœurs), VO Boxes (x2), Quattor servers (DHCP/TFTP), Nagios (x3, 2 en test), Lemon, Squid (test) Réseau para-virtualisé (820/660 Mbits/s down/up)
9
9DSM - IRFU / PM22102008 Evolutions Précurseur de mise à jours batch (problèmes de charge) –Torque (2.3.0) –Maui (3.2.6p20) Fourniture croissante de « core » services type WMS, mais aussi MyProxy Mise en place de closeSE pour tous les CE GRIF grâce au réseau Salles machines : –IRFU : une nouvelle salle en cours de réalisation contiendra 12 racks avec réfrigération à eau (Emerson) dont 3 racks haute densité (30kW en n+1) 2008 - 2010 –LAL 2 salles, problèmes de clim (vieille salle) : réunification ? Problèmes électriques rencontrés (harmoniques) –LLR : nouvelle salle machine à Polytechnique 2008 2012 –LPNHE : salle machine tiendra jusque fin 2010
10
10DSM - IRFU / PM22102008 Evolutions 2008 - hardware CPU –IPNO : +320 kSI2K (20 machines) –IRFU : +672 kSI2K (42 machines) –LLR : +240 kSI2K (15 machines) –LPNHE : +253 kSI2K (14 machines) –TOTAL fin 2008 : 6,3 M.SI2K Disque –APC : +14 TB –IPNO : +24 TB –IRFU : + 510 TB –LAL : + 141 TB –LPNHE : + 144 TB –TOTAL fin 2008 : 1553 TB brut 1,2 PB utiles
11
11DSM - IRFU / PM22102008 Organisation et problèmes rencontrés
12
12DSM - IRFU / PM22102008 GRIF un Tier2 LCG distribué VO /siteAPCIPNOIRFULALLLRLPNHE ATLAS XXXX CMS Xx(CE only) X ALICE XX LHCb XXX Mutualisation des ressources, et des efforts + Le réseau à 10Gb/s permet au LAL et au LPNHE (à venir dans le VLAN GRIF) de fournir de la CPU à CMS (données à l’IRFU et au LLR) simplification pour CMS + Redondance pour les VOBOX CMS (2VObox: IRFU et LLR) + Pour le SE Alice on pourrait avoir de la redondance au niveau du redirecteur xrootd - Mais les outils développés par les VOs ne sont pas toujours adaptés pour un site distribué (problème de nommage pour le site GRIF CMS) - La distribution des données de CMS avec plusieurs T1 pose des problèmes réseaux (les T1 étrangers ne sont pas dans le VLAN GRIF!)
13
13DSM - IRFU / PM22102008 Quattor Outil principal de management –Gestion centralisée de la configuration –Gestion de l’installation (pxelinux, dhcp, ks, partitionnement) Configuration reproductible –Gestion aisée de nœuds identiques (type WN) –Multiplication des nœuds compliqués (type WMS) Possibilité de retour en arrière –Update 33 au LAL… Mutualisation des compétences –Composants de middleware –Updates gLite Traçabilité
14
14DSM - IRFU / PM22102008 Organisation du travail Mise en place d’outils collaboratifs communs –TRAC (wiki, tentatives d’utilisation du user support) –Serveur web IRC (php) (contrainte CEA) –Mailing list technique GRIF Administration des machines –Login inter-sites (gsissh) –Login intra-site : clefs openssl + sudo Réunions mensuelles Service 24x24 7/7 !!! (1+ bénévole anonyme) Utilisation croissante de GGUS par les utilisateurs Utilisation de différents outils de monitoring –nagios 3.0.5 (m.à.j de sécurité !) –Lemon –Smart pour les disques système
15
15DSM - IRFU / PM22102008 Problèmes au quotidien Charge réseau –Problèmes d’installation de machines (I/O Errors) –Problèmes de monitoring (timeouts) –Problèmes services distribués Tickets GGUS pour les nœuds de test –Downtime « infinie » interdite –Nécessité de publication pour certains tests Outils collaboratifs : manque la gestion du personnel (absences, urgences) Gestion des VO Boxes : emails aux VOs obligatoires pour correction d’un problème, vérification Charge quattor –23575 révisions –16770 fichiers, dont 5716 templates –721 MO, dont 336 MO de données SVN –Temps de compilation moyen sur 4-core : 5 minutes Disques défectueux : quelles démarches ?
16
16DSM - IRFU / PM22102008 Pistes & Conclusions Exploration de solutions pour le réseau (SQUID, caches DNS) Nouveaux outils pour répondre aux nouveaux besoins (DNS dynamique pour nœuds redondés, IRC) Equipe soudée : un mail reste rarement sans réponse Pérennisation du personnel : –Passage de 10 à 30 personnes en 3 ans –Embauches fermes
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.