1DSM - IRFU / PM Compte rendu du site GRIF
2DSM - IRFU / PM GRIF - EGEE - LCG LPNHE 3 universités et une école 1 partenaire hébergé 6 laboratoires ~30 personnes 8,2 TEP Opérations 1,5 TEP Management 0,4 TEP Physiciens 5,4 TEP EGEE3 dont 2 SA ,5 TEP dont 10,2 TEP Opérations Une équipe soudée
3DSM - IRFU / PM GRIF et la grille française ALL VO 21,6% LCG 25,1%
4DSM - IRFU / PM Monitoring LCG
5DSM - IRFU / PM Accounting
6DSM - IRFU / PM Accounting
7DSM - IRFU / PM Configurations 9 CE, dont 2 MPI 32 bits, 1 MPI 64 bits, et 2 de test –6 CE de production fournissent SDJ –7024 slots –Torque + maui 7 SE DPM, dont 1 de test IRFU4x1GBits/s IP Bonding 7 disk servers LLR2x1Gbits/s IP Bonding 5 disk servers LAL1 Gbits/s 10GBits/s sous peu 5 disk servers APC1 Gbits/s1 disk server LPNHE1 Gbits/s3 disk servers IPNO1 GBits/s2 disk servers
8DSM - IRFU / PM Nouveautés Réseau –10Gbits/s pour liaisons inter-sites –Reste LPNHE et APC à déployer 4 WMS gLite 3.1 (3 WMS purs, 1 LB pur, 1 WMSLB) GRIF sélectionné pour fournir des seed ressources EGEE –12.75 k€ –39 CPU Cores, 4.5 TB à fournir Machines virtuelles –Xen (LAL), VmWare (LLR), KVM + VT-x (IRFU) –Tests au LAL/LLR –Production à l’IRFU LFC, MON, CE MPI (16 cœurs), VO Boxes (x2), Quattor servers (DHCP/TFTP), Nagios (x3, 2 en test), Lemon, Squid (test) Réseau para-virtualisé (820/660 Mbits/s down/up)
9DSM - IRFU / PM Evolutions Précurseur de mise à jours batch (problèmes de charge) –Torque (2.3.0) –Maui (3.2.6p20) Fourniture croissante de « core » services type WMS, mais aussi MyProxy Mise en place de closeSE pour tous les CE GRIF grâce au réseau Salles machines : –IRFU : une nouvelle salle en cours de réalisation contiendra 12 racks avec réfrigération à eau (Emerson) dont 3 racks haute densité (30kW en n+1) –LAL 2 salles, problèmes de clim (vieille salle) : réunification ? Problèmes électriques rencontrés (harmoniques) –LLR : nouvelle salle machine à Polytechnique 2008 2012 –LPNHE : salle machine tiendra jusque fin 2010
10DSM - IRFU / PM Evolutions hardware CPU –IPNO : +320 kSI2K (20 machines) –IRFU : +672 kSI2K (42 machines) –LLR : +240 kSI2K (15 machines) –LPNHE : +253 kSI2K (14 machines) –TOTAL fin 2008 : 6,3 M.SI2K Disque –APC : +14 TB –IPNO : +24 TB –IRFU : TB –LAL : TB –LPNHE : TB –TOTAL fin 2008 : 1553 TB brut 1,2 PB utiles
11DSM - IRFU / PM Organisation et problèmes rencontrés
12DSM - IRFU / PM GRIF un Tier2 LCG distribué VO /siteAPCIPNOIRFULALLLRLPNHE ATLAS XXXX CMS Xx(CE only) X ALICE XX LHCb XXX Mutualisation des ressources, et des efforts + Le réseau à 10Gb/s permet au LAL et au LPNHE (à venir dans le VLAN GRIF) de fournir de la CPU à CMS (données à l’IRFU et au LLR) simplification pour CMS + Redondance pour les VOBOX CMS (2VObox: IRFU et LLR) + Pour le SE Alice on pourrait avoir de la redondance au niveau du redirecteur xrootd - Mais les outils développés par les VOs ne sont pas toujours adaptés pour un site distribué (problème de nommage pour le site GRIF CMS) - La distribution des données de CMS avec plusieurs T1 pose des problèmes réseaux (les T1 étrangers ne sont pas dans le VLAN GRIF!)
13DSM - IRFU / PM Quattor Outil principal de management –Gestion centralisée de la configuration –Gestion de l’installation (pxelinux, dhcp, ks, partitionnement) Configuration reproductible –Gestion aisée de nœuds identiques (type WN) –Multiplication des nœuds compliqués (type WMS) Possibilité de retour en arrière –Update 33 au LAL… Mutualisation des compétences –Composants de middleware –Updates gLite Traçabilité
14DSM - IRFU / PM Organisation du travail Mise en place d’outils collaboratifs communs –TRAC (wiki, tentatives d’utilisation du user support) –Serveur web IRC (php) (contrainte CEA) –Mailing list technique GRIF Administration des machines –Login inter-sites (gsissh) –Login intra-site : clefs openssl + sudo Réunions mensuelles Service 24x24 7/7 !!! (1+ bénévole anonyme) Utilisation croissante de GGUS par les utilisateurs Utilisation de différents outils de monitoring –nagios (m.à.j de sécurité !) –Lemon –Smart pour les disques système
15DSM - IRFU / PM Problèmes au quotidien Charge réseau –Problèmes d’installation de machines (I/O Errors) –Problèmes de monitoring (timeouts) –Problèmes services distribués Tickets GGUS pour les nœuds de test –Downtime « infinie » interdite –Nécessité de publication pour certains tests Outils collaboratifs : manque la gestion du personnel (absences, urgences) Gestion des VO Boxes : s aux VOs obligatoires pour correction d’un problème, vérification Charge quattor –23575 révisions –16770 fichiers, dont 5716 templates –721 MO, dont 336 MO de données SVN –Temps de compilation moyen sur 4-core : 5 minutes Disques défectueux : quelles démarches ?
16DSM - IRFU / PM Pistes & Conclusions Exploration de solutions pour le réseau (SQUID, caches DNS) Nouveaux outils pour répondre aux nouveaux besoins (DNS dynamique pour nœuds redondés, IRC) Equipe soudée : un mail reste rarement sans réponse Pérennisation du personnel : –Passage de 10 à 30 personnes en 3 ans –Embauches fermes