HEPIX FALL 2013 Résumé
HEPIX Quèsaco Forum pour la communauté HEP qui sont impliqués dans le « fabric management » Les sites admin informatique des centres HEP Les managers IT Ouvert à tous Existe depuis 22 ans https://www.hepix.org/ Deux rendez-vous par an sur 5 jours Un en Europe Un, reste du monde (US /Asie) Des groupes de travail WP sur des sujets « d’actualités » Pas seulement réservé aux grands centres Volonté depuis peu d’aller vers les « petits » sites
HEPIX FALL 2013 Ann Arbor ( Detroit) du 28/10 au 1/11 Université du Michigan Tier 2 ATLAS 115 Participants ( excellente cuvée pour une session nord américaine) 42 instituts 20 pays ( Chine, Australie, Corée) Agenda super dense http://indico.cern.ch/conferenceTimeTable.py?confId=247864#20131028 Certaines thématiques sont très mouvantes. Des sujets mis en avant à une session ne sont pas nécessairement pertinents lors de la suivante.
Site report Très divers On ne parle plus du 10Gb/s et à peine du 40Gb/s Les liens 100 Gb/s sont un fait, surtout au US Liaisons entre les Tier2 US quasiment toutes en 100Gb/s Liaison entre les deux IT infrastructures du CERN ( Genève, Budapest) 2 *100 Gb/s Des capacités WAN > LAN impliquent un changement profond . Gestion des ressources Gestion des services Gestion des incidents L’exploitation des cpu multicores telle qu’elle est fait actuellement ( 1core=1 job) commence a être limitée aussi par la connexion 1Gb/s du serveur . Généralisation EDUROAM ( Cern et site US inclus)
IPV6 Un groupe de travail HEPIX Hepix existe sur ce sujet Teste les services en mode dual stack IPV6 ne doit pas casser IPV4 http://hepix-ipv6.web.cern.ch/wlcg-applications La pénurie des adresses IPV6 est un fait en Asie Mais l’approche Cloud qui est dans les tuyaux est/sera la cause de la pénurie dans le reste du monde HEP à très court terme 2,6 % des requêtes sur Google sont en IPV6 A partir de 2014 le CERN aura des nœuds de calcul (Worker Node) en IPV6 ONLY Quid des services pur IPV4 ( eg AFS) Le travail actuellement en cours est de valider les couches logiciel en IPV6 Protocole de transfert, Performance, ……..
Sécurité et Réseau Fédération d’identité. Dur mettre tout le monde d’accord Preuve est faite que l’on sait remplir les tuyaux (même ceux de 100 Gb/s) Une présentation sur des transferts longue distance à 1Tb/s L’ idée de faire de IP sur de l’ infiniband (IPoIB) revient dans la course afin de faire croitre les capacités LAN La faible latence par rapport à Ethernet permet de couvrir certains use case
Stockage Une présentation technique de Western Digital sur la gestion des signes annonciateurs de panne sur les disque dur et comment les constructeurs font avec. Vivre avec ou sans AFS AFS ne supporte pas et ne supportera pas IPV6 Que faire ? Passer à autre chose « like AFS » YFS ( payant) Réécrire AFS from scratch Arrêter AFS Le RAL a éteint sa cellule AFS Des questionnaires et études sont envoyés auprès des administrateurs/utilisateur pour faire un état des lieux du besoin et des contraintes. Le file système dans la lumière est CEPH Testé au CERN,RAL,….. Le mode block semble répondre de façon satisfaisante à un besoin
Benchmarking Beaucoup de bruit autour du passage des bench sous SL6 vs SL5 Le gain est faible < 5 % pour du matériel récent Peut être plus élevé pour du vieux matériel A ce jour les bench sont exprimés en unité HS06 Qui est un subset de la suite SPECINT2006 Représentatif des applications du LHC En 32 bits En 2014 SPECINT 2014 verra le jour Nécessite de redéfinir un sous ensemble de cette testsuite qui soit représentatif des applications Nouvelle unité HSxxx Les derniers processeurs intel ( Sandy Bridge) Apportent rien en terme de performance brute 25 % de gain sur le rapport puissance /watt
Job manager Les sites qui utilisaient SUN Grid Engin ( Oracle ) ont très majoritairement migrés vers la solution UNIVA Grid Engin Incluant un support (plus réactif) La propriété intellectuelle de Sun Grid Engin a été transférée de Oracle à UNIVA Les versions « open » de Sun Grid Engin sont plus ou moins en états végétatifs Le job manager SLUM n’est plus dans l’air du temps Il supporte bien un nombre important de « nodes» mais pas de jobs ( 100k) HT Condor est extrêmement prometteur Supporte une montée en charge impressionnante Nouveau paradigme , les node sont déclarés dynamiquement Les sites US l’utilisent depuis pas mal de temps Le RAL a basculé une partie de son système sous ce job manager Le CERN l’envisage en remplacement de LSF
Outils de configuration De plus en plus de site utilisent PUPPET Principalement ceux qui n’en utilisaient pas Où du fait de l’abandon de YAIM ( outil de configuration des services de grilles) Chaque site utilise ses propres « modules » Tout le monde est d’accord pour partager ses solutions mais….. Un groupe HEPIX existe sur le sujet depuis le meeting Spring 2013 Démarrage difficile Relance faite lors de ce Hepix meeting avec pour vocation d’aller vers la mise en commun des « modules » PUPPET
Prochain HEPIX HEPIX SPRING 2014 HEPIX FALL 2014 AU LAPP 19 Mai au 23 MAI 2014 https://indico.cern.ch/conferenceDisplay.py?confId=274555 HEPIX FALL 2014 Nebraska Dates à confirmer Gros Tier 2 CMS