LCG-France: Tier-1 au CC-IN2P3 Bilan 2005 et perspectives 2006 Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3 Workshop LCG-France Lyon, 14/15 décembre 2005
F. Hernandez 2 Table des Matières Contribution du Tier-1 français Avancement 2005 Travaux d’infrastructure Acquisition du matériel Utilisation des services de calcul et stockage Exploitation Support Utilisateurs Infrastructure d’import/export de données Conclusions
F. Hernandez 3 Centres Tier-1 InstitutionCountry Experiments served with priority ALICEATLASCMSLHCb TRIUMFCanada CC-IN2P3France FZK-GridKAGermany CNAFItaly NIKHEF/SARANetherlands Nordic Data Grid FacilityDK/FI/NO/SE PICSpain ASGCTaiwan RALUnited Kingdom BNLUSA FNALUSA Total61076
F. Hernandez 4 LCG: Vue d’Ensemble Comparatif des ressources proposées vs. demandées Pour l’ensemble des centres Tier-1 en 2008 Source: Draft W-LCG Memorandum of Understanding - Nov. 16th 2005Draft W-LCG Memorandum of Understanding NOTE CPU: -17% Disk: -25% MSS: -36% NOTE CPU: -17% Disk: -25% MSS: -36%
F. Hernandez 5 LCG-France: contribution Contribution du Tier-1 LCG-France En pourcentage des ressources proposées par l’ensemble des Tier-1s en 2008 Source: Draft W-LCG Memorandum of Understanding - Nov. 16th 2005Draft W-LCG Memorandum of Understanding
F. Hernandez 6 LCG-France: contribution (cont.) Contribution du Tier-1 LCG-France En pourcentage des ressources demandées par les 4 expériences pour l’ensemble des Tier-1s en 2008 Source: Draft W-LCG Memorandum of Understanding - Nov. 16th 2005Draft W-LCG Memorandum of Understanding
F. Hernandez 7 LCG-France: contribution (cont.) Contribution du Tier-1 LCG-France En pourcentage des ressources demandées par les 4 expériences pour l’ensemble des Tier-1s en 2008
F. Hernandez 8 Travaux d’Infrastructure Démarrage de l’étude pour la réhabilitation de la salle machine Equipement salle machine Installation de 2 armoires supplémentaires de climatisation et 2 armoires de distribution électrique Bâtiment Travaux de numérisation des plans du bâtiment par un architecte Embauche d’un ingénieur services généraux très expérimenté Travaux d’aménagement (salles de réunion, bureaux) pour absorber l’augmentation en personnel
F. Hernandez 9 Travaux d’Infrastructure (suite) Travaux prévus pour 2006 Travaux de réhabilitation de la salle machine Augmentation de l’autonomie d’alimentation sur batterie actuellement: 1,5 heures, but: ~3 heures Travaux de renforcement de la sécurité incendie Installation d’une armoire de climatisation supplémentaire Etude du forage d'un nouveau puits d'eau de refroidissement pour la salle machine
F. Hernandez 10 Acquisition de Matériel Procédures d’acquisition de matériel bien établies 8 contrats ont été signés pendant les 12 derniers mois, concernant maintenance matérielle et logicielle, acquisition des licences logicielles, acquisition de serveurs de disque et de bande, machines de calcul, cartouches magnétiques, … Implication forte et constante du personnel administratif et technique Tests de prototypes, établissement du cahier des charges, suivi des procédures administratives, tests de conformité du matériel, …. Un chargé de mission (ingénieur senior) pilote le processus: des tests jusqu’à la réception du matériel Objectif: minimiser l’intervention nécessaire du personnel administratif et s’assurer que les délais sont sous contrôle Durée du processus dépend de l’objet (et du montant) du marché Environ 36 semaines entre la décision d’achat et le début de la mise en production Peut être raccourci d’environ 10% dans certains cas
F. Hernandez 11 Acquisition de Matériel (suite) Serveurs de calcul Depuis novembre 2004: 384 machines (biprocesseur Xeon 2.8 et 3.0 GHz, 2 GO/processeur) Capacité installée: 1480 kSI2000 En commande: 37 machines bi-Opteron, bi-cœur, 2 GO/cœur (Blade et 1U) +203 kSI2000 Préparation de l’achat des serveurs de calcul en 2006 Stockage sur disque Deux lots de 100 TO IBM DS8000 sur un marché de 250 TO 60 serveurs Sun (Solaris et Linux) et 19 serveurs IBM (AIX) pour piloter cet espace
F. Hernandez 12 Acquisition de Matériel (suite) Stockage sur cartouche 10 dérouleurs STK 9940 Dont 10 minimum pour les Services Challenges LCG Capacité installée: 70 dérouleurs STK 9840/ DLTs + 2 LTOs En commande: 10 dérouleurs STK 9940 Intégration à la production début 2006 6000 cartouches 9940 Serveur maître HPSS supplémentaire et mise à jour d’un serveur existant 8 serveurs de bande Connectique 2 x commutateur/routeurs Commutateur FibreChannel pour les serveurs de bande
F. Hernandez 13 Acquisition de Matériel (suite) Machines de service pour les service grille VO Boxes, LFC, FTS, VOMS, MonBox, … Machines pour le Storage Element SRM/dCache Cluster Oracle 10g R2 Serveurs: 2 x Sun V480 et 1 x Sun V240 1 TO de disque Cluster Web Renouvellement du matériel pour le service de visio-conférence
F. Hernandez 14 Service Calcul Améliorations dans BQS pour supporter la charge croissante + 20% jobs en exécution simultanée (~2300 actuellement) Nombre de jobs en queue reste constant: ~10000 en moyenne Prise en compte des particularités amenées par la grille Identification des individus, traçabilité des jobs, origine des jobs (grille et VO), support des certificats et des proxies, étiquettage des jobs pour améliorer l’ordonnancement et contrôler l’accès aux ressources (ex. HPSS) … Amélioration des outils de monitoring des jobs Détection er prévention de jobs pathologiques Renforcement de l’équipe chargée de l’exploitation quotidienne: ~2 FTE
F. Hernandez 15 Service de Calcul (suite) Consommation de calcul des expériences LHC janvier-novembre 2005
F. Hernandez 16 Service de Calcul (suite) Distribution de la consommation LHC
F. Hernandez 17 Service de Calcul (suite) Demande vs. consommation effective Globalement, la consommation LHC est de 36% de la capacité demandée
F. Hernandez 18 Service de Calcul (suite) Alice Atlas
F. Hernandez 19 Service de Calcul (suite) CMS LHCb
F. Hernandez 20 Service de Calcul (suite) Utilisation de la grille
F. Hernandez 21 Service de Calcul (suite) Utilisation de la grille (suite) Jobs grille en queue et en exécution
F. Hernandez 22 Stockage Disque Semiper (/sps)
F. Hernandez 23 Stockage Disque (suite) dCache (prod) dCache (test) Cache HPSS xrootdSemiper Total (TB) Request ed (TB) Alice 0,00 0,500,001,602,1019,00 Atlas 3,000,000,500,002,856,3540,00 CMS 9,003,001,500,002,6016,1025,00 LHCb 2,500,00 2,503,00 Shared 4,504,002,00 10,50 Total (TB) 19,007,004,500,007,0537,5587,00 Demandes en cours: ATLAS: + 2TB dCache Alice: +10 TB xrootd Demandes en cours: ATLAS: + 2TB dCache Alice: +10 TB xrootd
F. Hernandez 24 Stockage de Masse Utilisation de HPSS
F. Hernandez 25 Stockage de Masse (suite) Used (TB) Requested (TB) Variation in 2005 Alice 27,5617,00+172% Atlas 78,3380,00+63% CMS 71,3450,00+202% LHCb 51,9930,00+97% Total (TB) 229,22177,00 Utilisation de HPSS (suite)
F. Hernandez 26 Services Grid Amélioration du déploiement du middleware Installation partagée via AFS par tous les WNs, VO boxes, UIs Installation personnalisée pour les CEs et SEs 5 versions de LCG installées en 2005: 2.3.0, 2.3.1, 2.4.0, 2.5.0, Créations des queues virtuelles À la demande initiale de Atlas, utilisation généralisée par la suite Affichage des ressources de calcul disponibles par VO dans le système d’information du site Travail réalisé par Pierre Girard, Jonathan Schaeffer et Frédéric Schaer Interaction permanente avec les équipes système et réseau, production, bases de données et stockage En cours: développement de l’interface BQS pour le CE gLite par Sylvain Reynaud
F. Hernandez 27 Services Grid (suite) AtlasAliceCMSLHCb CE et WNs SE disque et HPSS SE SRM/dCache UIs FTS LFC MonBox VO Box
F. Hernandez 28 Service de bases de données Projet LCG-3D: réplication de bases de données Utilisation des technologies Oracle pour la réplication Installation de Oracle 10 Participation au banc de test de réplication Tests initiaux de réplication avec le CERN avec succès Augmentation de notre contribution à partir du premier trimestre 2006 Hébergement de la base AMI (Atlas) Tests de réplication en 2006
F. Hernandez 29 Import/Export de Données Infrastructure spécifique Exercée à l’occasion des services challenges Utilisation de la ligne Lyon – CERN (1 Gbps partagée) green = data going into the site SC 2
F. Hernandez 30 Import/Export de Données (suite) Configuration spécifique
F. Hernandez 31 Import/Export de Données (suite) Objective for SC3 Service Challenge 3 Objectif phase throughput: 60 MO/sec Disque (CERN) → bande (CC-IN2P3) Atteints: 40 MB/sec
F. Hernandez 32 Import/Export de Données (suite) SC3: transferts CERN → CC-IN2P3
F. Hernandez 33 Import/Export de Données (suite) Transferts CERN → CC- IN2P3 via DDM (Atlas)
F. Hernandez 34 Import/Export de Données (suite) Transferts CERN → CC-IN2P3 via Phedex (CMS)
F. Hernandez 35 Import/Export de Données (suite) Plus de détails sur les Service Challenges dans les présentations de Nick Brook et Lionel Schwarz pendant le workshop LCG- France Excellent travail de Lionel Schwarz (notre expert dCache) et toute l’équipe stockage Étroite collaboration avec les représentants des expériences (Claude Charlot, Stéphane Jezequel, Andrei Tsaregorodtsev)
F. Hernandez 36 Operations Contribution très active à la mise en place des procédures d’exploitation globale de la grille Ian Bird, 2 nd EGEE Review, Dec. 6-7/2005
F. Hernandez 37 Operations (suite) Développement et hébergement du portail de l’exploitation quotidienne de LCG/EGEE Ian Bird, 2 nd EGEE Review, Dec. 6-7/2005
F. Hernandez 38 Operations (suite) Travail en cours sur les mécanismes et outils pour mesurer la qualité des services (a.k.a. métriques) Identification des éléments à mesurer et construction des outils Travail étroit avec le CERN Merci à Hélène Cordier, Gilles Mathieu et toute l’équipe portail CIC et COD pour cette contribution … et à Rolf Rumler pour la coordination de EGEE sur site
F. Hernandez 39 Support Utilisateur Support aux utilisateurs LHC à plusieurs niveaux Services grille Installation logiciel de l’expérience Production batch Stockage, Stockage, Stockage !!! Première étape vers la consolidation du support utilisateurs LHC Embauche d’un ingénieur, actuellement dédié au support de CMS et Alice Embauche supplémentaire en cours Travail étroit avec des correspondants/experts des expériences En France et/ou au CERN
F. Hernandez 40 Support Utilisateur (suite) Arrivée de Artem Trunov pour Alice et CMS a augmenté sensiblement notre contribution aux expériences Travail étroit avec David Bouvet Responsabilités bien définies
F. Hernandez 41 Conclusions L’impact du projet LCG sur le site est très important, à tous les niveaux Budget, organisation, mode de fonctionnement, … Rythme du projet et très soutenu et nous devons nous adapter en permanence Les ressources humaines sont la clé pour réussir notre contribution à ce projet Quantité, disponibilité et volatilité de l’information sont une des caractéristiques de ce projet Implication des membres des expériences est fondamentale pour maximiser la contribution du site au projet
F. Hernandez 42 Questions
F. Hernandez 43 Backup Slides
F. Hernandez 44 Stockage Disque (suite) Semiper (suite)
F. Hernandez 45 Stockage Disque (suite) Semiper (suite)
F. Hernandez 46 Stockage Disque (suite) Semiper (suite)