Service Challenge 4 – Tests de Débit Bilan pour le Tier-1 LCG-France Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3 Comité de Direction LCG-France 15 mai 2006
F. Hernandez 2 SC4 – Tests de Débit Objectif pour le CC-IN2P3 Recevoir des données en provenance du Tier-0 (disque) Sur disque (dCache) à 200 MO/sec pendant 2 semaines (24h/24) Sur bande (dCache + HPSS) à 75 MO/sec pendant 1 semaine (24h/24) Dans les deux cas, comprendre les fluctuations de débit et être en mesure de dépasser le taux nominal ciblé Calendrier 30 mars – 2 avril: préparation, montée en charge 3 avril – 17 avril: transferts CERN → CC-IN2P3 (disque) NOTE: 15 au 17 avril (weekend de pâques) - transferts sans intervention humaine 18 avril – 24 avril: transferts CERN → CC-IN2P3 (bande) Rappel: l’objectif à terme est une réception de données sur bande en continu en provenance du T0 CERN à un débit de 200 MO/sec
F. Hernandez 3 Phase I: CERN → CC-IN2P3 (disque) 1/4 CC-IN2P3
F. Hernandez 4 Phase I: CERN → CC-IN2P3 (disque) 2/4 Objectif: 200 MO/sec
F. Hernandez 5 Phase I: CERN → CC-IN2P3 (disque) 3/4 Week-end de Pâques Fin des transferts disque→disque Début de transferts disque→bande
F. Hernandez 6 Phase I: CERN → CC-IN2P3 (disque) 4/4 Qualité des transferts 371 erreurs / transferts Taux d’erreur: 0,18%
F. Hernandez 7 Phase II: CERN → CC-IN2P3 (bande) 1/2 Objectif: 75 MO/sec Note: les transferts vers la bande ont débuté le 19/04 à 15h00. La moyenne montrée pour ce jour inclut aussi les transferts vers disque jusqu’à cette heure.
F. Hernandez 8 Phase II: CERN → CC-IN2P3 (bande) 2/2 Qualité des transferts 306 erreurs / transferts Taux d’erreur: 0,76% Beaucoup d’erreurs peuvent être évités en améliorant la gestion d’erreurs dans les transferts disque (dCache) → HPSS
F. Hernandez 9 Phase I [bis]: CERN → CC-IN2P3 (disque) Objectif: 200 MO/sec Serveur disque supplémentaire (4), par rapport à la phase I. Résultat: +25% du taux nominal pendant 3+ jours. Retrait du serveur disque supplémentaire. Résultat: on retombe sur le taux nominal démontré les 3 premiers jours de la phase I. Problèmes avec CASTOR au CERN. Détails dans le blog.blog
F. Hernandez 10 Conclusions Réseau, serveurs de disque, dCache, HPSS stables pendant tout l’exercice Utilisation de HPSS en production 1 serveur de disque dCache est tombé en panne: la configuration en place a permis de maintenir le débit avec un serveur en moins Débit à disque non regulier pendant toute la période de tests Hypothèse: contention à la source (très probablement dans FTS) - impossibilité de remplir les canaux de tous les sites Paramétrage du nombre des fichiers dépendant du site. Modification des paramètres du canal d’un site impacte plusieurs autres (ex. BNL et FNAL). La configuration utilisée est suffisante pour atteindre un débit nominal +25%, tel que montrée dans la deuxième itération des transferts disque. L’exploitation de l’ensemble de la chaîne reste à améliorer Outils de monitoring à mettre en place Intégration au service d’astreinte Quelques bugs dCache identifiés et soumis aux développeurs Plus de détails Rapport joint à l’agenda de cette réunionl’agenda de cette réunion Présentation de Jamie Shiers au LHCC Referees Meeting le 9 mai Présentation de Jamie Shiers LHCC Referees Meeting Merci à Lionel Schwarz et toute l’équipe Stockage pour cet excellent travail!!!
F. Hernandez 11 Questions