Patrice lebrun - D0-France Lyon D0 au ccin2p3 Patrice Lebrun 26/05/04 Patrice lebrun - D0-France Lyon
Patrice lebrun - D0-France Lyon SAM au ccin2p3 Station Sam installée sur un bi-pro PIII 1 GHz Software installé sur un disque local pour s ’affranchir du jeton AFS Disque cache de 100 GB Faible capacité, utilisé seulement pour l’échange des données avec les sites extérieurs (routage) HPSS comme pseudo-cache (spécifique au ccin2p3) Les fichiers dans le disque cache (SAM) sont copiés automatiquement dans HPSS Permet à l ’ensemble des workers d ’accéder aux fichiers SAM retourne à l ’application le chemin du fichier qui exécutera un RFCP avant l ’ouverture du fichier copié sur le disque local. Modifications apportées à SAM et au software de D0 pour intégrer HPSS 26/05/04 Patrice lebrun - D0-France Lyon
Patrice lebrun - D0-France Lyon Caches SAM au ccin2p3 Remarque L ’utilisation de HPSS comme « cache » fait perdre la fonctionnalité d’optimisation du cache par SAM. (Ici le cache est considéré comme ayant une capacité illimitée) Sam locate CSskim-NP-20040411-122310-41718957.raw_p14.06.00 ['ccd0.in2p3.fr:/samgrid//boo', '/pnfs/sam/dzero/copy1/physics_data_taking/group-phase1/dzero/thumbnail/CSskim-v1_3,prn841l1', 'cchpssd0.in2p3.fr:/hpss/in2p3.fr/group/d0/upload', 'rfio://in2p3.fr:cchpssd0.in2p3.fr:/hpss/in2p3.fr/group/d0//upload', 'cchpssd0.in2p3.fr:/hpss/in2p3.fr/group/d0/data/import_rtp'] Cache sur ccd0 Dans enstore à FNAL « Cache HPSS » Localisation résultante d’un transfert par un utilisateur (redondance ) 26/05/04 Patrice lebrun - D0-France Lyon
Infrastructure de D0 au CCIN2P3 1 TB XROOTD 1 TB 220 GB RFCP /sps/d0 AFS HPSS Servers RFCP Worker Worker ….. RFCP CCIN2P3 SAM Station 10 GB BBFTP FNAL Remote Sites ~ 6 MB/s Local disk 100 GB GRIDFTP SamGrid server SAM Cache 26/05/04 Patrice lebrun - D0-France Lyon
Ressources: quelques informations HPSS cchpssd0.in2p3.fr:/hpss/in2p3.fr/group/d0 cos 21 pour les fichiers < 64 Mo cos 22 pour les fichiers > 64 Mo Espace semi-permanent Essentiellement utilisé pour l’analyse de fichiers root deux manières d’accéder aux fichiers NFS: /sps/d0 RFIO: ccspsd0.in2p3.fr:/sps/d0 Fiabilité ? xrootd (nouveau en cours d’intégration dans le framework) ccxroot.in2p3.fr:1999/hpss ... 26/05/04 Patrice lebrun - D0-France Lyon
HPSS et gestion des fichiers avec Neter Espace Utilisé NETER 104807 fichiers (6318 MC, ~1,750,000 evts) 50.9 TB (1.1 TB MC) SNIFFER 6758 fichiers 1.9 TB 15.6 TB non localisé (analyses, prod privées … ???) Max HPSS space used by D0: 69.2 T Bytes Average HPSS space used by D0: 37.2 T Bytes Current HPSS space used by D0: 68.4 T Bytes 26/05/04 Patrice lebrun - D0-France Lyon
Patrice lebrun - D0-France Lyon BQS (1) En cours : activation de l'hyperthreading sur les P4. Permet d'avoir 4 jobs en exécution sur ces machines avec un gain espère de ~10% de puissance. Début juin : mise en production de 2 machines: le serveur maître Mysql de BQS et le serveur esclave. Ceci va permette une consolidation du service et plus de réactivité. En parallèle, les développeurs travaillent sur certains problèmes, en particulier l'ordonnancement des jobs pour faire face au nombre de plus en plus important de jobs en queue. Avant l'été : achat de 32 machines bi-pro pour remplacer des PIII à 750 MHz. Il n'y aura pas d'augmentation sensible de puissance, sauf que nous aurons des machines plus stables et plus performantes (Opteron ou Xeon?). Un marché va être lance pour l'achat de 200 machines. Mise en production possible en octobre. Cote plate-forme : si les tests de la plate-forme LCG sont bons pour atlas, passage d'une centaine de machine en Redhat 7.3. Ces machines ne seront pas dédiées a atlas, mais aux groupes pouvant exécuter leur programme sur cette plate-forme, en particulier Babar. En parallèle, la migration vers RHEL3 sera faite. Pas encore de calendrier ! 26/05/04 Patrice lebrun - D0-France Lyon
Patrice lebrun - D0-France Lyon BQS (2) possibilité d'avoir l'accounting en SpecInt 2000 au 3eme trimestre 2004. Il y a aussi des développements en cours pour BQS parallèle et BQS arborescent (exécution successives de plusieurs "petits jobs") Intéressent d0 ? Problèmes connus : les "petits" jobs pénalisent le groupe : les jobs ne restent pas assez longtemps en machine, et BQS entre essentiellement ces jobs au détriment des jobs des autres utilisateurs du groupe. De plus, il n'arrive pas rentrer suffisamment de jobs pour remplir les machines donc globalement moins de jobs en machine. trop d'utilisateurs pour le nombre de machine que nous avons : difficile d'avoir un minimum de 25 jobs par utilisateur. 26/05/04 Patrice lebrun - D0-France Lyon
Puissance CPU utilisée (19 mai 04) D0 2 100 000 hUI (8.5%) Babar 4 900 000 hUI (19.7%) Auger 3 300 000 hUI (13.3%) ... Total 24 800 000 hUI 41.5% 26/05/04 Patrice lebrun - D0-France Lyon
Ecrans de Monitorage SAM-Grid CDF Container WEB Tomcat 26/05/04 Patrice lebrun - D0-France Lyon
Efficacité 250 events/job Utilisation d’une classe de BQS non adaptée Efficacité Utilisation d’une classe de BQS non adaptée 250 events/job 26/05/04 Patrice lebrun - D0-France Lyon
Patrice lebrun - D0-France Lyon Fermi News Février 2004 SAM+Runjob SAM+Runjob SAM+Runjob SAM+Runjob Neter SAM+Runjob Nombre de CPU juste suffisant pour suivre le transfert des fichiers 26/05/04 Patrice lebrun - D0-France Lyon
Lettre de Denis Linglin Bonjour à tous, Vous êtes les correspondants des expériences et groupes utilisateurs du CC-IN2P3. Pour des raisons à la fois budgétaires et administratives, le centre de calcul ne sera à nouveau pas en mesure de fournir cette année l'ensemble des demandes des expériences. Cette situation s'est déjà produite depuis 2002. Côté administration, le nouveau code des marchés publics, qu'on a attendu jusqu’ en mars et censé alléger les procédures, n'a fait qu'alourdir la charge administrative, à effectifs constants bien sûr. Côté budget, les demandes faites au CC-IN2P3, hors services nouveaux, doublent chaque année alors que la décroissance des prix n'est que de ~60% par an en moyenne. ça ne peut pas durer très longtemps sans problème ou hausse des budgets. Or si la participation du CNRS au budget 2004 du CC (4750 K€) est comparativement bonne (4230 K en 2003), elle est à peine égale à celle de 2002 (4650 K€) en euros constants. Ce courrier ne surprendra pas ceux qui étaient présents aux JI-04 à Hourtin. Le paramètre le plus visible demeure bien entendu le calcul, mais une dégradation des accès aux données résultera également d'un manque de serveurs ou dérouleurs. Vous avez demandé un total d'environ 140 Millions d'heures UI (1 UI ~ 50 SI2K, ce qui veut dire 7000 M heures SI2K ou à raison de 7000 heures par an – les 80% efficaces d'une année – une puissance disponible moyenne de 1 M SI2K contre 0,55 M actuellement). Nous ferons au mieux et au plus vite de nos possibilités. En pratique, quelques machines de calcul seront ajoutées avant l'été mais un gros arrivage (doublement de puissance) n'est pas prévu avant octobre, compte tenu des délais des marchés publics essentiellement mais aussi de quelques soucis de climatisation. Il sera donc nécessaire au moins d'ici l'automne de fixer des priorités entre les expériences, n'en soyez pas étonnés. En partenariat avec la direction de l'IN2P3, nous essaierons de "faire au mieux" pour gérer la pénurie et vous en tenir informés. Amicalement, --dl 26/05/04 Patrice lebrun - D0-France Lyon