La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

2011/06/14 Efficacité des jobs d’Atlas Pierre Girard Réunion de travail avec Atlas CC-IN2P3, le 14 juin 2011.

Présentations similaires


Présentation au sujet: "2011/06/14 Efficacité des jobs d’Atlas Pierre Girard Réunion de travail avec Atlas CC-IN2P3, le 14 juin 2011."— Transcription de la présentation:

1 2011/06/14 Efficacité des jobs d’Atlas Pierre Girard Réunion de travail avec Atlas CC-IN2P3, le 14 juin 2011

2 Préambule Cette présentation est une version mise-à- jour d’une présentation faite au comité de direction du CC-IN2P3 le mardi 7 juin 2011 2011/06/14

3 Content Efficacité des jobs d’ATLAS –Comparaison d’ATLAS entre les T1s –Statistiques au CCIN2P3 Investigations en cours –Concurrence des jobs sur un WN –Autopsie de jobs d’ATLAS Conclusions et perspectives

4 COMPARAISON D’ATLAS ENTRE LES T1S Efficacité des jobs d’ATLAS 2011/06/14

5 Efficacité d’Atlas sur les T1s Toutes activités confondues 2011/06/14 Source:http://dashb-atlas-job.cern.ch/dashboard/request.py/dailysummaryhttp://dashb-atlas-job.cern.ch/dashboard/request.py/dailysummary Période du 1 er au 15 mai

6 Efficacité d’Atlas sur les T1s Par activité Comparison between ATLAS T1s 2011/06/14 Source: Eric Lançon http://dashb-atlas-job.cern.ch/dashboard/request.py/dailysummary CCIN2P3

7 STATISTIQUES AU CCIN2P3 Efficacité des jobs d’ATLAS 2011/06/14

8 Outil de prose de données sur les jobs de BQS Script Perl –Amélioration de la 1 er version utilisée pour le problème LHCb –Interroge BQS (jobs et configuration) et la base des machines (sysadmin) Reconstruit le passé sur une période donnée Permet de sélectionner des utilisateurs/groupes/workers Format CSV (utilisable par excel) en sortie –Fournit les informations par job fini durant la période choisie Datacenter location –CINES, Villeurbanne 1, Villeurbanne 2 Machine model WN Hostname BQS workpoint configuration Job Wall time and CPU time Simultaneous ending/running jobs User account/group –Prend des mesures sur les « pilot jobs », pas les « payload » jobs Contrairement à ATLAS 2011/06/14

9 Fluctuation de l’efficacité en fonction du temps 2011/06/14

10 Détection d’un cas d’inefficacité lié à notre infrastructure 2011/06/14

11 Correction et amélioration (temporaire hélas) 2011/06/14

12 Efficacité en fonction du type de machine et de la configuration BQS 2011/06/14

13 Effet de la concurrence des jobs entre eux 2011/06/14

14 Efficacité d’ATLAS comparée à d’autres expériences 2011/06/14

15 CONCURRENCE D’ACCÈS À LA SW AREA Investigations en cours 2011/06/14

16 Investigations (Phase I) Concurrence d’accès à la SW AREA 2011/06/14 WNGroupsSW AREAJob Slots ccwl0700ATLAS onlyFSR.v1 (Y.P.) (AFS/NFS) 17 ccwl0701ATLAS onlyAFS17 ccwl0702ALLAFS17 ccwl0703ATLAS onlyFSR.v2 (Y.P.) (AFS/NFS) 17 ccwl0704ATLAS onlyAFS5 ccwl0743ATLAS onlyFS locale17

17 Investigations (Phase I) 2011/06/14

18 Investigations (Phase II) Concurrence d’accès au WN 2011/06/14 WNGroupsSW AREAHyperThreadingJob SlotsDisk ccwl0701ATLAS onlyAFSYes121 ccwl0702ALLAFSYes171 ccwl0703ATLAS onlyAFSYes171 + 2 en stripping pour /scratch ccwl0704ATLAS onlyAFSYes51 ccwl0705ATLAS onlyAFSNo121 ccwl0743ATLAS onlyCVMFSYes171

19 Investigations (Phase II) 2011/06/14

20 Investigations (Phase II) 2011/06/14

21 AUTOPSIE DE JOBS D’ATLAS Investigations en cours 2011/06/14

22 Concurrence des transferts Ghita travaille sur –Les transferts (via dccp) de fichiers d’input d’un job Compare les versions du client « dccp » Compare des paramétrages différents –Les scripts de setup d’Atlas (SW AREA) D’initialisation des transferts (1 par transfert) D’initialisation du job –mise en place de l’environnement –Similaire à LHCb Utilisation via qsub de ccwl0706 pour les tests –C6100 –24 cœurs logiques (2x6 cœurs + HT) Voir sa présentation 2011/06/14

23 CONCLUSIONS ET PERSPECTIVES 2011/06/14

24 Conclusions Problème de concurrence des jobs sur une même machine Le partage de la SW AREA y contribue –Remplacer AFS par le FS local (the best) améliore significativement mais pas complètement –CVMFS ne semble pas améliorer la situation Comparaison à faire avec AFS (en cours) Une autre ressource est sensible à la concurrence 2011/06/14

25 Conclusions Les transferts (pas probant) –Réseau ? –Client dCache ? –Porte dcap de dCache ? L’hyperthreading (pas net) –A confirmer L’accès au disque local (prometteur) –À confirmer –Mais c’est une ressource commune Aux jobs de simulation (cache AFS sur disque) Aux jobs de merge qui font du dccp de fichiers sur le scratch 2011/06/14

26 Conclusions Exemple de la config. des WNs à PIC –HP Blades –8 ou 12 cœurs (sans HT) –Carte réseau: de 2x1Gbps à 10Gbps 2x1Gbps/16nodes(8 core) to 2x10Gbps/16nodes(12 core) –Autant de jobs que de cœurs par machine –2Go par cœur –160GB/500GB HDD 2011/06/14

27 Perspectives Continuation des tests de comparaison sur la ferme BQS –Pour CVMFS Ré-introduction d’un WN AFS avec 17 wp pour Atlas pour comparaison entre CVMFS et AFS Possibilité d’utiliser le FSR de Y. Perret avec plusieurs instances de CVM-FS –Réduire le nb de job slots sur un WN ATLAS Trouver la valeur optimale entre 17 et 5 job slots Estimer la perte de puissance que ça représente –Augmenter le nb de job slots sur un WN Atlas avec 2 disques en stripping pour /scratch Trouver la valeur optimale entre 17 et 24 job slots Estimer le gain de puissance que ça représente 2011/06/14

28 Perspectives Etudier la possibilité d’ajouter un disque sur nos machines (2x12c+HT) –2 disques en stripping pour améliorer les I/O –Problème de coût Etudier la possibilité de réduire le nombre de jobs d’ATLAS sur un même WN –Avec BQS, possibilité de le faire en ajoutant une classe –Avec GE, à étudier Etudier la possibilité de décaler les entrées en machine des jobs d’ATLAS (Ghita) –Pour optimiser l’utilisation de la bande passante d’un WN –Pour optimiser les I/O sur disque 2011/06/14

29 Perspectives Une campagne de merge serait la bienvenue pour nos statistiques –Résultat attendu: Une machine avec 2 disques devrait être meilleure que les autres. 2011/06/14

30 CVM-FS, LES DERNIERS RÉSULTATS Backup slides 2011/06/14

31 CERNVM-FS / Latest stress test results Cvmfs 0.2.61 –Results for 1 job on the WN –Latency still increasing with meta- data cache size 2011/06/14

32 CERNVM-FS / Latest stress test results 2011/06/14

33 CERNVM-FS / Next steps (1) CERNVM-FS / Next steps (1) 2011/06/14 File system redirector (Y. Perret) –Enable the use of several FS to serve the same space Ex.: mix NFS SW_AREA and AFS SW_AREA Transparently dispatching the I/O operations over the several FS Tested by running several CVMFS on different mount points for the same volume. –Tests ongoing in production with ATLAS SW AREA By mixing AFS and NFS Periodical replication of AFS SW Area on NFS


Télécharger ppt "2011/06/14 Efficacité des jobs d’Atlas Pierre Girard Réunion de travail avec Atlas CC-IN2P3, le 14 juin 2011."

Présentations similaires


Annonces Google