2011/06/14 Efficacité des jobs d’Atlas Pierre Girard Réunion de travail avec Atlas CC-IN2P3, le 14 juin 2011.

Slides:



Advertisements
Présentations similaires
Environmental Data Warehouse Cemagref, UR TSCF, TR MOTIVE 2011 – projet Miriphyque.
Advertisements

Energy optimization in a manufacturing plant Journée GOThA Ordonnancement avec contraintes d’énergie et/ou de ressources périssables LAAS-CNRS Toulouse.
Bon mardi! Pour être prêt: 1.Sortez 1.l’histoire du passé: Un voyage 2.Text: questions de comprehension p p. 132 # 1 2.Sur un morceau de papier.
Offre DataCenter & Virtualisation Laurent Bonnet, Architecte Systèmes Alain Le Hegarat, Responsable Marketing 24 Novembre 2009.
Calcul CMS: bilan CCRC08 C. Charlot / LLR LCGFR, 3 mars 2008.
FORUM REGIONAL DE NORMALISATION DE L'UIT POUR L'AFRIQUE (Dakar, Sénégal, mars 2015) Outils et méthodes pour tester la qualité de services (QoS) de.
Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.
Tier1 at the CC-IN2P3 March Current state at the CC-IN2P3 storage, computation, network...
Les fermes de PCs au Centre de Calcul de l’IN2P3 Journée « ferme de PCs » 27 juin 2000 Benoit Delaunay
ATLAS Ghita Rahal CC-IN2P3 Novembre 9, /6/2006Réunion CAF2 Activités Création et externalisation d’outils de monitoring de l’état du T1 (CPU,
D0 côté info D0 à FNAL  Données du RunII  Infrastructure matérielle  Infrasturucture logicielle  Monte Carlo à D0 D0 à Lyon  Production Monte Carlo.
21 octobre 2015 BeSt Address et structure TI 020 au Registre national Comité des utilisateurs Marc Ruymen.
Développement d’application avec base de données Semaine 3 : Modifications avec Entité Framework Automne 2015.
PROGRAMME DE SCIENCES DE GESTION en lien avec l’ETUDE.
Tutoriel n°4 : Administration Technique Formation : profil Administrateur.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Session “Site Administrator” Pierre Girard.
Centre d’Innovations Vertes (CIV) au Bénin. Mise en œuvre du projet pilote Zogbodomey, le 18 Avril 2016 Catalyzing the Adoption and Use of Scalable technologies.
Prevalence of HPV After Introduction of the Vaccination Program in the United States Lauri E. Markowitz, MD, Gui Liu, MPH, Susan Hariri, PhD, Martin Steinau,
REP DES ÉLÉMENTS D ’ AMEUBLEMENT. l’article 41 de la loi GRENELLE 1 d’août 2009 et l’article 78 quater de la loi GRENELLE 2 : « À compter du 1 er janvier.
Projet Personnel (Epreuve 6) Projet réalisé dans le cadre de mon épreuve E6 au sein de mon alternance au conseil départemental du val de marne Arnaud PICANO.
I.Introduction  Définition de Connexion Multihoming  La Multihoming et les besoins des entreprises.
ASSURANCE – TRAITEMENT Mai Après février 2003 Début de l’invalidité 1 Utilisation de la réserve de congés de maladie traitement brut 2 1 ière.
Les méthodes de tests Les grands principes pour réaliser des tests efficaces.
Résultats de la commission Enseignements Technologiques - Sciences Expérimentales.
Migration du système de sauvegarde d’une infrastructure locale à un système centralisé IN2P3 101/06/2016 HEPIX Spring 2013 Muriel Gougerot (LAPP) and Remi.
1 Les groupements d’échangeurs thermiques, illustration de systèmes énergétiques, introduction aux systèmes complexes. Comprendre.
1 Les groupements d’échangeurs thermiques, illustration de systèmes énergétiques, introduction aux systèmes complexes. Comprendre.
The Worry-Free Investing Challenge ANDRÉ DESCHÊNES.
Mercredi 1er juin 2016 Panorama sur les outils de monitoring Cyril L’Orphelin David Bouvet.
Jobs multicore dans WLCG Présentation en partie basée sur des présentations faites dans le cadre du groupe de travail multicore.
Présentation du fonctionnement des « Dossiers partagés » dans la version de la Rentrée Scolaire 2012 Alexis OLLIER 11 juin 2012.
Pierre Girard LCG France 2011 Strasbourg, May 30th-31th, 2010 Activité et nouvelles du CCIN2P3 Tier-1.
HTCondor experience at IRFU and LLR. Motivations Torque 2.X Plus maintenu officiellement (sécurité !) Maui Evolution/maintenance délaissées (moab…) !
A.I.P. Saint Michel 2011 A.I.P. Saint Michel 2011 Inside ASCOM v6 Nicolas CUVILLIER
Mercredi 7 novembre 2007 Dominique Boutigny Activités et Évolution du CC-IN2P3 Réunion des Expériences 2007.
Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue
12/03/2015 Groupe GIGE 12/03/2015 – Point sur BDLISA : nouvelle version, modalités de diffusion D3E.
6-7 Octobre 2008J-P MEYER1 Conclusions du groupe de travail thématique 7 Physique subatomique: - physique des particules, - physique nucléaire, - astroparticules.
C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.
On the analysis of CMMN expressiveness: revisiting workflow patterns Renata Carvalho Hafedh Mili.
Evaluation des tendances à la hausse de polluants dans les masses d’eau souterraine de la Réunion.
EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.
Déploiement de la solution de supervision FAN au sein de société CBI et de ses filiales au Maroc et en Afrique.
Com. info., 7 avril 2011 Vincent Poireau 1. Rôle de la commission informatique Faire un bilan de l’informatique Evaluer les besoins des utilisateurs Proposer.
Infrastructure,Geographical Disadvantage,Transport Costs and Trade.
Caractérisation dimensionnelle de défauts par thermographie infrarouge stimulée. Contrôles et Mesures Optiques pour l’Industrie novembre
CAF-11/10/2010Luc1 Squad Report T1 Période 13/09-11/10 Irena, Sabine, Emmanuel.
Introduction Depuis le début des sites web les urls sont utilisé pour la navigation. Avec l’arrivée des bases de données, les urls ont prit de l’importance.
Étude des émissions diffuses avec l’expérience H.E.S.S. Tania Garrigoux.
20-mars-2008Eric Lançon1 Activités ATLAS sur le nuage Français Emprunts a K. Bernardet, C. Biscarat, S. Jezequel, G. Rahal.
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
Paramètres S Rappels de théorie des circuits
Mise en place d’un cloud publique et privé Guillaume PHILIPPON.
Ghita Rahal Lyon, 17 Avril 2008 Outils d’information et de suivi pour l’utilisateur.
Tier 2 au LAPP. Plan Historique Objectifs Infrastructures Status/métriques Avenir Conclusion.
Profile Likelihood Une petite revue succincte. Petite citation a méditer… « a probability of 1 in is almost impossible to estimate » R. P.
EGEE induction course, 22/03/2005 INFSO-RI Enabling Grids for E-sciencE Infrastructure Overview Pierre Girard French ROC deputy.
IUS62 INCISIVE UNIFIED SIMULATOR linux. ENVIRONNEMENT Xwin32 -> lappsun26, lappsun27 Script d’initialisation de l’environnement –Mldv Aide –cdnshelp.
Gérard GUTHINGER 1, Lydie GUERQUIN 1 Yoann ZAFIRIOU 1 Catherine BRIOT 1 Claire CHAPUIS 2 Jean Luc BOSSON 3 Pierre ALBALADEJO 4 1 Ecole IADE, 2 Pôle de.
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
FROMHOLTZ RaphaëlFOUCHEZ Dominique 1. Plan Quelques mots sur les SN Etude preliminaire sur D1 2 Modèle Cosmologique Extrapolation pour JDEM.
AQPC juin TYPO3 un outil adapté pour soutenir les enseignants dans la production de sites web de cours au Cégep de Sainte-Foy.
Eric Fede : Obernai Intégration des services grille dans l'exploitation des systèmes informatiques du laboratoire.
1 Introduction de nouveaux processus dans Geant4.
CREAM & ICE Réunion SA1-France 11 mars 2008
Verbe (Etre) au présent
Réunion coordination WLCG Lyon, le 13 mars 2008
Résumé de la réunion PAF-CAF 12/04/2010
Transcription de la présentation:

2011/06/14 Efficacité des jobs d’Atlas Pierre Girard Réunion de travail avec Atlas CC-IN2P3, le 14 juin 2011

Préambule Cette présentation est une version mise-à- jour d’une présentation faite au comité de direction du CC-IN2P3 le mardi 7 juin /06/14

Content Efficacité des jobs d’ATLAS –Comparaison d’ATLAS entre les T1s –Statistiques au CCIN2P3 Investigations en cours –Concurrence des jobs sur un WN –Autopsie de jobs d’ATLAS Conclusions et perspectives

COMPARAISON D’ATLAS ENTRE LES T1S Efficacité des jobs d’ATLAS 2011/06/14

Efficacité d’Atlas sur les T1s Toutes activités confondues 2011/06/14 Source: Période du 1 er au 15 mai

Efficacité d’Atlas sur les T1s Par activité Comparison between ATLAS T1s 2011/06/14 Source: Eric Lançon CCIN2P3

STATISTIQUES AU CCIN2P3 Efficacité des jobs d’ATLAS 2011/06/14

Outil de prose de données sur les jobs de BQS Script Perl –Amélioration de la 1 er version utilisée pour le problème LHCb –Interroge BQS (jobs et configuration) et la base des machines (sysadmin) Reconstruit le passé sur une période donnée Permet de sélectionner des utilisateurs/groupes/workers Format CSV (utilisable par excel) en sortie –Fournit les informations par job fini durant la période choisie Datacenter location –CINES, Villeurbanne 1, Villeurbanne 2 Machine model WN Hostname BQS workpoint configuration Job Wall time and CPU time Simultaneous ending/running jobs User account/group –Prend des mesures sur les « pilot jobs », pas les « payload » jobs Contrairement à ATLAS 2011/06/14

Fluctuation de l’efficacité en fonction du temps 2011/06/14

Détection d’un cas d’inefficacité lié à notre infrastructure 2011/06/14

Correction et amélioration (temporaire hélas) 2011/06/14

Efficacité en fonction du type de machine et de la configuration BQS 2011/06/14

Effet de la concurrence des jobs entre eux 2011/06/14

Efficacité d’ATLAS comparée à d’autres expériences 2011/06/14

CONCURRENCE D’ACCÈS À LA SW AREA Investigations en cours 2011/06/14

Investigations (Phase I) Concurrence d’accès à la SW AREA 2011/06/14 WNGroupsSW AREAJob Slots ccwl0700ATLAS onlyFSR.v1 (Y.P.) (AFS/NFS) 17 ccwl0701ATLAS onlyAFS17 ccwl0702ALLAFS17 ccwl0703ATLAS onlyFSR.v2 (Y.P.) (AFS/NFS) 17 ccwl0704ATLAS onlyAFS5 ccwl0743ATLAS onlyFS locale17

Investigations (Phase I) 2011/06/14

Investigations (Phase II) Concurrence d’accès au WN 2011/06/14 WNGroupsSW AREAHyperThreadingJob SlotsDisk ccwl0701ATLAS onlyAFSYes121 ccwl0702ALLAFSYes171 ccwl0703ATLAS onlyAFSYes en stripping pour /scratch ccwl0704ATLAS onlyAFSYes51 ccwl0705ATLAS onlyAFSNo121 ccwl0743ATLAS onlyCVMFSYes171

Investigations (Phase II) 2011/06/14

Investigations (Phase II) 2011/06/14

AUTOPSIE DE JOBS D’ATLAS Investigations en cours 2011/06/14

Concurrence des transferts Ghita travaille sur –Les transferts (via dccp) de fichiers d’input d’un job Compare les versions du client « dccp » Compare des paramétrages différents –Les scripts de setup d’Atlas (SW AREA) D’initialisation des transferts (1 par transfert) D’initialisation du job –mise en place de l’environnement –Similaire à LHCb Utilisation via qsub de ccwl0706 pour les tests –C6100 –24 cœurs logiques (2x6 cœurs + HT) Voir sa présentation 2011/06/14

CONCLUSIONS ET PERSPECTIVES 2011/06/14

Conclusions Problème de concurrence des jobs sur une même machine Le partage de la SW AREA y contribue –Remplacer AFS par le FS local (the best) améliore significativement mais pas complètement –CVMFS ne semble pas améliorer la situation Comparaison à faire avec AFS (en cours) Une autre ressource est sensible à la concurrence 2011/06/14

Conclusions Les transferts (pas probant) –Réseau ? –Client dCache ? –Porte dcap de dCache ? L’hyperthreading (pas net) –A confirmer L’accès au disque local (prometteur) –À confirmer –Mais c’est une ressource commune Aux jobs de simulation (cache AFS sur disque) Aux jobs de merge qui font du dccp de fichiers sur le scratch 2011/06/14

Conclusions Exemple de la config. des WNs à PIC –HP Blades –8 ou 12 cœurs (sans HT) –Carte réseau: de 2x1Gbps à 10Gbps 2x1Gbps/16nodes(8 core) to 2x10Gbps/16nodes(12 core) –Autant de jobs que de cœurs par machine –2Go par cœur –160GB/500GB HDD 2011/06/14

Perspectives Continuation des tests de comparaison sur la ferme BQS –Pour CVMFS Ré-introduction d’un WN AFS avec 17 wp pour Atlas pour comparaison entre CVMFS et AFS Possibilité d’utiliser le FSR de Y. Perret avec plusieurs instances de CVM-FS –Réduire le nb de job slots sur un WN ATLAS Trouver la valeur optimale entre 17 et 5 job slots Estimer la perte de puissance que ça représente –Augmenter le nb de job slots sur un WN Atlas avec 2 disques en stripping pour /scratch Trouver la valeur optimale entre 17 et 24 job slots Estimer le gain de puissance que ça représente 2011/06/14

Perspectives Etudier la possibilité d’ajouter un disque sur nos machines (2x12c+HT) –2 disques en stripping pour améliorer les I/O –Problème de coût Etudier la possibilité de réduire le nombre de jobs d’ATLAS sur un même WN –Avec BQS, possibilité de le faire en ajoutant une classe –Avec GE, à étudier Etudier la possibilité de décaler les entrées en machine des jobs d’ATLAS (Ghita) –Pour optimiser l’utilisation de la bande passante d’un WN –Pour optimiser les I/O sur disque 2011/06/14

Perspectives Une campagne de merge serait la bienvenue pour nos statistiques –Résultat attendu: Une machine avec 2 disques devrait être meilleure que les autres. 2011/06/14

CVM-FS, LES DERNIERS RÉSULTATS Backup slides 2011/06/14

CERNVM-FS / Latest stress test results Cvmfs –Results for 1 job on the WN –Latency still increasing with meta- data cache size 2011/06/14

CERNVM-FS / Latest stress test results 2011/06/14

CERNVM-FS / Next steps (1) CERNVM-FS / Next steps (1) 2011/06/14 File system redirector (Y. Perret) –Enable the use of several FS to serve the same space Ex.: mix NFS SW_AREA and AFS SW_AREA Transparently dispatching the I/O operations over the several FS Tested by running several CVMFS on different mount points for the same volume. –Tests ongoing in production with ATLAS SW AREA By mixing AFS and NFS Periodical replication of AFS SW Area on NFS