ATLAS Analysis Challenge Résultats du Stress Test Frédérique Chollet Information disponible sur le wiki LCG-France

Slides:



Advertisements
Présentations similaires
EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.
Advertisements

Calcul CMS: bilan 2008 C. Charlot / LLR LCG-DIR mars 2009.
CAF-13/09/2010Luc1 Squad Report T2 Période 19/06-11/09 Irena, Sabine, Emmanuel.
Chapitre 17 Sauvegardes.
L’Online Executive Master in Management Organisé par Proposé en partenariat par.
29 mars 2006J-P Meyer1 Evaluation des besoins en infrastructures et réseau  Evaluation des besoins en infrastructures  Evaluation des besoins réseau.
GRIF Status Michel Jouvin LAL/Orsay
Espace collaboratif du CODEV Blog, WIKI, Forum: c’est quoi?  Blog - Publication périodique et régulière d’articles La vocation d’un Blog est d'être un.
JI Les systèmes d’autorisation et d’authentification dans AMI Fabian Lambert.
ABF Améliorer nos formations pour une microfinance plus sociale.
Expérience du déploiement d’une Virtual Organisation (VO) locale Christophe DIARRA
Question de gestion 13 : Le document peut-il être vecteur de coopération ? Le document : - Dématérialisation des documents - Partage, mutualisation, sécurisation.
Informatique Prospective. La qualité: HelpDesk au LAPP ou Pour un meilleur suivi des demandes au(x) support(s) Sylvain Garrigues.
Sortir de MAUI – quelles options ? HTCondor dans un CREAM-CE Guillaume Philippon.
Motiver les élèves avec des échéanciers automatisés et personnalisés AQIFGA 2015 Cette présentation de David Larochelle est mise à disposition sous licence.
CENTRE DE COORDINATION ET DE GESTION DES PROGRAMMES EUROPEENS Fichier stagiaires annuel Accrojump Année N = année civile considérée 1 ère Année N concernée.
1 Les bases de données Séance 7 Les fonctions avancées : Opérateurs ensemblistes, Sous-requêtes et transactions.
Françoise Fooz - IPSMa nov Evaluation de l’impact d’une nouvelle méthode d’identification de l’instrumentation chirurgicale et d’une nouvelle procédure.
Un outil de communication : la liste de diffusion Mis à jour en juillet 2008 Anne Maincent-Bourdalé CRDoc IUT Paul Sabatier.
Chapitre 6 Gestion et analyse du système DNS Module S43 1.
INTRANET.SANTEFRANCAIS.CA ANTOINE DÉSILETS Coordonnateur au réseautage et Agent de communication Formation sur l’utilisation de l’Intranet 1.
Projet Personnel (Epreuve 6) Projet réalisé dans le cadre de mon épreuve E6 au sein de mon alternance au conseil départemental du val de marne Arnaud PICANO.
Migration Plan adressage EPLE Migration Plan d'adressage EPLE.
Les méthodes de tests Les grands principes pour réaliser des tests efficaces.
Fonctionnement des sites (1 er trim.09) Frédérique Chollet Fabio Hernandez Fairouz Malek Forum trimestriel LCG-France Lyon, 6 avril 2009.
QUASAR QUAlité des Services informatiques pour les AsR.
RÉNOVATION BTS Comptabilité et Gestion 2015 CB2C : un exemple de situation professionnelle Christine Forest Stéphane Bessière Daniel Perrin Toinin.
Migration du système de sauvegarde d’une infrastructure locale à un système centralisé IN2P3 101/06/2016 HEPIX Spring 2013 Muriel Gougerot (LAPP) and Remi.
Eric Lançon1 Calcul ATLAS en France Le CAF au PAF * CAF : Calcul Atlas France *Célèbre contrepèterie.
Introduction à la Programmation Orientée Objet H.GATI.
Utilisation de Quattor par GRIF Michel Jouvin LAL/Orsay
1 Master Data Management au SANDRE Les stations de mesure.
Jobs multicore dans WLCG Présentation en partie basée sur des présentations faites dans le cadre du groupe de travail multicore.
INDICO. Usage Centralisé au CC pour tout l’IN2P3 Remplace Agenda Maker (CDS agenda) Fermeture de Agenda Maker le 10 décembre (reste en mode consultation)
1Prod Monte Carlo sur le nuage français La production Monte-Carlo sur le nuage français J.Schwindling CEA / DAPNIA Organisation de la production Monte-Carlo.
2011/06/14 Efficacité des jobs d’Atlas Pierre Girard Réunion de travail avec Atlas CC-IN2P3, le 14 juin 2011.
Présentation du fonctionnement des « Dossiers partagés » dans la version de la Rentrée Scolaire 2012 Alexis OLLIER 11 juin 2012.
11/9/07-PAFL.Poggioli/LAL1/25 Gestion des données : DDM Distributed Data Management Préambule Le modèle ATLAS DDM –Principe, Tests, Suivi, Problèmes Next.
25/06/20101LCG - France CPPM Marseille L’expérience CMS à GRIF LLR – E.Poly.,Palaiseau: Pascale Hennion Paulo Mora de Freitas Igor Semeniouk Philippe Busson.
Eric Fede - 1 GESTION DES PRIORITES SUR LA GRILLE.
CAF LCG-FRANCE A.Rozanov LCG France 22 Juillet SOMMAIRE Composition CAF DC2 ATLAS Demandes fin 2004.
Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue
CMS CCRC08 phase 2 C. Charlot / LLR LCG-DIR juin 2008.
6-7 Octobre 2008J-P MEYER1 Conclusions du groupe de travail thématique 7 Physique subatomique: - physique des particules, - physique nucléaire, - astroparticules.
C. Charlot, LLR Ecole Polytechnique DC04 CMS Objectif numéro 1: préparation du traitement offline Différent des productions MC précédentes Mise en route.
CEA Dapnia Saclay 24 Janvier Hervé COPPIER ESIEE-Amiens De L’Identification et de la Modélisation au Contrôle : le Multicontrôleur,
INFSO-RI Enabling Grids for E-sciencE Sécurité sur la Grille C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 8 octobre 2007.
Déploiement de la solution de supervision FAN au sein de société CBI et de ses filiales au Maroc et en Afrique.
CAF-11/10/2010Luc1 Squad Report T1 Période 13/09-11/10 Irena, Sabine, Emmanuel.
Formation des Chefs d’établissement 2012 SAFCO-Mission TICE-IUFM Formation ENT Préparer la rentrée scolaire.
 rechercher et coordonner l'engagement des acteurs nécessaires, Christine=> Helene,Gilles (permet de réduire les groupes de travail comme mentionné dans.
20-mars-2008Eric Lançon1 Activités ATLAS sur le nuage Français Emprunts a K. Bernardet, C. Biscarat, S. Jezequel, G. Rahal.
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
LCG France point Réseau Mai 2013.
Chapitre 9 Gestion des maîtres d'opérations
Tier 2 au LAPP. Plan Historique Objectifs Infrastructures Status/métriques Avenir Conclusion.
VISHNOO – Téléactions SPOT Romain RAYMOND - SDNO 06/10/2011.
Tier2: Subatech Tier2: LPC Tier2: GRIF CEA/DAPNIA LAL LLR LPNHE IPNO Tier2: GRIF CEA/DAPNIA LAL LLR LPNHE IPNO AF: CC-IN2P3 Tier3: LAPP Tier1: CC- IN2P3.
EGEE induction course, 22/03/2005 INFSO-RI Enabling Grids for E-sciencE Infrastructure Overview Pierre Girard French ROC deputy.
INFSO-RI Enabling Grids for E-sciencE Adaptation de GRIDSITE à WEBDAV Cédric Duprilot CNRS/IN2P3/LAL.
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
Chapitre 5 Administration des accès aux objets dans les unités d'organisation Module S42.
© 2007 Autodesk1 Nouveautés de Revit Architecture 2008.
INFSO-RI Enabling Grids for E-sciencE La gestion des données Daniel Jouvenot LAL-IN2P3-CNRS 18/06/2008.
Un projet pour tous, un engagement pour chacun Cette épreuve de « compte est bon » permet à tous les élèves, quel que soit leur compétence, de participer.
EGEE France, Marseille, 24 mars 2005 INFSO-RI Enabling Grids for E-sciencE Activité SA1 Regional Operations Centre Pierre Girard.
1DSM - IRFU / PM Compte rendu du site GRIF.
CREAM & ICE Réunion SA1-France 11 mars 2008
Résumé de la réunion PAF-CAF 12/04/2010
Transcription de la présentation:

ATLAS Analysis Challenge Résultats du Stress Test Frédérique Chollet Information disponible sur le wiki LCG-France Minutes de la réunion T2-T3 du 19/12/08 CAF 13 Dec. 2009

2 « Stress tests » orienté Analyse de données Gérés centralement par ATLAS (Dan van der Ster et Johannes Elmsheuser) Executés par nuage depuis un framework de test basé sur Ganga incluant un outil de collecte et de présentation des résultats Véritable analyse analyse muons à partir AODS (tag soft ) Query dq2 : Input datasets (par ordre de priorité) sur les sites participants  mc08.*Wmunu*.recon.AOD.e*_s*_r5*tid*  mc08.*Zprime_mumu*.recon.AOD.e*_s*_r5*tid*  mc08.*Zmumu*.recon.AOD.e*_s*_r5*tid*  mc08.*T1_McAtNlo*.recon.AOD.e*_s*_r5*tid*  mc08.*H*zz4l*.recon.AOD.e*_s*_r5*tid*  mc08.*.recon.AOD.e*_s*_r5*tid*  mc08*AOD*e*s*r5 Génération de n jobs par site selon la disponibilité des datasets cibles  1 dataset = 1 job executésous DN : /O=GermanGrid/OU=LMU/CN=Johannes_Elmsheuser  CPUtime requis ~24h (typ. 5h) GlueCEPolicyMaxCPUTime >= 1440  Accès aux datasets depuis la zone ATLASMCDISK en mode rfio - Ecriture du fichier d’output sur ATLASUSERDISK

3 ST#82 des Decembre 08 Métriques / Cibles :  Nombre de jobs exécutés / Nbre de fichiers traités  Taux (evt/s) : cible 15 Hz  Taux de succès (success/failure rate) > 80 %  Utilisation CPU : CPUtime / Walltime > 50 % Durée globale du test : 48 heures 10 sites (TierofAtlas) participants  IN2P3-CC, IN2P3-LPC, GRIF-LAL, GRIF-LPNHE, GRIF-SACLAY, IN2P3- CPPM, IN2P3-LAPP, TOKYO, RO-O2, RO jobs demandés par site Mobilisation des experts sites et coordination FR-Cloud  via la liste wiki, échanges de Résultats :  Le test est passé (résultats raisonnables) mais les objectifs ci-dessus n’ont pas été atteints d’emblée  Problèmes et résultats très différents selon les sites (détails à suivre)

4 ST#82 des Decembre 08 Pb de disponibilité des input datasets - Tentative de réplication depuis CC infructueuse – pas de réel stress pour Marseille et le LAPP ! 28 jobs au IN2P3-LAPP 42 jobs au RO-07-NIPNE 45 jobs au RO-02-NIPNE 74 jobs au IN2P3-CPPM …. 237 jobs prévus pour GRIF-SACLAY 238 jobs au IN2P3-LPC 247 jobs prévus pour GRIF-LPNHE 300 jobs prévus pour GRIF-LAL 300 jobs au IN2P3-CC 300 jobs au TOKYO-LCG2 Suggestion sites : travailler avec un jeu de datasets identique sur tous les sites dont on s’assure de la disponibilité – Travail de réplication en cours de la part de Stéphane Tokyo meilleur T2 ATLAS !  Objectifs atteints  Site ATLAS uniquement, Configurations hardware serveur dpm et serveurs disques bien dimensionnées – Bonne répartition des données sur les différents serveurs de disques

5 ST#82 des Decembre 08 GRIF : stratégie et configuration multi-site 3 ToAs identifiés par les 3 SEs supportant ATLAS  GRIF-LAL, GRIF-SACLAY, GRIF-LPNHE  Ganga identifie ensuite les CES GRIF pouvant traiter les datasets présents sur les SEs ATLAS Les CES du LAL, SACLAY, IPNO, LLR supportent ATLAS et sont configurés (via les closeSE déclarés) pour accéder indifféremment ces 3 SEs ATLAS à travers GRIFOPN  Mapping CE-SE : pas de correspondance 1-1 (sauf pour le LPNHE qui ne publie pas de multiples SE pour le moment) Certains jobs exécutés à l’IPNO et au LLR. L’ensemble ou la quasi- totalité des jobs ciblés pour SACLAY ont été exécutés au LAL  accès aux données d’entrée depuis le closeSE  Écriture de l’output sur le defaultSE Configuration GRIF transparente pour ATLAS. Pas de stress test par CE Pas de stress test pour SACLAY mais un test efficace de GRIFOPN (limitation à 2 Gb/s du lien LAL – SACLAY annoncé à 5 Gbit/s observée et corrigée) Erreurs au LPNHE : pb ponctuel de configuration du site identifié et corrigé Avis GRIF nécessaire pour la suite…

6 ST#82 des Decembre 08 CC-IN2P3 : perf. moyennes pour différentes raisons  co-location T1 /T2 mal gérée par le framework de test (jobs envoyés sur cclclceli01 réservé au rôle production (problème identifié)  Problèmes ponctuels sur le site identifiés : cclcgli06, topbdii  Production MC toujours ON alors qu’il était prévu qu’elle soit arrêtée Erreurs rfio :  rfio timeout visibles dans les fichiers stderr même pour des jobs marqués « completed » (LPC, LAL) file rfio://clrgpfssrv03-dpm.in2p3.fr//storage/atlas1/atlas/ / AOD _00003.pool.root can not be opened for reading (Timed out)  Tous les fichiers du dataset ne sont pas lus Number of Files PROCESSED # EXPECTED by "completed" jobs  Tuning rfio possible à considérer par les sites (appliqué avec succès sur le nuage UK)  Augmentation du cache de lecture rfio de 128 Ko à 128 Mo sur les WNs

7 ST#82 des Decembre 08 Jobs bloqués (en l’état running)  Tués par le scheduler de batch au bout du MAxCPUTime autorisé  Qques uns au CPPM, 37 % au LPC  Travail de fouille de Jean-Claude et Edith pour récupérer les fichiers stdout et stderr sur les WNS  Pb du à un mauvais turl restitué par la commande lcg-gt lors de la phase de préparation « Prepare Inputs »  lcg-gt sollicite le topbdii (infos sur le serveur srm) et l’interface srm du SE  adaptation du fail-over de Ganga  Peut être lié à l’utilisation de topbdii distants dans le cas de LPC (topbdii CC !), CPPM (topbdii LAL)  option –nobdii Réflexion ATLAS et tests en cours en vue de l’optimisation de l’accès aux fichiers d’input – Modification possible du script de stage-in  Eviter la charge induite par les commandes lcg-gt  Revenir au protocole d’accès gsidftp…

8 ST#82 des Decembre 08 Beaucoup de résultats à exploiter Identification des erreurs  Accès aux logs Analyse (à poursuivre) les différents temps d’éxécution collectés par les jobs  Athena Software Setup Time : accès à la software area, setup cmt, untar gz…  Prepare Inputs Time : récupération des turl des fichiers input  Athena Running Time : execution athena  Athena Running Time, Normalized to Number of Events  Output Storage Time : lcg-cr du fichier output Réaction et Suggestion des sites  Nécessité d’avoir une description précise de « ce que fait le job d’analyse »  Set-up Athena : Stress de la zone software  Stress lors du pic de démarrage de centaines de jobs configuration du scheduler pour s’assurer de la répartition des jobs sur les WNs, introduire un léger décalage en temps  Moyen permettant aux responsables des sites ou au responsable de l'activité d'analyse au sein de ATLAS-France de réaliser ces tests de façon autonome,  Même jeu de données, afin d'avoir des résultats significatifs comparables entre les sites.

9 Comment poursuivre ? Concertation avec ATLAS : feed-back sous la forme d’un rapport de test Concertation avec les sites via visio T2-T3 Evolution du mode opératoire (suggestions sites) ?  autonomie nuage FR, sites…  Choix d’un jeu de données unique commun aux sites Evolution de l’accès aux données ? (réflexion ATLAS) Poursuite des tests en vue de l’optimisation des performances des sites  Demande SACLAY, LAPP, CPPM, LPSC