Utilisation effective de la Grille par ATLAS S. Jézéquel (LAPP)

Slides:



Advertisements
Présentations similaires
Eric Lançon1 Calcul ATLAS en France Le CAF au PAF * CAF : Calcul Atlas France *Célèbre contrepèterie.
Advertisements

11/9/07-PAFL.Poggioli/LAL1/25 Gestion des données : DDM Distributed Data Management Préambule Le modèle ATLAS DDM –Principe, Tests, Suivi, Problèmes Next.
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Jeudi 12 decembre 2007 Le CC-IN2P3 Un instrument informatique de pointe au service de la recherche Traitement intensif de données et Sciences de la Vie.
Nombre de job slot par machine Server_priv/node. Node1 np=2 Règle de 1 core = 1 job slot = 2 Go. Sur un bi-processeur bi-core on annonce alors np=4 Pas.
Le projet MUST Méso infrastructure de calcul et de stockage ouverte sur la grille européenne LCG/EGEE Colloque Grille Rhône-Alpes 10 janvier 2008.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
FAIRE SA BIBLIOGRAPHIE DE THESE AVEC ZOTERO Traitements de texte pris en compte: Word et LibreOffice.
Vendredi 23 mars 2007 Le CC-IN2P3 Un instrument informatique de pointe au service de la recherche.
Composants Matériels de l'Ordinateur Plan du cours : Ordinateurs et applications Types d'ordinateurs Représentation binaires des données Composants et.
Projet tuteuré 2009 Les clients légers Alexandre Cédric Joël Benjamin.
1 Stéphane JEZEQUEL JI06 Modèle de calcul d'ATLAS et Exercices en vraie grandeur de la grille WLCG par l'expérience ATLAS S. Jézéquel Journées Informatiques.
1 Stéphane JEZEQUEL 23 Juin 2008 Analyse des données LHC dans ATLAS S. Jézéquel.
Cloud computing Présenté par Robert Ogryzek, Teddy Frontin, Kevin Lambert et Matthew Cronne.
Le système Raid 5 Table des matières Qu'est ce que le RAID ? Les objectifs Le raid 5 Les avantages et les inconvénients Les composants d’un Raid.
Xen et l' Art de la Virtualization Antoine Nivard Responsable technique Adéquat région Ouest Responsable de Site francophone de XEN Computer.
Les Bases de données Définition Architecture d’un SGBD
Gestion des données : DDM Distributed Data Management
Le lancement et le suivi de fabrication
Enseigner la physique-chimie au cycle 4 dans l'objectif de la maîtrise du socle commun par les élèves. Stage du 30 mars /12 1.
Visite guidée - session 3 Les postes de charge et les gammes
L’ordinateur: comment ça marche ? Ou comment avoir des idées justes sur le sujet... PCI SV I - STU I Alain Mille UFR d’Informatique UCBL.
Utilisation de PostgreSQL
Journée Analyse D0, 19 janvier 2004
Lundi 2 juillet 2007 Résumé ARM Stockholm Rolf Rumler.
Réunion Analyse D0 France au CCIN2P3 19 janvier 2004
C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 2 février 2007
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
Un instrument informatique de pointe au service de la recherche
Planification budgétaire Tier2s & Tier-3s Etat d’avancement
Etat des services grid de production
ATLAS Computing model et utilisation de LCG
Fonctionnement de la grille
Consolidation des services FTS et LFC
Séquence1 . Séance 3 Problème posé :
Etat des lieux des VO Boxes LHC
Configuration FTS pour CMS
Participation aux Webinars – Quelques consignes à suivre!
Daniel JOUVENOT Laboratoire de l’Accélérateur Linéaire (LAL–ORSAY)
David Bouvet IN2P3-CC Annecy - 27/09/2007
Jobs ATLAS sur la grille
L’exploitation des données du collisionneur LHC: un défi pour le calcul scientifique un enjeu pour le LAPP S. Jézéquel.
Le Projet GRIF Efficient Handling and processing of
Synthèse problèmes rencontrés par les expériences LHC au CC-IN2P3
La grille de calcul EGEE
Atelier régulation de la production dans un contexte grille
Résumé de la réunion PAF-CAF 12/04/2010
Organisation LCG-France Lien avec le computing LHC
Architecture de machines Le microprocesseur Cours
ACP Analyse en Composantes Principales
Les protocoles de la couche application Chapitre 7.
Chapitre2: SGBD et Datawarehouse. On pourrait se demander pourquoi ne pas utiliser un SGBD pour réaliser cette structure d'informatique décisionnelle.
En savoir plus Microsoft Actualités SharePoint
Gestion des photos Organisation du disque dur, Navigation
Infrastructure Opérationnelle d’EGEE
Introduction à la Grille
GRIF : Site EGEE au Service de la Recherche en IdF
L’ordinateur: comment ça marche ? Ou comment avoir des idées justes sur le sujet... PCI SV I - STU I Alain Mille UFR d’Informatique UCBL.
Infrastructure Opérationnelle d’EGEE2
DC04 CMS Objectif Status Planning
Formation SpeechExec Enterprise Dictate
Comité Scientifique GRIF
Encadré par : M. Mohammad EL GHABZOURI Elaboré par : - AZEGAMOUT Mohamed - ABOULKACEM abdelouahed - GOUN Ayoub EXPOSÉ Sous le thème : SER 2018 Parallélisme.
LIVE MIGRATION Windows Server 2012 & Hyper-V3
Tableau de bord d’un système de recommandation
LCG – France et ALICE Bilan 2006 Planning fevrier 2007
Test de performances. Test de performances:  Un test de performance est un test dont l'objectif est de déterminer la performance d'un système informatique.
Résumé des Actions Suite aux Réunions CB et MB
Contenu Systèmes de test parallèles Multithreading Synchronisation
UX DESIGN User exprérience en anglais Expérience Utilisateur en français Concevoir, Créer, dessiner UX DESIGN, consiste à penser et concevoir un site web.
Transcription de la présentation:

Utilisation effective de la Grille par ATLAS S. Jézéquel (LAPP)

Prochaine étape Collecter et analyser les collisions Traitement des données: 100.000 PCs récents Stockage: CD empilés sur 20 km LHC: Défi pour calcul scientifique 25 millions collisions /s/expt 100-200 collisions sélectionnées /s Taille d’un événements : 1,5 MB (~1 photo 5 Mpixels)‏ Production de 100-1000 MB/s de données Soit 15 PBytes/an

Solutions mises en oeuvre Constat: CERN : 20 % des ressources nécessaires Les pays mettent à disposition leur centre de calculs nationaux Répartition du calcul à travers la planète Besoin: Mise en production d’outils de ‘Grille’ (EGEE en Europe) pour permettre l’échange automatique et rapide de programmes informatiques des données des détecteurs LHC venant du CERN des résultats des calculs des différents centres le lancement de programmes de calculs répartis sur la planète (l’outil ‘Grille’ faisant le choix optimal des sites)

Les centres de calcul accessibles par la ‘Grille’ 140 centres de calculs répartis dans 35 pays

Précisions sur le calcul ATLAS Analyse d’événements sur collisionneur: Les événements sont indépendants les uns des autres On peut traiter les événements séparement Utilisation des CPUs en mode scalaire Besoin de 2 Go de mémoire par coeur (description du détecteur) Machine bien plus chère A plus long terme, mettre assez de mémoire du carte mère Début de réflexion pour paralleliser le traitement des données

Exemple d’utilisation récente de la Grille par les expériences LHC

Installation du soft ATLAS Soft ATLAS installé sur chaque site de manière permanente: Evite de recompiler tout le soft à chaque job S’assure que le site a la bonne version Nb de sites à gérer: > 100 Nb de versions de soft: > 10 Gérer centralement par qq personnes Installation sur site par job Grille Problèmes : S’assurer que le site a assez d’espace disque pour stocker les softs Décalage entre versions d’analyse et de simulation

Méthode de soumission des jobs: Ressource Broker RB envoie jobs contenant le descriptif des applications sur les sites (push) Important: Vérifier régulièrement la disponibilité des composants nécessaires à votre application (Faire des SAM tests dépendant de l’expérience) Sinon: utilisateur doit découvrir lui-même les sites problématiques !!!!

Soumission centralisée de production(2) Monitoring CMS

Méthode de soumission des jobs: Pilot job Pros (utilisateur):Le systeme découvre lui même et en ligne les ressources OK Cons (site): Ce systeme génere de l’activité sur le site meme si il n’y a pas d’activites Problème de partage des ressources sur sites multi-VO Problème de sécurité pour le site (savoir qui fait quoi) Effort actuellement pour répondre aux problèmes de site

Soumission centralisée de production But : 1000k jobs par jour

Répartition par pays (ATLAS)

Ne pas négliger de pouvoir accéder à un maximum de ‘petits’ sites Répartition du calcul LHC entre sites (Juillet 2007) Ne pas négliger de pouvoir accéder à un maximum de ‘petits’ sites CERN 20% 11 CC nationaux 30% 80 CC locaux 50%

Organisation des fichiers en dataset Fichier: Contient une liste d’évenements indépendants Plusieurs milliers de fichiers par canal de physique Travailler au niveau d’un fichier n’a de sens que pour ‘debugguer’: A ne pas faire sur la Grille Notion de dataset: Liste de fichiers ayant les mêmes paramètres physiques en input Dataset peut contenir de 100 à 10k fichiers (attention limitation technique) Question : Que contient un dataset ? Job/une série de jobs Grille = Traite un dataset Principe: Un job Grille tourne la où sont les données (efficacité) Question: Où sont les datasets (fichiers produits dans le monde entier)?

Que contient un dataset ? Catalogue (DDM) de datasets (spécifique à l’expérience) : pour chaque dataset: liste de fichiers caratérisés par leur guid status (fini ou en cours de remplissage) Liste des sites où se trouvent les datasets Metadata pour expliquer l’histoire du dataset pour caractériser chaque fichier, on peut ajouter: Taille (redondant avec LFC): Integrité des données Checksum: Integrité des données (gourmand en CPU) Un nom (aller chercher dans arborescence LFC) Pas d’adresse physique Catalogue localisé au CERN (réplication en read-only à envisager) Contenu sur l’intérêt de physique du dataset: Autre catalogue externe (AMI specifique à ATLAS)

Où est le dataset et ses fichiers? Introduction: Les fichiers sont produits n’importe où dans le monde: Catalogue DDM contient la liste des sites contenant tout ou une partie du dataset : pour connaitre la liste des fichiers sur chaque site: Consulte catalogue LFC associé au site: Input : liste des guid du site Middle : pour chaque guid, la liste des replicas Output: la liste des guids sur le site Prime : Adresse physique des fichiers (utiliser par les jobs) Attention : rien n’assure la consistence entre la liste LFC et les fichiers physiques →besoin de vérifier régulièrement la consistence Opération longue et prenant des ressources Mettre les données sur des sites sérieux

Quel catalogue LFC ? DDM a la correspondance SE-catalogue LFC Un catalogue LFC pour LHC a besoin d’une base de donnée robuste: Choix de Oracle (restreint à des gros centres = T1 ou T0) 2 possibilités: 1 catalogue LFC central (option LHCb) en mode write +6 replicas en mode read-only Pour : facile à gérer Contre : LFC central supporte une gross charge et ne doit pas s’arreter N catalogues LFC (option ATLAS) en mode w/r chaque catalogue contient l’info d’un groupe de sites Pour : Moins de charge sur chaque catalogue = scalabilité Contre : Plus grande dépendance des sites

Organisation par nuage “Tier Cloud Model” Unit : 1 T1 + n T2 NG PIC RAL CNAF SARA TWT2 T3 GRIF ASGC Cloud LYON Cloud CERN ASGC LYON Melbourne Tokyo Pékin TRIUMF FZK LPC Romania BNL BNL Cloud GLT2 NET2 MWT2 T1 WT2 T2 T3 VO box, dedicated computer to run DDM services SWT2

Recette ATLAS (outil Distributed Data Managment) Transfert de datasets Go Recette ATLAS (outil Distributed Data Managment) DDM fournit liste des replicas. Utilisateurs peut choisir le/les sites de départ DDM scanne les catalogues LFC des sites choisis et choisit les fichiers physiques a transferer DDM declenche des transferts FTS Une fois les transfers terminés, DDM enregistre les nouveaux fichiers physiques dans LFC DDM publie une nouvelle liste de replicas

Rôles des sites (ATLAS) Tier 0 (=CERN) Lieu de fonctionnement des détecteurs (= collecte des données) Premier traitement des données réelles pour avoir premier bilan de la prise de données Contient certains catalogues centraux Tier 1 (Centres de calcul nationaux = GROS SITES) Réception des données en ligne du CERN Reprocessing des données réelles Réception des données simulées dans Tier2 Fournit services Grille au T2 (LFC,FTS) Tier 2 (Centres de calcul locaux) Production de données simulées Analyse finale des groupes de physique

Transfert: Echange entre 2 sites (= 2 sites opérationnels) Transferts: Contraintes de mise en oeuvre Transfert: Echange entre 2 sites (= 2 sites opérationnels) 1 seul site doit gérer le transfert sinon conflit (peut être un tiers) Si site A a N interlocuteurs n ne peut pas passer son temps à gérer les problèmes des N sites 2 solutions : Exclut les sites problématiques (CMS) Minimise le nombre de sites N par site A(ATLAS) Ligne à haut débit entre Tier0-Tier1 et Tier1-Tier1 Ligne de débit plus faible vers/depuis les Tier2

Modèle de transfert des données Demande au catalogue central : liste des datasets a répliquer Gestion transfert Enregistrement informations dans catalogues locaux et centraux CERN LFC T1 T1 LFC …. Catalogues généraux centralisés (LFC): Contenus des datasets Localisation des datasets dans les T0-T1-T2 Liste des requêtes de transferts des datasets Catalogues locaux (LFC) Localisation dans le centre des fichiers de chaque dataset Tokyo T2 T2

Conclusion La Grille a permis à ATLAS d’entendre les possibilités de calcul ATLAS travaille toujours à la limite des possibilités concrètes de la Grille = cycle échec/developpement/amélioration ATLAS : Application pour voir les limites de la Grille localement Grille: Opportunité de collaboration entre sites distants