J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/2011 1 Ateliers de Modélisation de l'Atmosphère 2011 Adaptation de Méso-NH aux Architectures Massivement Parallèles.

Slides:



Advertisements
Présentations similaires
Etude des échanges stratosphère-troposphère à l’île de la Réunion
Advertisements

Bilans de masse par post-traitement rapide: exemple d’une étude climatologique de la campagne Hibiscus-Troccinox-Troccibras 2004 F. Gheusi, J.-P. Cammas,
Discussion technique 1 4 ème Réunion des Utilisateurs de Méso- NH Discussion Technique Juan Escobar (LA), Isabelle Mallet (CNRM) avril 2007 LA,
Traitement du mélange en nuages et impact sur les vitesses verticales extrêmes dans les orages : Nouveau dans la MASDEV4_6 Mireille TOMASINI et Jean-Philippe.
Point sur l'utilisation des moyens de calcul à court terme et stratégie à moyen terme Marie-Alice Foujols Pôle de modélisation du climat IPSL.
Réunion VURCA, 27 janvier 2011, CIRED, Paris Projet VURCA Tâche 3 : Vulnérabilité des villes aux canicules A.L. Beaulant, A. Lemonsu, S. Somot, V. Masson.
27/02/2016 1ère réunion d'avancement du projet ANR MUSIC, Aubière, juin Tâche 4 Simulations grande grille Jean-Pierre Chaboureau 1, Juan Escobar.
Relations Supercalculateurs et Réseaux Dominique Boutigny Prospective Nationale sur les Grilles de Production.
BTS Géomètre Topographe Repère : OBSERVATION D’UN RESEAU DE POINTS EN GPS….. Le seul élément que l'on sache mesurer avec exactitude (1cm) est la ligne.
Jeudi 12 decembre 2007 Le CC-IN2P3 Un instrument informatique de pointe au service de la recherche Traitement intensif de données et Sciences de la Vie.
COUPLEX 1 Test Case Nuclear Waste Disposal Far Field Simulation D. VEYRET – M. GEORGIADOU I.U.S.T.I. – C.N.R.S. UMR 6595 Université de Provence 5 rue Enrico.
Vendredi 23 mars 2007 Le CC-IN2P3 Un instrument informatique de pointe au service de la recherche.
Jeudi 8 Février 2007 REMISE DES PRIX de la Fondation Louis Leprince Ringuet Conception et évaluation d’un algorithme de tolérance aux fautes par points.
Composants Matériels de l'Ordinateur Plan du cours : Ordinateurs et applications Types d'ordinateurs Représentation binaires des données Composants et.
Projet tuteuré 2009 Les clients légers Alexandre Cédric Joël Benjamin.
Marid 5 décembre 2006Présentation du code parallèle – PEGASE – INRIA Sophia-Antipolis 1 Code Parallèle pour la Simulation Numérique en Mécanique des Fluides.
Introduction : Besoins - Modèles Modélisation Géométrique Introduction Loïc Barthe Equipe VORTEX – IRIT Université de Toulouse
Journées Grille Lille, 17 mai Applications de la grille à la télédétection et à la modélisation des aérosols atmosphériques Un retour d'expérience.
PROJET DE FIN D ’ ETUDES Présenté à l’Université Paris-Sud pour obtenir le diplôme : MASTER 2 Physique et ingénierie de l’énergie Titre : Etude de faisabilité.
INFSO-RI Enabling Grids for E-sciencE L’activité EGEE au CINES Nicole Audiffren, Adeline Eynard et Gérard Gil Réunion de la fédération.
Fonctionnement interne d'un routeur (kurose p ) Eugen Dedu IUT Belfort-Montbéliard, R&T1, France avril 2009.
Portage d'une application sur GPU CreditCruncher.
1 Estimation temps réel du flot optique Julien MARZAT 3A – ISA CPDS Tuteur ENSEM:Didier WOLF Tuteur INRIA :André DUCROT.
Journée des utilisateurs du Pôle de Calcul Intensif pour la Mer Simulations hautes résolutions de la région du Courant des Aiguilles, analyse lagrangienne.
Les mémoires de l’ordinateur
Architecture des ordinateurs, Environnement Numérique de Travail
Acquisition Rapide Multivoies
Ce videoclip produit par l’Ecole Polytechnique Fédérale de Lausanne
Tables 1 Présentation et utilisation pour plongée simple
e-Prelude.com Analyse globale du flux
Acquisition Rapide Multivoies
Architecture des microordinateurs
Ce videoclip produit par l’Ecole Polytechnique Fédérale de Lausanne
6GEN720 Réseaux d’ordinateurs
Albertine DUBOIS et Alexandre LIEGE
Utilisation de PostgreSQL
Collecte de données avec les Smartphones
Algorithmique Avancée et Complexité Chap2:Complexité et Optimalité
Journée Analyse D0, 19 janvier 2004
Préparer par : Intissare et kaoutare
Laboratoire d’Informatique Système
Calcul de BV en ligne Pôle INSIDE Juin 2017.
Centralisation de logs
Chapitre 12 Surveillance des ressources et des performances
MPICH-Vcl vs MPICH-Pcl
Outils Statistiques pour la Sémantique Décembre 2013
Un instrument informatique de pointe au service de la recherche
Classification des archtecutres paralleles
Proposition d’évolution de l’application
Couche limite atmosphérique
L’exploitation des données du collisionneur LHC: un défi pour le calcul scientifique un enjeu pour le LAPP S. Jézéquel.
Présentation du Service Informatique
La simulation comme outil de prévision incendie Jean Baptiste Filippi - Jacques Henri Balbi UMR SPE - Université de Corse.
Quel budget PC pour quel type d’utilisation ?
Gestion des réserves naturelles
CALCUL MENTAL SÉRIE 14.
Présentation de la carte graphique
Plus de 4000 langages....
À l’intérieur de l’ordinateur
Outils et principes de base. Exemple d’application  Gestion de données d’enquête : Interface de saisie en ligne  insère directement les données dans.
Architecture des ordinateurs
ARCHITECTURE DES ORDINATEURS
Journée AmETh 9 novembre 2005
Mésocentre de calcul et de stockage ouvert sur la grille EGEE (MUST) LAPP/ Université de Savoie / EGEE.
L’utilisation des tables MN90
ATELIER DE MAINTENANCE ET DE REPARATION DES EQUIPEMENTS INFORMATIQUE SURTAB ACADEMIE – JANVIER 2019 Jean Rony Fultidor Durée : 4 heures.
RABAH M ed Ali 2018/2019
Encadré par : M. Mohammad EL GHABZOURI Elaboré par : - AZEGAMOUT Mohamed - ABOULKACEM abdelouahed - GOUN Ayoub EXPOSÉ Sous le thème : SER 2018 Parallélisme.
Ascension adiabatique
Une plaquette augmentée
Transcription de la présentation:

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Ateliers de Modélisation de l'Atmosphère 2011 Adaptation de Méso-NH aux Architectures Massivement Parallèles Pétaflopiques Juan Escobar Laboratoire d'Aérologie, CNRS et Université de Toulouse III 8-10 Février 2011 CIC de Météopole à Toulouse

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Le Défi du Massivement Parallèle Pétaflopique – Rappel Aujourd'hui : METEO-FRANCE/NEC-SX9 = 102 GFLOPS * 160 proc. = PFLOPS IDRIS/IBM-BG/P = 3.4 GFLOPS * cores = PFLOPS CINES/SGI-ICE = 12 GFLOPS * cores = PFLOPS – Demain matin /PRACE ( 2011) : JÜLICH(DE)/IBM-BG/P = 3.4 GFLOPS * cores = 1.0 PFLOPS CCRT/CEA/BULL-X = 18.6 GLFOPS * cores = 1.5 PFLOPS – Après demain (2012) : IBM BleueGene/Q = cores = 20 PFLOPS

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Le Modèle de Recherche Méso-NH – Un développement conjoint CNRS Météo-France Modèle non hydrostatique pour traiter une vaste gamme de phénomènes atmosphériques de 1000 km au mètre jeu complet de paramétrisations physiques, dont nuages, turbulence et rayonnement couplé au modèle de surface SURFEX configuration en cas idéalisés 1D, 2D, 3D et cas réel avec capacité d’imbrication pour descente en échelle chimie et aérosols en phase gazeuse et aqueuse bilan, traceurs, opérateurs d’observation (sat, radar, GPS) – Parallélisation F90 + MPI = 1million de lignes de codes 100% vectoriel ARRAY SYNTAXE ( presque pas de boucle ) Décomposition de Domaine 2D X*Y, Z complet Point Difficile, Solveur de Pression Équation Elliptique à inverser – Préconditionneur FFT3D + Méthode Gradient Conjugué – WEB : Version courante PACK-MNH-V4-8-4 – Reproductible au bit prêt en parallèle

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Méso-NH est-il prêt pour le Calcul Pétaflopique ? On y travaille!

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Benchmark sur Cas Idéalisé – Courant 2008 efforts de développement/portage de Méso-NH sur les nouvelles plateformes massivement parallèles du GENCI – Avant solveur de pression : décomposition de domaine en 2 dimensions X*Y nombre de processeurs maximum = min (dimX, dimY )‏ grille 512x512x128 → 512 processeurs max B-Splitting FFT-XFFT-Y transposition

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Benchmark sur Cas Idéalisé – Après // en Z : décomposition de domaine en 3 dimensions grille 512x512x128 → 128*512 = processeurs B-SplittingFFT-X/Z FFT-Y/Z transposition Z-substitution

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Benchmark sur Cas Idéalisé – Premières simulations Idéalisées de Méso-NH grille allant jusqu'à 4906x4096x128 points Soit 2 milliards de points de grille 1 Fichier d'entrée = 177 GO ( x2 en sortie ) cores sur JADE SGI/ICE (CINES) cores sur BABEL IBM/BGP (IDRIS) pour la première fois une performance soutenue de plus de 1 Téraflops pour Méso-NH

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Méso-NH(début 2009) : 1 TFLOPS / 8K-16K cores

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Parallélisation des I/O – Avant dans Méso-NH : un seul processeur gère les I/O (Entrées/Sorties) lit et écrit les champs 3D au format LFI Cas test idéal 4096x4096x128 pts => 1 Fichier d'entrées Méso-NH = 177 GO ( x2 pour les sorties ) – Benchmark IOR: Tout type I/O //, Posix, N fichiers, P-Netcdf, HDF5, MPI-I/O Test de MPI-I/O sur le même filesystem « $WORKDIR » : – sur VARGAS = 5000 MO/sec – Sur BABEL = 50 MO/sec Conclusion: performance non « portable » – Benchmark : IOMPI = F90 + I/O accès direct * N fichiers – 7000 MO/sec quelle que soit la machine – Solution retenue ( en attendant mieux … ) – Après parallélisation des I/O dans Méso-NH 1 Proc IO * 1 champ 3D → parallélisation par NZ proc. IO * 1 champ 2D, ( toujours fichiers LFI ) réduit de 2 ordres de grandeur la taille des buffers alloués pour les I/O ( très important pour BG/P 512MO de mémoire/proc. ) Compilation en INTEGER*8 de LFI pour dépasser la taille de 16GO par fichier – Performance d'écriture d'1 fichier LFI sur PREP_IDEAL_CASE 1proc. IO → 100 MO/sec 128 proc. IO et 1024 processeurs → 1800 MO/sec

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ PREP_IDEAL_CASE( mi 2009 ) 1.8 GB/sec sur 128 Fichiers

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Cas Réel Problème de la montée en résolution => Obligation de « penser tout parallèle » Nécessité de paralléliser toute la filière Méso-NH Du pré-processing : – PREP_REAL_CASE génération de grille initiale avec champs météorologiques 3D au delà de 512x256x70 points – PREP_PGD génération de grille avec champs de surface 2D au delà de 2000x2000 points Au post-processing : – Intégration dans l'outils DIAG ( déjà parallèle ) des traitements « ad-hoc » pour générer des sortie 2D pré-traité. – Visualisation 3D : en test Paraview / Visit

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Méso-NH ( fin 2009 ) Cas Réél a 4KM Atlantique Nord : Cyclone HELENE 2006 Grille 3072*1532*64 pts = 300 Millions Pts

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Méso-NH ( fin 2009 ) Cas Réél a 4KM

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Cas Réel 4KM => 2KM & 1KM – Grille visée Échelle kilométrique, Sur l'Atlantique Nord soit x Kilomètres. 4KM de Résolution Horizontale Minimum pour une représentation explicite des nuages ( Cloud Resolving Model ) 4KM « zone grise » => Idéale 2KM voir 1 KM – MESONH : Grille 4KM sur JADE2 pour 1 seconde calcul / 1 seconde simulée 4096x4096x128 pts 1 fichier 177GO 4096 cores 4 TO Mem. Glob. Pour garder 1 seconde calcul 1 seconde simulée – Si on accroît d'un facteur 2 la résolution kilométrique – => * 4 en taille mémoire & IO – => * 8 temps de calcul => * 8 nombre cores de calcul Extrapolation sur CURIE/BULL-X ( ou MIRA / BG/Q )

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Méso-NH est-il scalable au delà de 16K-cores ?? – Sur Babel ( IDRIS/BG/P ) run à 16K cores OK Plantage « CPU LIMIT » à 32K cores – Début 2010 : PROJET d'accès au prototype PRACE JUGENE 1 Million d'heures pour essayer d'étendre la scalabilité de Méso-NH au delà de 100 K cores – JUGENE/IBM-BG/P 3.4 GFLOPS * cores = 1.0 PFLOPS

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Méso-NH est-il scalable au delà de 16Kcores ?? Boite à Outils Pétaflopique Indispensable Pour l'Analyse de Performance – Outils d'analyse de performance : Scalasca Runs Méso-NH comparatif de 4K, 8K et 16 K cores Etude de l'impact du MAPPING et des SHAPE Identification de goulots d'étranglement imprévus – Utilisation de Benchmark HelloWord – A cores 32 minutes pour boot la partition heures juste pour démarrer l'application... Librairie P3DFFT – pour tester la scalabilité des FFT3D jusqu'à 128K cores Résultats : optimisation de Méso-NH Implémentation des communications MPI_ALLTOALLV – Implémentation BG/P 3 fois plus rapide que MPICH Placement « optimisé » des processus.

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Méso-NH est-il scalable au delà de 16Kcores ?? Boite a Outils Pétaflopique Indispensable Pour le Codage / Debuggage – Aller retour permanent PC-Linux Cluster Local Centre Nationaux Tier 0 – Debuggage interactif Totalview Jusqu'à 4K cores sur BABEL – Débogage Post mortem coreprocessor.pl Jusqu'à 128K cores sur JUGENE ( aucun problème jusqu'à 64K cores !!! Problème I/O MPI_SEND bloquant )

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Travaux Pratique sur JUGENE Les outils Pétaflopiques en Action

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Scalasca 32K cores JUGENE P3DFFT : MAPPING = S2X2X4 TXYZ

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Scalasca 32K cores JUGENE P3DFFT : MAPPING = S2X2X4 ZYXT

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Coreprocessor 64K cores JUGENE : Problème d'I/O ( encore ! ) manque de mémoire !!

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Debuggage Aller Retour PC Cluster Local Centre National Tier 0

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ ;-) Enfin Méso-NH sur 128K cores

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Méso-NH ( mi 2010) JUGENE/BG/P : 4.3 TFLOPS / 128K cores MPI_ALLTOALLV

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Conclusion Scalabilité de Méso-NH démontré jusqu'à cores Utilisation en routine sur 4096 cores: – voir présentation de Florian Pantillon : Mercredi 16h30 Modélisation Méso-NH semi-hémisphérique à résolution kilométrique : transition extra-tropicale de l'ouragan Hélène 2006 Prospective – Runs a 2KM & 1KM sur CURIE – Calcul sur Carte Graphique – Solveur Multi-grilles

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ WHAT ELSE?

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Après Demain ? – Calcul sur Carte Graphique Premier prototype de machine disponible au CCRT et GENCI Attente de compilateur FORTRAN90 – Première « offre » HMPP PGF90

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ GPU : PGI + ACC directive Schéma d'Advection PPM Directive distribution donnée !$acc data Directive parallélisation !$acc region

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ GPU : PGI + ACC directive Schéma d'Advection PPM Temps d'exécution sur CPU(Néhalem)

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ GPU : PGI + ACC directive Schéma d'Advection PPM Temps d'exécution sur GPU( Fermi GTX470 )

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ ;-) vers L'infini et Au delà Modélisation des Temps Communication FFT3D – Modélisation des temps de communication des FFT3D sous la forme TCOM(NB_PROC,GRID_SIZE) = NITR( TS * NB_PROC**(0.5+S1) + TW * ( GRID_SIZE /( NB_PROC**(1.0-S2) ) ) ) où NB_PROC = nombre de processeurs GRID_SIZE = nombre de points dans la grille = DIMX*DIMY*DIMZ NITR = nombre d'itérations du solveur TS = Latence du résau = temps d'envoi du premier octet TW = vitesse du réseau = 1/ ( bande passante ) – Réseau non idéal 2 paramètres de saturations S1 = Paramètre Saturation Latence S2 = Paramètre Saturation Bande Passante

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Modélisation Temps Communication FFT3D Grille <= 4KM

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Temps Communication FFT3D Extrapolation Grille = 2KM & 1KM

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Temps Communication FFT3D Extrapolation Grille = 2KM & 1KM BLUEGENE/Q MIRA 768Kcores

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Problème PREP_PGD – PREP_PGD OK – à 3072x1536X64 pts à 4KM – Problème avec les interpolations au delà de cette taille => Grille à 2 KM !!

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Méso-NH Solveur Pression

J.ESCOBAR LA/CNRS/UPS || AMA 8- 10/2/ Méso-NH JADE/CINES TITANE/CEA/CCRT