Le point sur la parallélisation du couplé Adapter les codes aux architectures multiprocesseurs des futures machines afin d’améliorer les temps de restitution.

Slides:



Advertisements
Présentations similaires
GEF 435 Principes des systèmes d’exploitation
Advertisements

© Copyright 2007 Arumtec. All rights reserved. Présentation Etude déligibilité
Applications de GdX Coordinateur thématique : Christophe Cérin
Test de Systèmes Intégrés Digitaux et Mixtes
Etudiants : Benjamin BLANC Cyrille KLUZEK Encadreur :
TER Visualisation 3D de calculs électromagnétiques Production : Sébastien JOB Jean-Christophe LARRE Cédric PIOVANO Encadrement : Fabrice HUET.
Journées franciliennes 2006 Moussa ELKIHEL (LAAS-CNRS;UPS Toulouse )
13 – 16 Décembre 2005 Laurence Viry Introduction à MPI MPI_2.
Bibliothèques Scientifiques
Un modèle pour ladaptation dynamique des programmes parallèles Jérémy Buisson RenPar 2005 vendredi 8 avril 2005.
Séminaire IMS 10/01/2008 Distribution large échelle d’un algorithme financier de contrôle stochastique CIGC05 - GCPMF Xavier WARIN (EDF R&D - OSIRIS) Stéphane.
Parallélisation d’un Algorithme CNFT
CALCUL PARALLELE PRODUIT : MATRICE – VECTEUR 10 pages Exposé par :
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Plan Évolution Système On Chip Difficultés de la testabilité des SOCs
IPSLCM5 Couplé « physique » NEMO bleu : océan
MIAGE MASTER 1 Cours de gestion de projet
Chaire UNESCO - Calcul numérique intensif
Modélisation du climat : les équations primitives maltraitées
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Atelier ADOMOCA Nov 2007 Hervé Le Berre Larborescence du projet Mocage.
III – Convergence Asymptotique
Optimisation et parallélisation de code pour processeur à instructions SIMD multimedia François Ferrand.
Pr. Alain Greiner (LIP6 - ASIM) Daniel Millot, Philippe Lalevee (INT)
J-L Dufresne Responsable du pôle de modélisation Pôle de modélisation de l'IPSL: travaux en cours en vue de la préparation du prochain rapport du GIEC.
Amélioration du parallélisme du code de climat de l'IPSL.
CNRM Atmosphère globale (ARPEGE). Atmosphère régionale (ALADIN). Océan global et régional (OPA). Assemblage et emboîtements à faire. CERFACS Coupleurs.
MGV * : quelques prévisions de performances * Modèle à Grande Vitesse.
Nouvelle version de référence LMDZ4: LMDZ4_V3 Pourquoi? dernière version de référence: IPCC (développements depuis) versions (re)commencent à diverger.
Simulation numérique des problèmes d’acoustique et de vibroacoustique:
Évaluations nationales cm Réunions de directions et animation pédagogique du 13/01/10 Circonscription de PontChateau Briere – VG-
LE PARALLELISME DANS LE MODELE CLIMATIQUE DE L’IPSL
Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.
Etude des échanges stratosphère-troposphère à l’île de la Réunion
Séminaire DEN/DSOE/Simulation sur le calcul hautes performances: le 7 novembre /17 Numerical Platon Contexte –outil daide aux développements de codes.
Lyon, 24/04/2007 Ce que l'application a besoin de connaître: Paramètres physiques par scénario de 150 ans Nombre et numéro d'ordre des mois à effectuer.
LEGO EPISODE III LEGO: simulations climatiques avec DIET E.Maisonnave, V.Pichon.
L’adaptativité pour un solveur de l’équation de Vlasov
Soutenance de stage 16 Mai au 5 Août 2011
Importance du réseau dans des architectures MIMD Tout échange entre les processeurs nécessite un transfert de données via le réseau.
Implantation de MOCAGE-PALM au Laboratoire d'Aérologie
Fadwa AMRI Fanny COUTURIER Virginie ROMAIN.
L'outil MOCAGE-PALM au Laboratoire d'Aérologie
10 février 2006GDR ISIS Journée Localisation et Navigation Projet EGNOS-BUS (Eurêka) André Monin, Wael Suleiman LAAS-CNRS.
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Augmenter le débit d’un.
PSI : actualités PSI : PRISM Sustained Initiative Accord de gré à gré entre CNRS, CERFACS, ECMWF, Met-Office, MPI-M et M&D pour poursuivre le partage d’expertise.
8INF856 Programmation sur architectures parallèles
Point sur le couplé // CSPOLE 16 juin 2006 Marie-Alice Foujols - Olivier Marti.
Etude des performances cinématiques de la plateforme 6 axes
Chimie, aérosols dans LMDZ-INCA Effet des aérosols sur le climat
Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.
18/06/07NOV-3554-SL Réunion ADOMOCA 21/11/2007 Contribution à l’assimilation chimique des observations METOP : IASI et GOME.
Modélisation du climat à l’IPSL: existant, objectifs et enjeux à 4 ans
Programmation parallèle
PARALLÉLISATION AUTOMATIQUE D’ALGORITHMES
Pôle de modélisation de l'IPSL: simulations en vue de la préparation du prochain rapport du GIEC.
Atelier ADOMOCA-2 Les Lecques, oct Assimilation haute résolution IASI-Valentina Benjamin Pajot S. Massart, D. Cariolle, A. Piacentini CERFACS.
Environnement des modèles Contraintes liées au parallélisme Utilisation de plusieurs machines Liens couplé/forcé.
Présentation rapide de l’état des outils IPSL Marie-Alice Foujols Octobre 2005.
Étude de la variabilité interne du Modèle Régional Canadien de Climat à l'échelle saisonnière Adelina ALEXANDRU Ramon de ELIA René LAPRISE UQÀM Université.
Couplé parallèle Etat des lieux. Objectifs Couplé parallèle en production à l’arrivée de la nouvelle machine vectorielle IDRIS (entre février et avril.
Point sur l'utilisation des moyens de calcul à court terme et stratégie à moyen terme Marie-Alice Foujols Pôle de modélisation du climat IPSL.
Page 1 SIESTE février 2005 Un coupleur dynamique de codes parallèles URL: Thierry Morel.
CPI/BTS 2 Programmation Web Les sites dynamiques Prog Web CPI/BTS2 – M. Dravet – 02/10/2003 Dernière modification: 02/10/2003.
L’arrivée des versions parallèles des modèles de l’IPSL Adapter les codes aux architectures multiprocesseurs des futures machines afin d’améliorer les.
Les Processus.
GdR MoMaS Novembre 2003 Conditions d’interface optimales algébriques pour la vibro-élasticité. François-Xavier Roux (ONERA) Laurent Sériès (ONERA) Yacine.
Entretiens Louis le Grand 29 et 30 août Entretiens Louis le Grand – 29 et 30 Août 2005 Étude de cas CS  Jacques DUYSENS (CS Communication & Systèmes)
Novembre 2003 Simulation numérique en vibro-acoustique par couplage de deux codes parallèles Unité de Recherche Calcul à Haute Performance François-Xavier.
Ecole Informatique 2010 La Programmation des Architectures Multi-cœurs Cécile Barbier Fatih Bellachia Alain Masserot.
Transcription de la présentation:

Le point sur la parallélisation du couplé Adapter les codes aux architectures multiprocesseurs des futures machines afin d’améliorer les temps de restitution des simulations. Simulation sur de plus longues durées, accession à de plus fines résolutions. Objectif : mise en production d’une version parallèle de l’ensemble du modèle couplé pour l’arrivée de la nouvelle machine de l’IDRIS (probablement en juin 2006). Technologie employée : communication interprocessus à l’aide de la librairie MPI (Message Passing Interface).

Etat d’avancement LMDZ 4 : partie dynamique + partie physique. Parallélisation terminée, phase d’intégration CVS (L. Fairhead). A terme : - une dynamique séquentielle + une dynamique parallèle. - une partie physique commune. LMDZ4 // + OASIS3 + OPA8 séquentiel : OK, attente d’un test // avec OPA 9. ORCHIDEE : Parallélisation terminée, phase d’intégration CVS (M. Mancip). Fonctionne en mode forcé et en couplé (LMDZOR). INCA : NMHC + AER (119 traceurs) Parallélisation quasi complète, phase de déboggage. Intégration CVS dans quelques semaines (A. Cozic).

Distribution des données sur chaque processus LMDZ 4 : partie dynamique Resserrement des mailles aux pôles : non respect de la condition CFL. Divergence des champs. Application d’un filtre (de type FFT) pour supprimer les fluctuations de courtes longueurs d’onde. Filtre appliqué sur les 1/6 de la région des pôles soit 1/3 de la surface globale. Très pénalisant en temps de calcul, appelé à chaque calcul faisant appel à un opérateur différentiel (caldyn et dissip). Difficulté pour découper le domaine en longitude. Découpage uniquement en lattitude. Grille dynamique grille iim x jjm sur llm niveaux verticaux

PROCESS 0 PROCESS 1 PROCESS 3 Répartition des données par process PROCESS 2 pôle nord pôle sud latitude longitudes

Communication MPI des halos à chaque itération (ou plus). Répartition de la charge. A cause du filtre, les processeurs aux pôle travaillent beaucoup plus qu’à l’équateur  on diminue la répartition des domaines aux pôles pour l’augmenter à l’équateur. Chaque routine ( caldyn, vanleer et dissip ) a sa propre répartition optimale. Rééquilibrage dynamique pour chacune des routines. Procédure d’ajustement pour déterminer l’optimum.

LMDZ4 – partie physique, ORCHIDEE, INCA Sur la grille physique, les points géographiques sont localement indépendants. On distribue à chaque processus un vecteur de point géographique (incluant la colonne atmosphérique pour INCA et LMDZ). Ne nécessite pas de communication interprocessus à de rare exception près : Accès IO Diagnostiques globaux Interface du couplé, routage de l’eau (ORCHIDEE)… Gestion des IOs Fichiers d’initialisation et de restart : lus par le processus maître qui distribue ensuite les données aux autres processus. Fichiers d’historique (histwrite) : chaque processeur écrit dans son fichier local. Reconstruction d’un fichier unique par post-traitement (outil rebuild, J. Bellier).

Ce qui va changer Coté utilisateur : (presque) rien Lancement de l’exécutable :./gcm.e => mpirun –np N./gcm.e Reconstruction des fichiers histoire : rebuild –o histday.nc histday_00[0-n].nc Coté développeur Éviter les corrélations entre les points géographiques sur la grille physique. Prudence lors de la réalisation de diagnostiques globaux ou des moyennes zonales. Prudence lors de la lecture ou l’écriture de fichiers (excepté pour histwrite) Nécessite des communications.

Quelques performances : LMDZ4 // sur NEC SX6 Résolution 96x72x19 1 processus2 processus4 processus8 processsus Temps CPU 255 s134 s79 s50.1 Scalabilité Mémoire 720 Mo1.14 Go1.76 Go3 Go GFlops % Vectorisation %98.03 %98.01 %97.62 % Résolution 192x144x19 1 processus2 processus4 processus8 processsus Temps CPU 812 s422 s245 s135 s Scalabilité Mémoire 2.27 Go3. Go4.31 Go6 Go GFlops % Vectorisation 98.5 % 98.4 %98 %

Perspectives : A court terme, finaliser complètement l’intégration CVS de l’ensemble des codes du modèle couplé. Optimisation des modèles : amélioration de la parallélisation et de la vectorisation. Phase de benchmark afin de déterminer les performances et la scalabilité des codes sur différentes architectures matérielles. Ajout d’un niveau parallélisation supplémentaire en OpenMP (en mémoire partagée) sur les niveaux verticaux de la dynamique.  Objectif à terme : parallélisation mixte MPI/OpenMP Facteur 3 en speed-up attendu en plus des gains MPI. Facteur 6 si doublement des niveaux verticaux. Objectif : atteindre des speed-ups de 20 sur une trentaine de procs. sur les futures grilles standards (ex : 192x144x50). Pour INCA : ajouter un niveau de parallélisation sur l’advection des traceurs.