P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – juin 2015

Slides:



Advertisements
Présentations similaires
Le Cloud Computing : Une évolution ou une révolution
Advertisements

Mission X Superfli Emily Roberts Cette présentation sera écrit en français avec sous-titres anglais violet de couleur. This presentation will be written.
L’Heure Telling Time.
AFNOR NF Z – "Online Consumer Reviews
SKHS Curriculum 2008 Essential skills: Skimming, scanning and reading detail.
Oops j’aime pas l’anglais
Informatique temps réel et réseaux de terrain – ELEC365
Optimisation et parallélisation de code pour processeur à instructions SIMD multimedia François Ferrand.
Core Module 10 Advocacy: Engaging the Public Association des conseils scolaires des écoles publiques de l’Ontario (ACÉPO) Association franco-ontarienne.
8INF856 Programmation sur architectures parallèles
Reaching Out - breaking down barriers and working with all segments of society Ouverture - abattre les barrières et s’ouvrir à tous les segments de la.
Notes for teachers: Olympics 2012 Project – parts of body Instructions for using these slides & attaching soundfiles if desired are in the notes pages.
Laboratoire des outils informatiques pour la conception et la production en mécanique (LICP) ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE 1 Petri nets for.
General theme Plurality of science for interdisciplinarity and policy making. Theoretical findings from analyses of sustainable development in agriculture.
Adolescents - supporting their transition to adulthood Adolescents - soutenir la transition vers l’âge adulte.
Développer durablement les capacités nationales NTI en minimisant les coûts (Sustainable low cost approach to ICT and e-commerce capacity building ) 3ème.
Learning Objectives: To be able to say what you and other people are going to do using the NEAR FUTURE tense.
Français II Le projet – Le voyage en France.   You are writing a travel/photo journal in order to keep track of your great trip to the cities of France.
Le passé composé The perfect tense Eg: J’ai mangé une pizza I have eaten/ate a pizza.
Quelle force que celle de s’accepter comme on est !
WALT: To talk about the internet in French.
 The compound past tense (past indefinite), more commonly known as the passé composé, refers to an action or event completed in the past.  The word “compound”
Le Comparatif et le Superlatif
Gestion de données : Besoins de la VO Biomed Sorina Pop Laboratoire Creatis Université de Lyon, CREATIS; CNRS UMR5220; Inserm U1044; INSA-Lyon; Université.
Forming questions in French
Greetings, formal and informal
1 Programmation en C++ Marianne Morris. 2 Intro générale à la programmation On a déjà étudié le langage assembleur Langage de bas niveau Meilleur que.
ÉCOLE POLYTECHNIQUE CONCOURS 2010 Workshop NSERC scholarship application 23 avril 2015 École Polytechnique.
Pile-Face 1. Parlez en français! (Full sentences) 2. One person should not dominate the conversation 3. Speak the entire time The goal: Practice! Get better.
1 Ce document est la propriété d ’EADS CCR ; il ne peut être communiqué à des tiers et/ou reproduit sans l’autorisation préalable écrite d ’EADS CCR et.
Unité 2 La vie courante Leçon 3 Bon appétit. Thème et Objectifs Everyday life in France In this unit, you will learn how to get along in France. You will.
EU Joint Programming: Belgium Expert meeting on EU Joint Programming April 26th 2013.
La mémoire(1): Comment bien travailler
Your team’s name. Préselection file You have just downloaded the preselection file: it’s the first step for you to win the challenge! In this file, you.
GREDOR - GREDOR - Gestion des Réseaux Electriques de Distribution Ouverts aux Renouvelables How to plan grid investments smartly? Moulin de Beez, Namur.
Modèles d’interaction et scénarios
Welcome everyone.
21/02/2003DEA DISIC 1 Grid Computing Programming the grid: Distributed Software Components, P2P and Grid Web Services for Scientific Applications Tarak.
Introduction aux architectures parallèles
« © CEA [2006]. Tous droits réservés. Toute reproduction totale ou partielle sur quelque support que ce soit ou utilisation du contenu de ce document est.
Orientation 2006 by Pierrette Guimond Asssistant Director Graduate Programs School of Nursing.
1 Grid, Virtualisation, et HPC Bernard Ourghanlian CTO & CSO – Microsoft France.
Aim To recap depuis + to say how long you have been doing something. J’ apprends le français depuis quatre ans. What does this sentence mean? Think of.
WALT: how to tell the time in French WILF: to be able to understand ¼ past, ½ past, ¼ to and o’clock (level 2) to be able to understand all times in French.
Unité 6 Leçon B. Forming yes/no questions  To form a yes/no question in French in the simplest way, add a question mark at the end of the sentence, and.
Nous parlons des matières Buts: To be able to give extended opinions on school subjects To express agreement or disagreement.
Les thèmes: 82% of A* to C at the French GCSE last year!! If you work hard you can do even better!
The comparative and superlative b In this lesson you will learn how to use the comparative and superlative in a sentence. b 1. We will discuss the translation.
Flash-on-flash-off! You will see some French text in a minute but it will only be on the board for a minute then it will disappear.
Dossier 2 depuis, il y a, pendant, pour. If you are asking a question about the duration of an action that began in the past and still continues in the.
The 4th Power Places and Forms of power How reliable are our sources of information today ? The media.
MON STYLE AVANT ET MAINTENANT. L/O: TALK ABOUT MY STYLE IN THE PAST AND NOW  Registre: le weekend, je porte...  I must be able to compare what I used.
Le Chatelier's Principle Lesson 2. Le Chatelier’s Principle If a system in equilibrium is subjected to a change processes occur that oppose the imposed.
OBJECT PRONOUNS WITH THE PASSÉ COMPOSÉ Page 122. Placement  With all object pronouns, placement is the same. DirectIndirectPlaces De+ nouns or ideas.
© and ® 2007 Vista Higher Learning, Inc Point de départ In Leçon 11, you learned to form the passé composé with avoir. Some verbs, however, form.
RozoFS KPI’s edition /04/2014. © Fizians Ce document ne peut être reproduit ou communiqué sans autorisation écrite. 2 RozoFS high level architecture.
Bell Ringer: Qu’est-ce que tu manges? What do you eat? Write what you eat for lunch using the images & your memory/notes/packet: Pour le déjeuner je mange……
O WHY IS IT IMPORTANT TO PLAN AHEAD FOR THE FUTURE?
Visual Information Solutions Multithreading. Visual Information Solutions Qu’est-ce que le multithreading ? Un thread est une partie des instructions.
Technology Module.  Technology is the application of knowledge and skills to make goods or to provide services.  It includes the tools and machines.
Cisco Confidential 1 © Cisco and/or its affiliates. All rights reserved. Objets connectés & intelligents Enjeux et stratégies pour les filières.
Put these phrases into 4 categories, and decide on a title for each category. There may be more than one possible answer! boire de l’eau manger des fruits.
Ecole Informatique 2010 La Programmation des Architectures Multi-cœurs Cécile Barbier Fatih Bellachia Alain Masserot.
GPU sous LabVIEW eTIG_OOP_ Plan de la présentation 1.Frameworks OOP référencés 2.Performances d’accés 3.Performances de compilation 4.Erreurs.
Making PowerPoint Slides Avoiding the Pitfalls of Bad Slides.
PERFORMANCE One important issue in networking is the performance of the network—how good is it? We discuss quality of service, an overall measurement.
Essai
Making PowerPoint Slides Avoiding the Pitfalls of Bad Slides.
Transcription de la présentation:

P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 www.idris.fr Institut du développement et des ressources en informatique scientifique Quelles architectures pour l’Exascale ? Quel impact sur les codes ? P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 1

P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 L’Exascale en 2020 ? Si on extrapole le TOP500… Oui c’est possible si on est optimiste ! P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 L’Exascale en 2020 ? Cependant, différentes lectures plus pessimistes sont possibles, Extrapolation sur une échelle semi-log, petite erreur, grande conséquence… P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 L’Exascale en 2020 ? Cependant, différentes lectures plus pessimistes sont possibles, Suivant la référence P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 L’Exascale en 2020 ? Cependant, différentes lectures plus pessimistes sont possibles… Stagnation inquiétante… Extrait du TOP500 List Highlights : « Total combined performance of all 500 systems has grown to 309 Pflop/s, compared to 274 Pflop/s in June and 250 Pflop/s one year ago. This increase in installed performance also exhibits a noticeable slowdown in growth compared to the previous long-term trend. » P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 L’Exascale en 2020 ? La loi de Moore, toujours d’actualité, mais pour encore combien de temps ? Durant les années 90, le gain de performance provient principalement de l’augmentation de la clock, c’est la période du « free lunch »… Depuis 2005, pour des raisons énergétiques, le gain de performance provient de la multiplication du nombre de cœurs d’exécution, mais la puissance par cœur stagne voire diminue. Sans adaptation des codes (parallélisation), pas ou peu de gain en performance. Depuis 2010, apparition des architectures hybrides accélérées ou many-cores. Le design actuel des architectures est quasi inchangé depuis 60 ans, et on arrive aux limites de ces technologies… L’exascale dans un enveloppe de 20 MW (1MW = 1M$/an), une contrainte extrêmement forte… Aujourd’hui, 90% du temps et de l’énergie est utilisée pour bouger les données d’un niveau de mémoire à un autre ! P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 Les défis à relever Extrait du rapport du DOE - Research Challenges Top Ten Exascale (02/2014) « Numerous reports over the past years have documented the technical challenges and the non-viability of simply scaling existing computer designs to reach exascale. » Principaux challenges techniques : Efficacité énergétique (1 Eflops avec 20 MW  50 Gflops/W !) Capacité et bande passante mémoire Technologie d’interconnexion (performance et efficacité énergétique relative au mouvement des données) Parallélisme extrême (10~100 M de threads d’exécution) Gestion de la donnée et Big Data (traitement des grandes masses de données) Productivité scientifique (nouveaux outils et environnements de développement adapté au parallélisme massif) La tolérance aux pannes (hardware ou software) P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

La contrainte énergétique Extrait du rapport du DOE - Research Challenges Top Ten Exascale (02/2014) « Without dramatic reformulation of hardware together with software, exascale systems are projected to consume 100s of megawatts, and few existing HPC applications will be able to scale beyond a tenth of an exaflop. » Extrapolation à partir de #1 TOP500 Tianhe-2, 3210000 cœurs, Rmax=33.86 Pflop/s, Rpeak=54.9 Pflop/s, Power 17.8 MW Il faut un facteur 18.2 en terme de performance, soit une consommation de 324 MW !!! Extrapolation à partir de #1 GREEN500 GPU AMD FirePro S9150 (5.2 Gflops/W) Il manque un facteur 9.6 en terme d’efficacité énergétique, soit une consommation de 192 MW !!! P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 Focus sur la mémoire Pour soutenir une intensité arithmétique de 1 flop/byte sur une architecture exaflopique avec une enveloppe énergétique de 20 MW (dont 10 MW pour la mémoire), alors le déplacement d’un bit de donnée depuis la mémoire ne doit pas consommer plus de 1 picojoule ! Pas de solution avec une simple évolution des technologies actuelles. Il faudra un (ou plusieurs sauts/révolutions technologiques) comparable à celle, en 1990, du CMOS en remplacement des technologies TTL (Transistor Transistor Logic) et ECL (Emitter Coupled Logic) pour atteindre l’objectif. P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

Exemples de technologie de rupture Pour le mémoire : la MRAM La MRAM (Magnetic Random Access Memory) est une mémoire non volatile de type magnétique. Elle est souvent considérée comme la mémoire « idéale » alliant rapidité, débit, capacité et non-volatilité, ce qui peut amener à penser qu'elle entraînera la fin de la hiérarchie des mémoires Consomme 20 fois moins que la technologie actuelle (DRAM) P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

Exemples de technologie de rupture Pour les réseaux d’interconnexion : la photonique Remplacer les fils de cuivre par de la fibre et utiliser la lumière pour transporter l’information Le gain : facteur 30 en bande passante pour 1/10 de la consommation et un cout identique à l’existant. La photonique détruit les distances et rend obsolète les contraintes de proximité entre la mémoire et les coeurs de calcul ! P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

Les projets annoncés (Intel)… Cori (NERSC) June 2016 : 64 Cabinets of Cray XC System Over 9,300 ‘Knights Landing’ compute nodes Next generation Xeon-Phi, >3TF peak Single socket processor - Self-hosted, not a co-processor, not an accelerator Greater than 60 cores per processor with support for four hardware threads each; more cores than current generation Intel Xeon Phi Intel® "Silvermont" architecture enhanced for high performance computing 512b vector units (32 flops/clock – AVX 512) High bandwidth on-package memory, up to 16GB capacity with bandwidth projected to be 5X that of DDR4 DRAM memory Over 1,900 ‘Haswell’ compute nodes (Data partition) Cray Aries Interconnect Lustre File system (28 PB capacity, 432 GB/sec peak performance) NVRAM “Burst Buffer” for I/O acceleration MPI+OpenMP preferred programming model – << Should enable NERSC users to make robust code changes >> Using Edison to Help Prepare for Cori You can use Edison today to start preparing for Cori.  Most codes on  Edison assign a single MPI rank to each processing element; however, on Cori, this may not be possible, due to memory limitations.  On Cori it will be necessary to use less MPI parallelism and more OpenMP parallelism.  In many codes, OpenMP threads can be added incrementally, via pragmas or compiler directives.  In other codes, more restructuring may be needed.  You should try adding OpenMP to your code on Edison today.  NERSC has collected some useful information and tutorials in the OpenMP Resources page. Think about how your problem can be decomposed using thread-level parallelism, meaning independent threads of execution within each MPI process.  Doing this on Edison is not only a good preparation for Cori; it may also improve performance on Edison and/or allow you to run larger simulations.   Source : https://www.nersc.gov/users/computational-systems/cori/ P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

Les projets annoncés (Intel)… Argonne (Theta 2016 – Aurora 2018) - 200 M$... P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

Les projets annoncés (OpenPOWER) Coral (Summit - Oak Ridge and Sierra - Lawrence Livermore) Transitioning to Summit: Preparing Titan Users for Fivefold Computing Power Summit will provide revolutionary performance by way of evolutionary changes to the current Titan hybrid architecture, making Summit an ideal follow-on system to Titan. By developing and refactoring applications to improve performance portability on accelerated architectures, Titan users will be better positioned to take advantage of Summit, as well as other next-generation leadership computing resources, and beyond. Users can create applications that explore performance portability and exploit untapped parallelism by: 1- Using accelerated programming libraries whenever possible 2- Preferring high-level compiler directives such as OpenMP/OpenACC over low-level frameworks such as CUDA or OpenCL 3- Exposing as much node-level parallelism as possible 4- Relying on a suite of development tools to maximize parallelism MPI+OpenMP(OpenACC) preferred programming model P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 Les projets annoncés… HP The Machine (2019 ?) Le New York Times a rapporté la semaine dernière que HP avait complètement revu le concept de « La Machine » pour se distancer des memristors qui sont très loin d’être commercialisés. Réécriture d’un nouveau système d’exploitation en cours, aucune information sur les modèles de programmation associés à cette architecture novatrice… P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

Quel parallélisme dans les codes ? Domain Parallelism Parallélisation inter-nœud avec MPI (échange de messages) Thread Parallelism Parallélisation intra-nœud avec OpenMP (directives) Data Parallelism Vectorisation SIMD (portable avec OpenMP) Instruction Level Parallelism Exécution concurrentes d’instructions indépendantes (hardware) Offload (if accelerated architecture)… OpenMP or OpenACC P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 Impact sur les codes Minimiser les transferts des données Prendre en compte les hiérarchies et les aspects NUMA des différents niveaux de mémoire disponibles (affinité mémoire, affinité processeur, binding, …) Prendre en compte l’évolution exponentielle du parallélisme interne à un nœud (coeurs d’exécution, thread hardware, …) Pas de performance sans vectorisation. Impacte fortement les structures de données utilisées dans certains codes (transformation de tableaux de structures en structure de tableaux) => gros travail de réécriture des codes… L’approche MPI+OpenMP+SIMD (+Offload) est mature et pérenne, elle est à privilégier aussi bien sur architectures Many-core que hétérogènes accélérées. L’aspect optimisation de l’empreinte mémoire est au moins aussi important que l’aspect performance. D’autres modèles de parallélisation (à base de graphe de tâches par exemple) sont des alternatives à envisager à moyen terme L’utilisation de bibliothèques optimisées pour ces nouvelles architectures est la voie à privilégier lorsque cela est possible P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015

P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015 En conclusion Beaucoup de défis techniques restent à réaliser pour construire une architecture exaflopique consommant de l’ordre de 20 MW (cœurs d’exécution, mémoire, réseau d’interconnexion, …) Plusieurs candidats pour ces technologies de rupture sont déjà opérationnels dans les laboratoires de recherche, d’autres pas encore... Pour les utilisateurs, quelque soit l’architecture cible, un travail conséquent d’adaptation des codes de calcul sera nécessaire pour obtenir des performances : Exposer plus de parallélisme intra-nœud dans les applications Augmenter le caractère vectoriel SIMD des applications Gérer l’organisation hiérarchique de la mémoire Utiliser localement des directives pour les architectures hybrides accélérées P.-Fr. Lavallée – Journées Calcul Scientifique LJLL – 10-11 juin 2015