Ch3 : Les Processeurs Superscalairs

Slides:



Advertisements
Présentations similaires
(Nom du fichier) - D1 - 01/03/2000 FTR&D/VERIMAG TAXYS : a tool for the Development and Verification of RT Systems a joint project between France Telecom.
Advertisements

XGKS et XUV XGKS and XUV 25/10/2003 V1.0 Conception d une application sans contact How to design a RFID application Comment raccorder un système OSIVIEW.
You can use this tool to help you remember how passé-composé at a glance You can use this guide on some quizzes and tests. Make it clear, colorful and.
Gei 431 Architecture des ordinateurs II – Frédéric Mailhot Systèmes Pipeline – opérations multicycles Nous avons vu jusquà maintenant comment faire un.
Systèmes Superscalaires et VLIW
Start with verb ? in the ? tense Start with verb ? in the ? tense Change the ? of my participe passé with ? Change the ? of my participe.
ARPO: architecture des processeurs superscalaires,VLIW et optimisation André Seznec et François Bodin.
WALT: GIVE OPINIONS ABOUT MY TOWN
1 3.4 Microprocesseurs et bus Microprocesseurs © Béat Hirsbrunner, University of Fribourg, Switzerland, 6 December 2006.
Quelle heure est-il?. 12 noon- midi 1- une heure 2- deux heures 3- trois heures 4- quatre heures 5- cinq heures 6- six heures 7- sept heures 8- huit heures.
Making PowerPoint Slides Avoiding the Pitfalls of Bad Slides.
PERFORMANCE One important issue in networking is the performance of the network—how good is it? We discuss quality of service, an overall measurement.
1 Case Study 1: UNIX and LINUX Chapter History of unix 10.2 Overview of unix 10.3 Processes in unix 10.4 Memory management in unix 10.5 Input/output.
A POWER POINT DEMONSTRATION. The End. Just kidding! This is serious stuff.
IP Multicast Text available on
Formation Réseaux et Télécommunication Master 1 Matière : DSP & FPGA Par: ATOUI Hamza.
Mode noyau Appels Systèmes Interruptions Grégory Seront Institut Paul Lambin
Introduction aux Architectures Multi-Cores
TP4
Utilisation du logiciel EduStat©
Réduction des communications dans l'outil STEP Alain Muller
(= for (how long) / since (when?)
AO (Architecture des ordinateurs)
1+2 French Second Level Classroom Language Pack
Microarchitectures pipelinés
WP5 : Initial design of the glider
Evolution des machines Introduction à l’ARDUINO
Architecture de machines Le microprocesseur
CPU Fetch/Execute Cycle Computer program Electronic clock Computer Memory Data/address buses Fetch/Execute Cycle Accumulator ALU/Control Unit/Program Counter.
Classification des archtecutres paralleles
JC2 - LE PASSE COMPOSE with ÊTRE
Passé Composé vs Imparfait
Quantum Computer A New Era of Future Computing Ahmed WAFDI ??????
Lesson 4A L’heure.
Quelle heure est-il?.
LES QUESTIONS en français.
Gei 431 Architecture des ordinateurs II GEI Frédéric Mailhot 1. Introduction 2. Concepts de base du pipeline 3. Utilisation d'unités d'exécution.
MATCHSLIDE : INT contribution Patrick HORAIN Hichem ATTI Waheb LARBI Presented as : "TELESLIDE: Technical aspects ", Jacques Klossa & Patrick Horain, Joint.
Present Perfect Simple X Present Perfect Continuous.
Making Sentences Negative in French
Architectures parallèles
Architecture de machines Le microprocesseur Cours
in French and in English
1.Warm-up packet vert ex: C, D, & E
Essai
Architectures des processeurs superscalaires, VLIW et optimisations
Technologies SoPC (System On Programmable Chip)
Qu’est-ce que tu as dans ta trousse?
Introductory slide to see what pupils remember.
Introductory slide to see what pupils remember.
Qu’est-ce que tu as dans ta trousse?
Quelle est la date aujourd’hui?
Gei 431 Architecture des ordinateurs II – Frédéric Mailhot Introduction Objectifs du cours Évaluation Références Matière du cours: - Techniques modernes.
Quelle est la date aujourd’hui?
Quelle est la date aujourd’hui?
Global Challenge Capteur de nuit Leçon 2.
WRITING A PROS AND CONS ESSAY. Instructions 1. Begin your essay by introducing your topic Explaining that you are exploring the advantages and disadvantages.
Making PowerPoint Slides Avoiding the Pitfalls of Bad Slides.
Encadré par : M. Mohammad EL GHABZOURI Elaboré par : - AZEGAMOUT Mohamed - ABOULKACEM abdelouahed - GOUN Ayoub EXPOSÉ Sous le thème : SER 2018 Parallélisme.
C021TV-I1-S4.
5S Methodology How to implement "5S" and get extraordinary results.
4C Telling Exact Time.
Les formes et les couleurs
Avoiding the Pitfalls of Bad Slides Tips to be Covered Outlines Slide Structure Fonts Colour Background Graphs Spelling and Grammar Conclusions Questions.
Evolution des machines Introduction au MSP-EXP432
University : Ammar Telidji Laghouat Faculty : Technology Department : Electronics 3rd year Telecommunications Professor : S.Benghouini Student: Tadj Souad.
Ordinal Numbers D’Accord 1 Leçon 7B.
INS Tunisia, Towards a fully SDMX compliant Information system
IMPROVING PF’s M&E APPROACH AND LEARNING STRATEGY Sylvain N’CHO M&E Manager IPA-Cote d’Ivoire.
M’SILA University Information Communication Sciences and technology
Transcription de la présentation:

Ch3 : Les Processeurs Superscalairs Niar Smail Master 1 ISECOM UVHC-ISTV Smail.Niar@univ-valenciennes.fr Smail.Niar@univ-valenciennes.fr

3.1 Rappel des notions vues sur le Pipeline B C D 6 PM 7 8 9 T a s k O r d e Time 30 40 20 Le pipeline n’améliore pas la latence d’une instruction. Il faut 5 cycles pour une inst. Mais le temps pour exécuter toute la charge (le prog) est réduit Plusieurs instructions exécutées en // (ILP Instruction Level Parallelism) speedup idéal = Nombre d’étages La vitesse du pipeline est limitée par la phase la plus longue (synchronisation sur le plus long) Smail.Niar@univ-valenciennes.fr

3.2 Est ce qu ’il est possible d’avoir un CPI < 1 ? CPI < 1 : implique moins d ’un cycle pour exécuter une instruction !!!!! Impossible Mais : Exécuter plusieurs instructions par cycle : possible ex : si on peut exécuter deux instructions en parallèle par cycle. On a CPI = 1/2!!! Bravo Smail.Niar@univ-valenciennes.fr

Architecture MIPS Avec 2 instructions/Cycle Morgan Kaufmann Publishers 26 November, 2017 Architecture MIPS Avec 2 instructions/Cycle Un paquet de 2 instructions est exécuté par cycle (ordonnancement statique) 1 ALU/branch instruction 1 load/store instruction Les instructions sont alignées sur 64-bit ALU/branch, ensuite load/store Si non, on met NOP Address Instruction type Pipeline Stages n ALU/branch IF ID EX MEM WB n + 4 Load/store n + 8 n + 12 n + 16 n + 20 Chapter 4 — The Processor

Deux versions : Superscalaire et VLIW (very long instruction word) 1/ Un processeur superscalaire un processeur capable d ’exécuter plusieurs instructions par cycles horloge la sélection des instructions à lancer est réalisée dynamiquement (cours de l ’exécution) 2/ Un processeur VLIW (Very long instruction Word) un processeur capable d ’exécuter plusieurs instructions par cycle horloge Une instruction VLIW est une concaténation de plusieurs instructions simples exécutées simultanément La sélection des instructions // est faite par le compilateur avant exécution Smail.Niar@univ-valenciennes.fr

Superscalar Multiple copies of datapath execute multiple instructions at once Dependencies make it tricky to issue multiple instructions at once Smail.Niar@univ-valenciennes.fr

Ideal IPC: 2 Actual IPC: 2 Smail.Niar@univ-valenciennes.fr

Superscalar Ideal IPC: 2 Actual IPC: 6/5 = 1.2 Smail.Niar@univ-valenciennes.fr

LDR R8, [R0, #40] ADD R9, R8, R1 SUB R8, R2, R3 Ideal IPC: 2 AND R10, R4, R8 Actual IPC: 6/4 = 1.5 ORR R11, R5, R6 STR R7, [R11, #80] Smail.Niar@univ-valenciennes.fr

Les superscalaires Vs. Les VLIW Smail.Niar@univ-valenciennes.fr

SS Vs. VLIW Smail.Niar@univ-valenciennes.fr

Pour avoir un CPI<1, il faut lancer plusieurs instructions par cycle, Un exemple Superscalar MIPS: 2 instructions par cycle: Un pour les instruction flottantes (ADDS, ADDD, SUBS, SUBD, ….) Un pour le reste des instructions (Ins. Entier, Ins. Mémoire, Branch…) Lire (Fetch) 64-bits/cycle horloge Type Pipe Stages Int. instruction IF ID EX MEM WB FP instruction IF ID EX MEM WB Int. instruction IF ID EX MEM WB FP instruction IF ID EX MEM WB Int. instruction IF ID EX MEM WB FP instruction IF ID EX MEM WB Smail.Niar@univ-valenciennes.fr

Sperscalaire VS. VLIW Point commun : Superscalaire (SS) et VLIW lancement de plusieurs instructions en parallèle Différences : 1 lancement SS les instructions sont lancées depuis un programmes séquentiel VLIW : le compilateur arrange les instructions en t-uples 1 tuple = groupe d’instructions sans aucune dépendance Smail.Niar@univ-valenciennes.fr

Principe des processeurs superscalaires Smail.Niar@univ-valenciennes.fr

The Opteron X4 Microarchitecture Morgan Kaufmann Publishers 26 November, 2017 The Opteron X4 Microarchitecture 72 physical registers §4.11 Real Stuff: The AMD Opteron X4 (Barcelona) Pipeline Chapter 4 — The Processor — 15 Chapter 4 — The Processor

Dynamic Multiple Issue Morgan Kaufmann Publishers 26 November, 2017 Dynamic Multiple Issue “Superscalar” processors CPU decides whether to issue 0, 1, 2, … each cycle Avoiding structural and data hazards Avoids the need for compiler scheduling Though it may still help Code semantics ensured by the CPU Chapter 4 — The Processor — 16 Chapter 4 — The Processor

Dynamic Pipeline Scheduling Morgan Kaufmann Publishers 26 November, 2017 Dynamic Pipeline Scheduling Allow the CPU to execute instructions out of order to avoid stalls But commit result to registers in order Example lw $t0, 20($s2) addu $t1, $t0, $t2 sub $s4, $s4, $t3 slti $t5, $s4, 20 Can start sub while addu is waiting for lw Chapter 4 — The Processor — 17 Chapter 4 — The Processor

Cortex A8 and Intel i7 Processor ARM A8 Intel Core i7 920 Market Personal Mobile Device Server, cloud Thermal design power 2 Watts 130 Watts Clock rate 1 GHz 2.66 GHz Cores/Chip 1 4 Floating point? No Yes Multiple issue? Dynamic Peak instructions/clock cycle 2 Pipeline stages 14 Pipeline schedule Static in-order Dynamic out-of-order with speculation Branch prediction 2-level 1st level caches/core 32 KiB I, 32 KiB D 2nd level caches/core 128-1024 KiB 256 KiB 3rd level caches (shared) - 2- 8 MB §4.11 Real Stuff: The ARM Cortex-A8 and Intel Core i7 Pipelines Chapter 4 — The Processor — 18

ARM Cortex-A8 Performance Chapter 4 — The Processor — 19

Core i7 Pipeline Chapter 4 — The Processor — 20

Core i7 Performance Chapter 4 — The Processor — 21