La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Parallélisme des instructions Processeurs superscalaires Processeurs VLIW BUS SYSTÈME Registres Unité de traitement Unité de traitement Unité flottante.

Présentations similaires


Présentation au sujet: "Parallélisme des instructions Processeurs superscalaires Processeurs VLIW BUS SYSTÈME Registres Unité de traitement Unité de traitement Unité flottante."— Transcription de la présentation:

1 Parallélisme des instructions Processeurs superscalaires Processeurs VLIW BUS SYSTÈME Registres Unité de traitement Unité de traitement Unité flottante Unité de contrôle Unité de contrôle Décodeur PC ALU CPU MÉMOIRE PRINCIPALE MÉMOIRE PRINCIPALE DD IO Cache de données Cache d'instructions MMU TLB

2 Familles des processeurs ILP Il y a deux grandes familles de processeurs ILP (Instruction Level Parallelism), selon que le logiciel (le compilateur) ou le matériel (le processeur) résout la résolution des dépendances et effectue l'allocation des ressources sont effectuées par : les processeurs superscalaires et les processeurs VLIW (Very Long Instruction Word) front end et optimisation détermination des dépendances allocation des ressources détermination des dépendances allocation des ressources exécution COMPILATEURPROCESSEUR superscalaire VLIW

3 Processeurs superscalaires unité de dispatch décodage unité de traitement 2 unité de traitement 2 décodage unité de traitement 1 unité de traitement 1 décodage unité de traitement 0 unité de traitement 0 instruction

4 Processeurs superscalaires IR REGISTRES SHIFTER REGISTRES I0 I1 Z INPORT Séquenceur Décodeur PC Adresse INPORT OUTPORT ADDER ADDERX ALUO SHIFTERO INPORTX OUTPORTO R0X... RnO ADDERX ALUO SHIFTERO INPORTX OUTPORTO R0X... RnO

5 Politiques d'envoi des instructions In-order issue with in-order completion: les instructions sont cherchées, décodées et envoyées aux unités de traitement dans lordre décriture du programme. Les résultats sont écrits dans le même ordre. In-order issue with out-of-order completion: les instructions sont cherchées, décodées et envoyées aux unités de traitement dans lordre décriture du programme. Les résultats sont écrits dès qu'ils sont prêts. Out-of-order issue with out-of-order completion: les instructions sont cherchées, décodées et envoyées aux unités de traitement dès que leurs opérandes sont prêts et que les ressources qu'elles demandent sont disponibles. Les résultats sont écrits dès qu'ils sont prêts.

6 Politiques d'envoi des instructions I1I2 I3I4 I5I6 I1I2 I1I3 I4 I5 I6I1 I2 I3 I4 I5 I I1, I2 I3, I4 I4, I5, I6 I5 I1I2 I3I4 I5I6 I1I2 I1I3 I4 I5 I6 I1 I2 I3 I4 I5 I decodeexecutewritebackcyclewindow I1I2 I3I4 I5I6 I1I2 I1 I3 I4 I5 I6 I1I2 I3 I4 I5 I I1 a besoin de deux cycles d'exécution| I5 dépend du résultat de I4 I3 et I4 utilisent la même ressource| I5 et I6 utilisent la même ressource In-order issue with in-order completion Out-of-order issue with in-order completion Out-of-order issue with out-of-order completion

7 IR Unité dedispatch Unité dedispatch Fenêtre d'instruction Fenêtre d'instruction Queue d'instructions: quand l'instruction au sommet de la queue est suspendue, d'autres instructions peuvent être exécutées (si elles n'ont pas de dépendances). Un tableau de marques (scoreboard) est une liste des ressources du processeur: dès qu'une instruction demande une (ou plusieurs) des ressources, cette dernière devient indisponible pour les instructions suivantes. Out-of-order issue - Implémentation INPORT Séquenceur Décodeur PC Adresse ADDERX ALUO SHIFTERO INPORTX OUTPORTO R0X... RnO ADDERX ALUO SHIFTERO INPORTX OUTPORTO R0X... RnO Fenêtre d'instruction: le décodeur envoie les instructions dans la fenêtre, tant qu'il y a de la place. Les instructions sont envoyées en exécution, sans regarder l'ordre, pour autant qu'il n'y ait pas de conflits de ressources. Unité de dispatch: dès leur arrivée dans le processeur, les instructions sont envoyées au décodeur, qui analyse les dépendances.

8 Exemple: le processeur PowerPC 601 Architecture 32 bits Instructions à taille fixe (32 bits) Alignement obligatoire des instructions Big-endian ou little-endian Architecture superscalaire à trois unités de traitement (entiers, virgule flottante et sauts) Cache interne: 32 KB, unifié, 8 voies set-associative, adressé physiquement Pipelines à différentes longueurs Bus de données à 64 bits Prédiction statique du saut 32 registres entiers et 32 registres virgule flottante Registre de conditions

9 Exemple: le processeur PowerPC 601 Unité des entiers (IU) Exécute toutes les opérations sur des données entières et tous les accès à la mémoire (load/store), y compris ceux avec les registres virgule flottante Contient: une ALU un multiplicateur un diviseur un registre XER (integer exception register) 32 registres généraux Peut recevoir une instruction par coup dhorloge

10 Exemple: le processeur PowerPC 601 Unité virgule flottante (FPU) Contient: un multiplicateur/additionneur un diviseur un registre FPSCR (FP status and control register) 32 registres généraux à 64 bits Implémentation complète du standard IEEE 754, en simple ou double précision (bien que lunité ne fasse directement que la simple précision)

11 Exemple: le processeur PowerPC 601 Unité des instructions Contient deux parties: une queue dinstructions à 8 niveaux une unité de traitement des sauts (BPU): » une ALU pour le calcul des adresses » un registre-compteur (CTR) » un registre de lien (LR) » un registre de conditions (CR) La queue dinstructions peut recevoir jusquà 8 instructions de la cache par coup dhorloge. Trois instructions peuvent être envoyées en parallèle aux différentes unités de traitement. Les instructions sur les entiers sont toujours exécutées dans lordre. En conséquence, une seule instruction accédant à la mémoire est retirée de la queue par cycle dhorloge

12 Exemple: le processeur PowerPC 601 MMU adresse physique adresse logique IU (load/store) unité des instructions 5232 MMU cache répertoire de cache répertoire de cache adresse logique adresse physique bus dadresse

13 Exemple: le processeur PowerPC 601 Caractéristiques du cache: 32 KBytes unifié adressé physiquement 8 voies, associatif par ensembles ensembles de 64 lignes, 2 secteurs par ligne, 8 mots par secteur algorithme LRU pour le remplacement écriture copy-back ou write-through au choix chaque ligne possède un tag et 4 bits détat (2 par secteur) les 16 mots dune ligne sont contigus dans la mémoire et ne peuvent pas croiser la limite dune page les opérations du cache se font sur la base dun secteur

14 Exemple: le processeur PowerPC 601 Modes dadressage: Adressage des données: Indirect de registre adresse = (RA) Indirect de registre avec index adresse = (RA) + (RB) Indirect de registre avec index immédiat adresse = (RA) + offset Adressage des sauts: adressage absolu adressage relatif saut au registre de lien (LR) saut au registre compteur (CTR) opcodeadresse LK opcodeoffset LK opcodeRBoffset RA 16

15 Exemple: le processeur PowerPC 601 Prédiction des sauts La BPU a besoin dun seul cycle dhorloge pour décoder et exécuter une instruction de saut. Dans le cas dun saut conditionnel, la BPU vérifie dans le pipeline si une instruction en cours peut modifier la condition. Si non, ladresse de saut est calculée. Si oui, la branche est prédite, en fonction d'un bit y spécifié dans l'instruction. Si la prédiction savère fausse, on enlève les instructions de la branche prédite et on prend lautre branche. Le writeback est interdit dans les instructions dune branche tant que la condition n'est pas résolue. Il existe un seul niveau de prédiction: on ne fait pas de prédiction à lintérieur dune branche qui nest pas encore résolue.

16 Architecture 64 bits Taille unique des instructions (32 bits) Alignement obligatoire des instructions et des données Little-endian Architecture superscalaire avec des pipelines de longueur différente Adresse virtuelle sur 64 bits, sans segmentation Trois types de données supportés, en 32 (longword) ou 64 (quadword) bits: entiers virgule flottante IEEE virgule flottante DEC Il ny a pas de division pour les entiers Il ny a pas dopérations sur les bytes (par contre, il y a des instructions de manipulation des bytes) Les sauts sont prédits 32 registres entiers (R31 toujours égal à 0) et 32 registres virgule flottante (F31 toujours égal à 0), tous à 64 bits Exemple: le processeur Alpha

17 Quatre unités de traitement: unité des entiers unité des réels unité des load/store unité des sauts Deux instructions peuvent être exécutées en parallèle: entierréel saut loadstoreop.loadstoreop.ent.réel load entier X X store entier X opération entière X X X X X load réel X X store réel X opération réelle X X X X X saut entier X saut réel X

18 Exemple: le processeur Alpha réels load/store entiers F SDIFGHJKW SDIA A B B W W chemin de bypass

19 F (fetch): recherche de deux instructions dans la cache. S (swap): envoi des deux instructions dans le bon pipeline. Prédiction du saut. D (decode): identification des opérandes. I (issue): lecture des opérandes. Analyse des dépendances. Au-delà de cette phase il est impossible de bloquer le pipeline. A: première phase de lALU. Les opérations et les décalages courts sont terminés. Ladresse du load/store est calculée. Le PC est mis à jour. B: deuxième phase de lALU. Les décalages longs sont terminés. La cache de données est lue pour les loads. W (write): écriture des registres. Le succès/échec de laccès à la cache est déterminé: lors dun succès, on écrit dans le tampon décriture. Exemple: le processeur Alpha

20 Les instructions sont cherchées et envoyées à l'exécution dans lordre. Les registres entiers possèdent 4 ports de lecture et 2 décriture. Les registres réels possèdent 3 ports de lecture et 2 décriture. Le pipeline des réels utilise 5 phases pour les opérations daddition et multiplication. La division utilise 31 ou 61 cycles, selon la précision. Il y a un total de 38 bypasses, pour permettre lutilisation du résultat dune opération comme opérande dune instruction postérieure. Prédiction des sauts: La première fois quun saut a lieu, la prédiction se fait de façon statique: les sauts en arrière sont pris. Par la suite, la prédiction se fait dynamiquement: un bit dhistoire est gardé dans la cache pour toutes les instructions de saut. La pénalité pour une mauvaise prédiction est de 4 cycles. Exemple: le processeur Alpha

21 Processeurs VLIW meta-instr 2 instruction VLIW meta-instr 1meta-instr 0 décodage unité de traitement 2 unité de traitement 2 décodage unité de traitement 1 unité de traitement 1 décodage unité de traitement 0 unité de traitement 0 Avantage: la complexité du matériel est inférieure à celle dun processeur superscalaire: cela permet davoir une fréquence dhorloge plus élevée. Désavantage: la performance dépend énormément de la qualité du compilateur.

22 Processeurs VLIW LOAD 1 LOAD 0 NOP ADDIMUL LOAD 3 NOPADDNOP LOAD 0 ADDIMULLOAD 1 XXXXXX111100ADD…. LOAD VLIW classique LOAD 1 NOP LOAD 3 LOAD 0 NOP ADDI ADD NOP MUL NOP instruction compressée crossbar instruction étendue VLIW moderne séparateur numéro dunité

23 Exemple: le processeur Itanium EPIC = Explicitly Parallel Instruction Computing Le parallélisme apparaît de façon explicite dans les instructions: il y a un passage de la complexité du matériel vers le compilateur Trois instructions groupées dans un bundle de 128 bits Nombre élevé de registres ( ) Exécution à prédicats Exécution directe du code x86 Technologie: 0.18µ 5M Vitesse: 800 MHz Performance: SPECint95: 50 SPECfp95: 100

24 Exemple: le processeur Itanium instruction 2instruction 1instruction 0template opcode registre prédicat (6 bits) source 1 (7 bits) source 2 (7 bits) destination (7 bits) extension de lopcode / adresse de saut/ divers information sur le groupement des instructions 41 5


Télécharger ppt "Parallélisme des instructions Processeurs superscalaires Processeurs VLIW BUS SYSTÈME Registres Unité de traitement Unité de traitement Unité flottante."

Présentations similaires


Annonces Google