Performances avec un cache

Slides:



Advertisements
Présentations similaires
Disque dur 2 Go Ecran + clavier local Host Paramètrage Analyse Dialogue avec l'extérieur PC/Modem DSP 16 entrées logiques 8 entrées analogiques DSP 16.
Advertisements

Électronique de base du processeur
Architecture de machines Le microprocesseur
Les systèmes embarqués
ARCHITECTURE INTERNE d’un MICROPROCESSEUR
GEF 435 Principes des systèmes d’exploitation
Plan du cours : 2ème Partie
Objectif de l’exposé.
Performances 1 Évolution : Performance. Performances 2 Évolution : Mémoire.
A abstraction b assembleur c nombre binaire d bit e cache f UC g puce h compilateur i famille dordinateurs j contrôle k chemin de données l défaut m dé
Objectifs Identifier l’interface entre le logiciel de plus bas niveau et le matériel Comprendre la problématique de l’architecture du jeu d’instruction.
Performances 1 Objectifs : Comment mesurer, décrire et résumer les performances et décrire les principaux facteurs qui déterminent les performances dun.
Parallélisme d’instructions
Exercice Notre programme s'exécute en 10 secondes sur A, qui dispose d'une horloge à 100Mhz. Nous tentons d'aider un concepteur à construire une machine.
People want to do X, but computers can only do Y. This leads to a problem. My job is to explain how this problem can be solved.
Introduction Par définition, dans un modèle à cycle unique, le cycle d’horloge doit avoir la même durée pour toutes les instructions. Le cycle d’horloge.
Présentation Unité de codage
Thread Level Parallelism
2-2 POTENTIEL ÉLECTRIQUE CONVENTION DES SIGNES
Gestion des Périphériques
L’Équilibre chimique Aspect qualitatif.
Marketing Mix.
Architecture des Ordinateurs
INF 2500 : Architecture des ordinateurs
L énergie les systèmes Efficacité énergétique. - Présentation du sujet - Nos hypothèses - Nombre de cycles théoriques - Énergies consommées - Coût de.
Mesurer l’efficacité des algorithmes
Gei 431 Architecture des ordinateurs II – Frédéric Mailhot Systèmes Pipeline – opérations multicycles Nous avons vu jusquà maintenant comment faire un.
Systèmes Superscalaires et VLIW
Module 51 Module 5 - Synchronisation de Processus (ou threads, ou fils ou tâches) Module 5 - Synchronisation de Processus (ou threads, ou fils ou tâches)
Gei 431 Architecture des ordinateurs II – Frédéric Mailhot Et maintenant, où allons-nous? Après toutes les techniques vues jusquici: Que peut-on faire.
Chapitre 6 (Silberchatz)
Remarque: Tu devrais visionner la présentation:
Chap. 2 - Structure d’un ordinateur
Simplifier une fraction
Analyse d’algorithmes
L'Unité centrale (CPU) Le CPU doit être rapide (mesuré en temps de CPU) UNITE DE CONTROLE Générer les signaux de control/temps Contrôler le décodage/exécution.
Progrès technique et logique économique : leur liaison interne
Simplification de fractions rationnelles
CYCLE 1 : Saisir – Afficher – Données Initialiser des Variables par affectation 1- Rôle de l’affectation 2- Syntaxe de l’affectation 3- Exécution de l’affectation.
Cours de Structure et Technologie des composants d’ordinateurs
Les expressions algébriques
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Performance de circuits.
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Modélisation VHDL de.
L’ordinateur De quel sexe Est-il?.
ARPO: architecture des processeurs superscalaires,VLIW et optimisation André Seznec et François Bodin.
Structure de Base d’un ordinateur Matière : Informatique
INFOR 101 Chapitre 5 Marianne Morris.
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Performance de circuits.
Simulation de jeux d’instructions à hautes performances
1. Spoon Christophe Delagarde, septembre 1998 I.U.T., Université de la Méditerrainée 2.
PROJET CAPS Compilation, Architecture, Processeurs Superscalaires et Spécialisées.
ARPO: architecture des processeurs superscalaires,VLIW et optimisation André Seznec et François Bodin.
Activités Puissances De 10 D’exposant Positif. La Ce vient d’envoyer une nouvelle sonde explorer les anneaux de Saturne Mais c’est loin !!!10 unités astronomiques.
PROJET CAPS Compilation, Architecture, Parallélisme et Système.
Révision des polynômes.
L’ASSURANCE DE LA QUALITE EN MAINTENANCE
BEP Electronique - Systèmes microprogrammés
Exemple – acétate 50 Détails de la démarche. Remplissage initial s5s5 168 s4s s3s3 s2s2 s1s1 s0s0.
Patricia Renault UPMC 2005/2006
Pipeline 1 Amélioration des performances par la technique du pipeline.
Le sexe des ordinateurs !. Une étude américaine récente s'est penchée sur le " sexe des ordinateurs " : Les Ordinateurs sont-ils du genre masculin ou.
Pipeline 1 Amélioration des performances par la technique du pipeline.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
ALLOCATION DU CPU et GESTION DES TRAVAUX.
M. YAMANAKA – Cours de mathématiques. Classe de 4ème.
Qu'est ce que l'électrotechnique ?
Processeur RISK R3000. PLAN - Processeur RISK R3000 Structure du processeur Structure du processeur Logique de contrôle Logique de contrôle Détection.
La rédaction du mémoire Projet de Fin de Cycle 2016/2017.
Range les nombres du plus petit au plus grand.
Transcription de la présentation:

Performances avec un cache Supposons un taux de défauts de cache d’instruction pour gcc égal à 5% et un taux de défauts de cache de données de 10%. Si une machine a un CPI de 4 sans aucune attente mémoire et si le coût est de 12 cycles pour tous les défauts, déterminer quel est le facteur d’accélération de la vitesse d’une machine disposant d’un cache parfait pour lequel il n’y aurait eu aucun défaut.

Fréquence des instructions MIPS Noyau MIPS Nom Gcc % addition Add Addition immé Addi Addition non signé addu 8 Décalage logique sll Chargement mot lw 22 Rangement mot sw 11 Branchement = beq Branchement < bne saut j Addition imméd non signé addiu 16 ….

Solution Le nb de cycles de défaut mémoire pour les instructions s’exprime en fonction du nombre NI : Nb cycles défauts d’ins = NI * 5%* 12 La fréquence des lw et sw est de 33% Le nb de cycles de défaut mémoire pour les réf de données Nb cycles défauts de données = NI*33%*10%*12 Le nombre total de cycles d’attente Nb =( .6+.4)*NI=1*NI Rapport = NI*CPIattentes*cycle H / NI*CPIparfait*cycle H= 5/4

Exercice On suppose que l’on augmente les performances de la machine en doublant sa fréquence d’horloge. Étant donné qu’il est peu probable que la vitesse de la mémoire principale change, on suppose que le temps absolu de traitement de défaut reste le même. De combien la machine sera-t-elle plus rapide avec l’horloge plus rapide ? 1 _ si parfait 2_ avec la hiérarchie

Solution Le nouveau coût de défaut sera deux fois plus rapide, soit 24 cycles. Nb total de cycles défauts par instruction = 5%*24 + 33%*(10%*24)=2 Ceci signifie que la machine avec défauts la plus rapide aura un CPI de 4+2=6, comparé à 5 avec la machine plus lente. Rapport des perf = NI*CPI*Cycle/NI*CPI*(Cycle/2)=5/(6*1/2)=5/3 Conclusion la machine avec l’horloge plus rapide est 1,67 fois plus rapide et non 2 fois en l’absence de cache.

EX1 Remplir le contenu d’un cache de huit mots à correspondance directe après les séries de requêtes suivante : 22,26,22,26,16,4,16,4,16,18,26,18. Le processeur demande des adresses sur 5 bits. On complétera tout d’abord, le tableau des actions à mener après chaque référence. Commenter l’efficacité du cache directe. Donner une série de référence efficace.

Ex 2 Donner le schéma du cache à correspondance directe correspondant au format de l’adresse suivant : Étiquette Index adresse octet 31 8 7 2 1 0

sol2 Validité Etiquette donnée 1+ 24+ 32= 57bits Index 1 2 ... 62 63

Ex 3 Donner le nombre de bits nécessaire à un cache de 2n mots.

Sol ex3 nb bits=nb bits taille de l'adresse *nb bits taille données. -> largueur du champ d'étiquette : 32-(n+2) {n=n bits pour l'index} et 2 bits pour adresser en octet.   -> nombre total de bits : 2n*(taille bloc+taille étiquette +taille de champ de validité) = 2n*(32+32-n-2+1)

Ex 4 Donner le schéma d’un cache qui contient 16K blocs avec un mot par bloc.

Ex 5 Quel est le nombre total de bits requis pour un cache de 64 Ko de données (32 bits)?

Ex 6 donner le schéma d’un cache de 64 Ko utilisant des blocs de quatre mots (16 octets).

Ex 7 Considérons un cache à 64 blocs et une taille de bloc de 16 octets. A quel numéro de bloc l’adresse en octets 1200 correspond-elle ? Même question Avec 12 octets.

Ex 8 On dispose de Trois caches, chacun d’eux possédant quatre blocs de un mot. Un des caches est totalement associatif, le second est associatif par ensemble de deux blocs et le troisième est à correspondance directe. En supposant que la politique de remplacement est celle du bloc le moins récemment utilisé, déterminer le nombre de défauts pour chaque organisation de cache à partir de la séquence d’adresse de blocs suivante : 0,8,0,6,8.

Ex 9 On considère pour les cinq exercices la même séquence de références à des adresses de mots : 1, 4, 8, 5 , 20, 17, 19, 56, 9, 9, 11, 4, 43, 5, 6, 9, 17. Il est demandé de détailler les contenus des caches après chaque défaut.

Ex 10 En supposant un cache à correspondance directe initialement vide avec 16 blocs de un mot, déterminer si chaque référence de la liste conduit à un succès ou à un défaut et donner le contenu final du cache.

Ex 11 Indiquer les succès, les défauts et le contenu final du cache pour un cache à correspondance directe avec des blocs de quatre mots et une taille totale de 16 mots. Indiquer les succès, les défauts et le contenu final du cache pour un cache associatif par ensembles de deux blocs avec des blocs de un mot et une taille totale de 16 mots. On supposera une politique de remplacement LRU.

Ex 12 Indiquer les succès, les défauts et le contenu final du cache pour un cache totalement associatif avec des blocs de un mot et une taille totale de 16 mots. On supposera une politique de remplacement LRU.

Ex 13 Indiquer les succès, les défauts et le contenu final du cache pour un cache totalement associatif avec des blocs de quatre mots et une taille totale de 16 mots. On supposera une politique de remplacement LRU.