La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Simulation & Evaluation de la Consommation de Puissance dans les MPSoC Smail Niar en coopération avec: R.Ben-Atitallah, M.Tawk, S.Meftali, J.L.Dekeyser.

Présentations similaires


Présentation au sujet: "Simulation & Evaluation de la Consommation de Puissance dans les MPSoC Smail Niar en coopération avec: R.Ben-Atitallah, M.Tawk, S.Meftali, J.L.Dekeyser."— Transcription de la présentation:

1 Simulation & Evaluation de la Consommation de Puissance dans les MPSoC Smail Niar en coopération avec: R.Ben-Atitallah, M.Tawk, S.Meftali, J.L.Dekeyser Université de Valenciennes INRIA-LILLE DART 1

2 Nos activités de recherche Outils pour une évaluation rapide de la consommation de puissance dans les MPSoC (projet ANR Open-People). Systèmes MPSoC reconfigurables et sécurité routière: systèmes daide à la conduite (projet ANR Prima-Care) Environnement pour la modélisation et lexploration des MPSoC à haut niveau appli. data intensives (INRIA DART, projet Gaspard) IDM et MARTE. 2

3 Il était une fois…lENIAC (1943) « The intense heat required it to be run in a climate controlled room,..vacuum tubes failed rather frequently… ». « …the ENIAC caused the city of Philadelphia to experience brownouts…. » 3

4 4 De quoi allons nous parler aujourdhui?

5 Pourquoi les architectures multiprocesseurs sont elles de plus en plus populaires? Quest ce qui rend lévaluation des perf et la conso une tâche complexe? Comment simuler rapidement les MPSoC pour évaluer rapidement la conso? 5 You know what, …

6 Les nouveaux défis : Avancées technologiques: Nbr transistors & densité (2G transistors) Applications embarquées ++ complexes et variées. Besoins de HW performants. Consommation dénergie réduite HW/SW facile et rapide à dévelop/vérifier (time to market) 6

7 Solution II : Multiplier les processeurs Meilleure utilisation des transistors. Faciliter la réutilisation des unités. 7 Extensibilité Ajout de nouveaux cores Optimisation HW ou SW Customisation de larchitecture possible: Jeu dinstructions (ASIP)

8 Multiprocesseurs…mon grand père ma raconté lhistoire… MPSoC diffèrent des architectures multiprocesseurs classiques: 1 chip = Processors, Caches, Noc, FPGA, … Délais de comm différents Nouveau modèles de programmation 8 "Dont be encumbered by past history, go off and do something wonderful" Robert Noyce, co-fondateur d'Intel Corp. "Dont be encumbered by past history, go off and do something wonderful" Robert Noyce, co-fondateur d'Intel Corp.

9 99 Nouvelle loi de Moore !! : « Le nombre de cores double tous les 18 mois »

10 Architecture typique dun MPSoC 10 Network-On- Chip Core+ cache HW accelerator (FP, FFT, JPEG,..) Reconfigurable Logic Memory Unit (DRAM, SRAM, SPR,..) Memory Unit (DRAM, SRAM, SPR,..) Memory Unit (DRAM, SRAM, SPR,..) Memory Unit (DRAM, SRAM, SPR,..) I/O USB, BT, CAN I/O USB, BT, CAN I/O USB, BT, CAN I/O USB, BT, CAN I/O USB, BT, CAN… I/O USB, BT, CAN…

11 MPSoC Example: IBM Sony Cell 11

12 TI Omap ARM ® Cortex -A8 CPU L3/L4 Interconnect C64x+ DSP and video accelerators (3525/3530 only) Peripherals Program/Data Storage System I 2 C x4 Serial Interfaces 10 bit DAC Video Enc Display Subsystem Connectivity Security Acc (HS only) MMC/ SD/ SDIO x3 USB 2.0 Host Controller USB 2.0 HS OTG Controller GPMC SDRC UART x2 UART w/IRDA McBSP x5 McSPI x4 Timers GP x12 WDT x3 10 bit DAC LCD Cont- roller Image Pipe Parallel I/F Camera I/F 2D/3D Graphics (3515/3530 only)

13 EyeQ2: vision processing MPSoC 13 On chip 1MB of SRAM 2 64bits-MT processor 5 DMA with 16 channels 2 2-Mpixel video and image preprocessing input ports CAN & UART ports+I2C interface 11 //opérations pedestrian, lane, vehicle detec. 2nd appli

14 Obstacles: MPSoC: programmation & mise-pt des appli difficile. MPSoC augmente le nombre de paramètres: Processeurs (nombre, types,..) Caches (taille), unités fonctionnelles, … Réseau dinterconnection (NoC) Accélérateurs.. … 14

15 Custumisation des MPSoC: approche ASIP Architecture Paramétrables 1 squelette architectural, les composants configurés. Processeurs à jeu dinstruction extensibles (modifiables) LISA extensible en fonction des besoins de lapplication. 1 kernel = 1 « custom functional units » (CFU) 15 Tulika MITRA, Design Space Exploration of Application-Specific Processors 2nd Workshop Rapid Simulation and Performance Evaluation, RAPIDO2010, PISA

16 Design flow Explorer nouvelles alternatives arch. Proposer nouvelles optimisations Modélisation Simulation (performance & puissance ) 16

17 Modélisation des MPSoC 17 Niveau dabstractionObjectifs AlgorithmiqueDescription de lapplication TLM Transaction Level Modeling Processus Communicants (CP) + temps = CPT Tâches décrites dans des processus communicants, échange de données, pas darchitecture Vue de Programmeur (PV) + temps = PVT Architecture définie, description fonctionnelle, communication avec des canaux Cycle précis et/ou Bit précis Cycle précis Archi, pipeline, FSM Bit précis(CABA) Protocole de communication RTL : Register Transfer Level Registre, bascule, logique combinatoire, etc. Précision Vitesse

18 Simulation au niveau PVT Thèse R.Ben-Atitallah, INRIA Lille 2008

19 Rapport Vitesse de Simulation Vs. Précision Native execution Instruction accurate Précision Vitesse 1x 1/20x 1/100x 1/1000x 1/10000x RTL 0% 20% 80% 90% Cycle Accurate (CA), simplescalar, unisim, mparm, ISS Cache, NoC, …(Dinero, Luna) Branch pred CA+Energie (wattch, powerAnal, soclib, mparm, )

20 Méthodologie pour lEstimation de la Consommation dEnergie Développer des modèles de consommation pour chaque type de composants 20 MIPS R3000 XCACHE VCI_I0 LOCAL CROSSBAR MIPS R3000 XCACHE VCI_I1 MIPS R3000 XCACHE VCI_I2 MIPS R3000 XCACHE VCI_I3 VCI_T0VCI_T1VCI_T2VCI_T3 VCI_I0VCI_I1VCI_I2VCI_I3VCI_I4VCI_I5VCI_I6VCI_I7 Shared Mem0 Shared Mem1 Timer Locks Engine Locks Engine TTY Display0 TTY Display0 TTY Display1 TTY Display1 TTY Display2 TTY Display2 TTY Display3 TTY Display3 VCI_T0VCI_T1VCI_T0

21 Méthodologie pour lEstimation de la Consommation dEnergie Stratégie destimation: 1.Identifier les activités pertinentes 2.Évaluer les coûts énergétiques sur une plateforme existante 3.Mesurer les occurrences au cours de la simulation Utiliser des compteurs au niveau de la micro- architecture Méthode hybride offrant un bon compromis entre accélération et précision 21

22 Modélisation de la Consommation 22 Définition des activités pertinentes de gros-grain Estimation dénergie des activités de gros-grain Intégration du modèle dénergie Modèle PVT de lIP Estimation de lerreur Erreur > Seuil Simulation PVT + Estimation dénergie Simulation CABA + Estimation dénergie IP Préexistant Estimation avec des modèles analytiques Énergie des activités de Grain fin Intégration du modèle dénergie Modèle CABA de lIP Simulation avec des outils de CAO Non Oui Jeu de données Définition des activités pertinentes De grain fin Caractérisation des activités Sélection de lIP

23 Exemple de la mémoire cache Architecture du xcache de SoCLib 23

24 Exemple de la mémoire cache Approche appliquée pour dautres composants Processeur MIPS R3000 Accélérateur TCD-2D, DMAC Crossbar 24 Write tag arrayWrite data arrayWrite FIFO MISS_UPDT MISS_REQ READ MISS (M) Read tag arrayRead data array INIT IDLE WRITE_REQ Fine grain activities FSM states CACHE INIT READ HIT WRITE HIT Coarse grain activities (N) N: number of cache lines; M: cache bloc size WRITE MISS PVT CABA

25 Simulation pour lEstimation de la Consommation dEnergie 25 Simulateur darchitecture Simulateur de consommation Paramètres de larchitecture Paramètres du Circuits/ Tech Valeurs des compteurs Application Estimation de performance : Cycles/ms Estimation de la consommation : J/W N i : Nombre de fois ou l'activité i est réalisée C i : Coût d'une unité de l'activité i

26 Résultats de simulation TLM encodeur H.263

27 Max speedup Max time error Résultats de simulation TLM encodeur H.263

28 Problèmes posés pour la simul CABA 28 X

29 Pourquoi Accélérer la Simulation ? Nombre important de paramètres à configurer I&D $, nbre processeurs (MPSoC), NoC, etc. Nombre important d'applications & jeu de données Applications deviennent de ++ importantes (1G inst) Complexité croissante des systèmes à simuler + l'architecture est complexe + la simulation sera longue 1 min. d'exécution = plusieurs heures de simulation 29

30 Pourquoi Accélérer la Simulation? Augmentation du temps de simulation avec le nbr de processeurs (ex: rijndael) 30

31 Approches pour lAccélération de la Simulation 1.Simulation Statistique: Générer un programme synthétique: + petit en # instructions ^m profile 2.Modélisation Analytique : Perf/Puissance approximées analytiquement power (modèles mathématiques). 3.Modélisation à haut niveau: Détails architecturaux négligés (ex : TLM). 4.Emulation sur FPGA. 5.Échantillonnage de lapplication. 31

32 Simulation Statistique (SS) 32 add r1, r2, r3ldr r0, [r1]….. Application AANBH JKJHTF RDES Données Simulation Fct $ ( minutes) Simulation Fct (secondes) … Taux de défauts $ …. … Taux de défaut Pred. …. Profilage (minutes) Répartition instru. Distances entre instru. Dép. Simulateur (secondes) Perf. & Conso. Estimation perf. et consomm. Programme Synthétique (PS) add …ldr …….. Génération PS Influent sur Perf & Conso. Outils pour analyser séparément

33 Comportement des Applications Les applications ont tendance à avoir des phases (répétitions) identiques dexécution Mêmes blocs dinstructions sont ré-exécutés (ex: gzip) 33

34 Accélération par échantillonnage ? Décomposer lapplication en intervalles dune certaine taille (fixe ou var) Intervalles contenant les mêmes blocs dinstructions = identiques (Phase) 1 échantillon par phase de lapplication Exécuter lapplication = Exécuter les phases

35 Accélération par échantillonnage ? 35 x x y y y z time xy z Functional simulation Functional simulation 3 phases: 3 échantillons sont suffisants

36 Échantillonnage pour Multiprocesseur 36 Phases de 2 applications sexécutant individuellement Cycles A A B B A A a2a2 a2a2 X X Y Y X X Y Y Z Z W W P0 P1 Phases de 2 applications sexécutant en parallèle B en // avec W M. Tawk, K.Ibrahim, S.Niar, Multi-granularity Sampling for Heterogeneous Concurrent Applications, CASES 2008 A A B B A A B B P Cycles X X Y Y Y Y Y Y Z Z W W P B en // avec Z

37 Échantillonnage pour Multiprocesseur 37 Phases de 2 applications sexécutant individuellement Cycles A A B B A A a2a2 a2a2 X X Y Y X X Y Y Z Z W W P0 P1 Phases de 2 applications sexécutant en parallèle B en // avec W M. Tawk, K.S.Niar, Multi-granularity Sampling for Heterogeneous Concurrent Applications, CASES 2008 A A B B A A B B P Cycles X X Y Y Y Y Y Y Z Z W W P B en // avec Z Impossible de déterminer à priori les phases concurrentes

38 Méthode dEchantillonnage Adaptatif (AS) 38 Première étape: création dune trace de phases Détecter les intervalles similaires: même identificateur de phase a1a1 a1a1 a1a1 a1a1 a1a1 a1a1 a2a2 a2a2 a1a1 a1a1 a2a2 a2a2 P0 Instructions

39 Méthode dEchantillonnage Adaptatif 39 Cycles Clusters de Séquences (CS) Inst P0 Inst P1 CyclesEnergieNbr a 1,a 2 – b 1, b 2, b k 150 k C1C1 C1C1 E1E1 E1E1 1 1 a 1,a 1 – b k 50 k C2C2 C2C2 E2E2 E2E Tableau des CS P0P1 b3b3 a1a1 a1a1 a1a1 b1b1 b1b1 b2b2 b1b1 b1b1 b2b2 a2a2 a1a1 a2a2 b1b1 b2b2 b1b1 Cycles a1a1 a1a1 a1a1 a2a2 a2a2 a2a2 b1b1 b1b1 b1b1 b1b1 b2b2 b2b2 Non simulé a1a1 a1a1 b3b3 b3b3 a1a1 a1a1 a1a1 a1a1 a2a2 a2a2 b1b1 b1b1 b1b1 b1b1 b2b2 b2b2 Deuxième étape: combiner les séquences de phases formant des clusters de séquences (CS)

40 Accélération de AS Facteur daccélération 795 pour blowfish Facteur daccélération augmente avec le TWSB 40

41 Précision de AS Erreur de lIPC augmente avec le TWSB Erreur acceptable (généralement inférieure à 10%) 41

42 Conclusion: MPSOC alternative intéressante Prochaines générations de systèmes embarqués: MPSoC + Hétérogènes + Dédiées performance & conso: besoin de DSE, modèles de conso, envi simulation. MPSoC de + en + complexes: besoin daccélération simulation. Pas de méthodes de simulation (accélération) idéales: Hybrider: TLM, échantillonnage, émulation, … 42


Télécharger ppt "Simulation & Evaluation de la Consommation de Puissance dans les MPSoC Smail Niar en coopération avec: R.Ben-Atitallah, M.Tawk, S.Meftali, J.L.Dekeyser."

Présentations similaires


Annonces Google