N. Inglart*, L. Eeckhout** S. Niar*, K. De Bosschere** SympA'2005 *LAMIH-ROI, Université de Valenciennes, France **ELIS, Université de Gand, Belgium FranceBelgium.

Slides:



Advertisements
Présentations similaires
Les concepts de bases de la simulation
Advertisements

Lille, France – 02/12/2009 Journées CIGIL
10/31/02 Leïla Merghem - LIP6 Une approche Multi-Agents pour la Simulation de Réseaux de Télécommunications Leïla Merghem (LIP 6) Dominique Gaïti (LIP.
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Évaluation de la qualité d'une clusterisation
Test Intégré pour Convertisseurs Analogique/Numérique
L’architecture .net et ASP.net
Objectif de l’exposé.
Performances 1 Évolution : Performance. Performances 2 Évolution : Mémoire.
Localisation de services techniques dans un modèle à composants H. GRINE, C. Hérault, S. Lecomte, T. Delot Journées Composants, le Croisic 7 avril 2005.
Copyright © 2004, SAS Institute Inc. All rights reserved. Processus Stockés SAS une perspective analytique Sylvain Tremblay SAS Canada 25 avril 2006.
L’optimisation par essaims De particules
Sélection automatique d’index et de vues matérialisées
Sujets de mémoire Mercury Génération automatique de XML Gestion et debugging d'ontologies Un éditeur intelligent pour Mercury (sans stage) Conception d'un.
Reconstruction de volume 3D
Des RRA à la diagnosticabilité
Amélioration de la sécurité des données à l'aide de SQL Server 2005
Les Systèmes Multi-Agents pour la Gestion de Production
DEA Intelligence Artificielle et Optimisation Combinatoire
Finger Cryptosystem pour L’Authentification
Historique de SystemC Regroupe 4 courants didées: SCENIC Project : Synopsys+UC Irvine Philips System-Level Data Types, VSIA SLD DWG IMEC, Hardware-Software.
DataLab® Toute la connaissance client en quelques minutes
Optimisation et parallélisation de code pour processeur à instructions SIMD multimedia François Ferrand.
C6E2 Positionnement de C6E2 par rapport à SimPA2 et Modelica
Introduction Objectifs du cours Évaluation Références
Simulateur.
Universté de la Manouba
1 IFT 6800 Atelier en Technologies dinformation Le langage de programmation Java chapitre 3 : Classes et Objects.
Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.
La résolution de problèmes grâce à la technologie de l'information
Etats des lieux (un début …) sur lergonomie de Méso-NH Soline Bielli Réunion Méso-NH 11 mai 2010.
Leçon 1 : notion dobjet IUP Génie Informatique Besançon Méthode et Outils pour la Programmation Françoise Greffier Université de Franche-Comté.
Analyse des Algorithmes
L’adaptativité pour un solveur de l’équation de Vlasov
Soutenance de stage 16 Mai au 5 Août 2011
Soutenance de stage 16 Mai au 5 Août 2011
Lycée ELKHAWARIZMI De SAFI
Gérer la sécurité des mots de passe et les ressources
Module 8 : Surveillance des performances de SQL Server
PROJET CAPS Compilation, Architecture, Processeurs Superscalaires et Spécialisées.
Amélioration de la simulation stochastique
PROJET CAPS Compilation, Architecture, Processeurs Superscalaires et Spécialisées.
8INF856 Programmation sur architectures parallèles
INF8505: processeurs embarqués configurables Département de génie informatique et génie logiciel Langages de description architecturale.
Test de l’unité d’exécution d’une instruction par application d’instructions de test Projet du cours ELE6306 : Tests des systèmes électroniques. Nicolas.
Cours de Structure et Technologie des composants d’ordinateurs
Energy optimization in a manufacturing plant Journée GOThA Ordonnancement avec contraintes d’énergie et/ou de ressources périssables LAAS-CNRS Toulouse.
INF8505: processeurs embarqués configurables
Bases de Données Temporelles
Contribution à la mise en place d'une plateforme open-source MPSoC sous SystemC pour la Co-simulation d'architectures hétérogènes Thèse préparée par.
L’architecture du processeur Xtensa de Tensilica
ARPO: architecture des processeurs superscalaires,VLIW et optimisation André Seznec et François Bodin.
PROJET CAPS Compilation, Architecture, Parallélisme et Système.
Travaux Pratiques Optimisation Combinatoire
Construction d'une hiérarchie mémoire faible consommation
Structure de stockage et relations
LIRMM, MONTPELLIER, FRANCE FTFC 2003 Définition d’une métrique d’insertion de buffers X. Michel, A. Verle N. Azémard, P. Maurine, D. Auvergne Paris, France.
Recherches locales et méta-heuristiques
INTRODUCTION.
Simulation de jeux d’instructions à hautes performances
Évolution des (micro)processeurs et des systèmes embarqués
Architecture et technologie des ordinateurs II
Optimisation pour la Conception de Systèmes Embarqués
PROJET CAPS Compilation, Architecture, Processeurs Superscalaires et Spécialisées.
L’enseignement de spécialité SLAM
PROJET CAPS Compilation, Architecture, Processeurs Superscalaires et Spécialisées.
Session : Modele plan d’action Template Action Plan
1 Logiciels de confection automatique d’horaires.
Informatique 2A Langage C 2 è séance. Objectifs de la séance 2 Début de la modularité avec les fonctions Création d’une première bibliothèque.
Ch3 : Les Processeurs Superscalairs
Transcription de la présentation:

N. Inglart*, L. Eeckhout** S. Niar*, K. De Bosschere** SympA'2005 *LAMIH-ROI, Université de Valenciennes, France **ELIS, Université de Gand, Belgium FranceBelgium This project is supported by Intel Corporation Méthodes d'accélération de la simulation pour l'évaluation des systèmes embarqués

Introduction: Le projet FACSE

Motivation (1/2) Loi de Moore Loi de Moore 1 s d'éxécution = plusieurs minutes de simulation 1 s d'éxécution = plusieurs minutes de simulation Multitude de simulations necessaires Multitude de simulations necessaires Orientation dans le choix des architectures Orientation dans le choix des architectures Recherche des configurations optimales Recherche des configurations optimales Contraintes Contraintes Temps d'exploration reduit Temps d'exploration reduit Précision satisfaisante Précision satisfaisante

Motivation (2/2) Les applications doivent être optimisées Les applications doivent être optimisées Les compilateurs offrent: Les compilateurs offrent: Un ensemble d'options de compilation Un ensemble d'options de compilation Un ensemble de directives de compilation Un ensemble de directives de compilation La recherche des meilleures options necessite plusieures iterations(>2 17 pour ICC) La recherche des meilleures options necessite plusieures iterations(>2 17 pour ICC) Incompatible avec le delai de commercialisation Incompatible avec le delai de commercialisation

Objectifs de FACSE (1/2) Framework for Architecture and Compiler Space Exploration Framework for Architecture and Compiler Space Exploration Créer un outil d'adaptation de la micro-architecture et/ou des optimisations à une application Créer un outil d'adaptation de la micro-architecture et/ou des optimisations à une application Collaboration entre l'université de Valenciennes (France) et l'université de Gand (Belgium) Collaboration entre l'université de Valenciennes (France) et l'université de Gand (Belgium) Financé par : Financé par : Intel Corporation Intel Corporation Bilateral actions for research program between France and Belgium. The «Tournesol Program of exchange», for years 2004 and 2005 * Bilateral actions for research program between France and Belgium. The «Tournesol Program of exchange», for years 2004 and 2005 * *

Objectifs de FACSE (2/2) Configuration rapide des choix architecturaux Configuration rapide des choix architecturaux Pour les SoC utilisant les cores Xscale et StrongArm Pour les SoC utilisant les cores Xscale et StrongArm Pour Intel Itanium2 et ces versions futures (multi- cores Montecito ) Pour Intel Itanium2 et ces versions futures (multi- cores Montecito ) Configuration rapide des options de compilation Configuration rapide des options de compilation Pour améliorer les performances des applications Pour améliorer les performances des applications Pour definir des solutions adaptées aux contraintes Pour definir des solutions adaptées aux contraintes

Structure de FACSE Xscale Itanium2 Montecito …. Cache? Branch Pred? Funct. Unit? RSE config? FACSE Architecture Configuration Exploration Compiler Option Exploration …. XscaleItanium2Montecito …. O1, O2, O3?Funct. Inlining? …. Loop Unroll? StrongArm GPO?

Utilisation de FACSE (micro) Architecture Parameters Compilation Options Performance & Power Consumption Measurement Architecture Parameters & Compilation Options Management (Exploration)

Cette présentation…. Se focalise sur l'exploration de l'espace des configurations micro-architecturales Se focalise sur l'exploration de l'espace des configurations micro-architecturales Rendez-vous à une prochaine rencontre SympA pour l'exploration de l'espace des optimisations... Rendez-vous à une prochaine rencontre SympA pour l'exploration de l'espace des optimisations...

… Program AANBH JKJHTF RDES Total Detailed Simulation TDS Cycle accurate several hours Ex: PowerAnalyzer, Wattch, Simplescalar … Execution Time Power Consumptio n …. Performances Reference Data input AANBH JKJHTF RDES Data output Total Detailed Simulation (TDS) : Approche classique Micro-archi details Power Consumption models

Méthodes(1/2) Trois méthodes: Adaptées aux processeurs embarqués à core StrongArm et Xscale Adaptées aux processeurs embarqués à core StrongArm et Xscale Rapides et ayant une précision satisfaisante Rapides et ayant une précision satisfaisante Statistical simulation (SS) : Statistical simulation (SS) : Génère une trace synthétique courte par profilage Génère une trace synthétique courte par profilage Offre une accéleration importante Offre une accéleration importante

Méthodes(2/2) Analytical modeling (AM): Analytical modeling (AM): Estimation des performances et de la consommation par méthode partiellement analytique Estimation des performances et de la consommation par méthode partiellement analytique Précision importante: TDS utilisée sur une configuration idéale et estimation elementaire des pénalités Précision importante: TDS utilisée sur une configuration idéale et estimation elementaire des pénalités Hybridation des deux méthodes précédantes: Analytical Modeling with Statistical Simulation (AMSS) : Hybridation des deux méthodes précédantes: Analytical Modeling with Statistical Simulation (AMSS) : Offre un bon compromis entre la précision et la vitesse Offre un bon compromis entre la précision et la vitesse

Cache statistics Statistical Simulation (SS) Microarchitecture- dependent profiling tool Microarchitecture- independent profiling tool Synthetic trace generator Trace-driven simulator Power/performance characteristics Sim-cache: cache miss Real trace several million of inst. Branch statistics Program statistics Sim-bpred: branch miss pred. Sim-profile : inst mix Synthetic trace inst.

add r1, r2, r3 ldr r0, [r1] ….. Program AANBH JKJHTF RDES Reference Data Application Profiling (minutes) Cache Simulation (minutes) Branch Prediction Simulation (seconds) Profile of Executed Instruction Cache Statistics Branch Prediction Statistics add … ldr … ….. Synthetic Program Synthetic Program Generation (seconds)

Add… Ldr… Synthetic Program Detailed Simulation on trace (seconds) PowerAnalyzer Execution Time Power Consump tion …. Estimated Performances Statistical simulation (SS)

Analytical Modeling (AM) TDS dans le cas parfait (zero miss en caches et branchements parfaits): Cycles_perfect TDS dans le cas parfait (zero miss en caches et branchements parfaits): Cycles_perfect Nombre de défauts en caches et branchements mal predits sont evalués Nombre de défauts en caches et branchements mal predits sont evalués Total_Cycles = Cycles_Perfect + Nbr_Cache_Misses * Cache_Penalities + Nbr_Cache_Misses * Cache_Penalities + Nbr_BranchPred_Misses * Branch_Pred_Penalities + Nbr_BranchPred_Misses * Branch_Pred_Penalities

Hybridation de AM et SS La simulation détaillée de la configuration parfaite est remplacée par une simulation statistique La simulation détaillée de la configuration parfaite est remplacée par une simulation statistique

Protocole de test StrongArm core StrongArm core PowerAnalyzer : basé sur simplescalar, evaluation de la consommation de puissance PowerAnalyzer : basé sur simplescalar, evaluation de la consommation de puissance Mediabench et Mibench Mediabench et Mibench Trace synthétique de 100K instructions Trace synthétique de 100K instructions

Précision IPC et EPC

Exploration de la configuration de la mémoire cache C C C C C C C C C C1 Total Size (in KB) Assoc Bloc Size Entries # Config.

EDP= CPI 2 *EPC

Comparaison des trois méthodes IPC and EPC estimation errors with the 3 methods

Accélération relativement à TDS

Comparaison : SS, AM et AMSS

Conclusion et perspective Trois méthodes aux caracteristiques différentes Trois méthodes aux caracteristiques différentes Methodes parametrables (choix des statistiques,taille de la trace...) Methodes parametrables (choix des statistiques,taille de la trace...) Integration au projet FACSE Integration au projet FACSE

MERCI!!!