Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.

Slides:



Advertisements
Présentations similaires
Valeurs Propres et Vecteurs Propres
Advertisements

La Méthode de Simplexe Standardisation
Module Systèmes d’exploitation
Placement de Motifs Architecture Application Contraintes: - Charge
FORMATION DE FAISCEAU.
Fabrice Lauri, François Charpillet, Daniel Szer
« Systèmes électroniques »
Antoneta Iuliana BRATCU
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Calculs de complexité d'algorithmes
Cours n° 8 Conception et Programmation à Objets
Performances 1 Évolution : Performance. Performances 2 Évolution : Mémoire.
A abstraction b assembleur c nombre binaire d bit e cache f UC g puce h compilateur i famille dordinateurs j contrôle k chemin de données l défaut m dé
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
A Pyramid Approach to Subpixel Registration Based on Intensity
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Séminaire IMS 10/01/2008 Distribution large échelle d’un algorithme financier de contrôle stochastique CIGC05 - GCPMF Xavier WARIN (EDF R&D - OSIRIS) Stéphane.
A.Faÿ 1 Recherche opérationnelle Résumé de cours.
Journée de Travail Groupe “Bermudes”
Ordonnancement des mouvements de deux robots
CALCUL PARALLELE PRODUIT : MATRICE – VECTEUR 10 pages Exposé par :
Sélection automatique d’index et de vues matérialisées
Des RRA à la diagnosticabilité
Application des algorithmes génétiques
Classification Multi Source En Intégrant La Texture
Les algorithmes: complexité et notation asymptotique
Chaire UNESCO - Calcul numérique intensif
ASI 3 Méthodes numériques pour l’ingénieur
1.2 COMPOSANTES DES VECTEURS
Examen partiel #2 Mercredi le 15 novembre de 13h30 à 15h20
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Atelier ADOMOCA Nov 2007 Hervé Le Berre & Daniel Cariolle Une méthode plus robuste pour la résolution des systèmes chimiques Projet ANR SOLSTICE.
Optimisation et parallélisation de code pour processeur à instructions SIMD multimedia François Ferrand.
Pr. Alain Greiner (LIP6 - ASIM) Daniel Millot, Philippe Lalevee (INT)
Rappel... Systèmes dynamiques: discrets; continus.
Rappel... Caractérisation des matrices inversibles: Matrices bloc.
Courbes de Bézier.
Programmation concurrente
Gestion de Fichiers Tri Interne Efficace et Tri Externe.
Universté de la Manouba
Pr. M. Talibi Alaoui Département Mathématique et Informatique
Travaux de thèse de Julien FRANCOIS
Calcul des groupes d'homologie d’objets discrets
Rappel... Matrices bloc. Décomposition des matrices:
Atelier de formation : MAT optimisation II (les graphes).
Transformations linéaires et sous-espaces associés
L’adaptativité pour un solveur de l’équation de Vlasov
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
ASI 3 Méthodes numériques pour l’ingénieur
Cours du 25 octobre Mardi le 24 octobre
Vue d'ensemble Configuration d'adresses IP
MAXIMISER les RESULTATS
Examen partiel #1 Mercredi le 4 octobre de 13h30 à 15h20
1 Notations Asymptotiques Et Complexité Notations asymptotiques : 0 et  Complexité des algorithmes Exemples de calcul de complexité.
ASI 3 Méthodes numériques pour l’ingénieur
Caractérisation texturale des surfaces boisées dans une image Ikonos de la région de Montréal Pierre Bugnet Langis.
Notions premières. x a b c d y z t G = (V,E) V sommets ou nœuds E arêtes ou liens.
PROJET CAPS Compilation, Architecture, Processeurs Superscalaires et Spécialisées.
8INF856 Programmation sur architectures parallèles
Tutorat 7 - Introduction au Routage et OSPF
Méthodes de décomposition de domaine pour la formulation mixte duale du problème critique de la diffusion des neutrons Pierre Guérin
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
PROJET CAPS Compilation, Architecture, Parallélisme et Système.
Introduction aux solutions Microsoft pour le HPC.
1 Logiciels de confection automatique d’horaires.
Ordonnancement en présence d’agents individualistes
Présentation de Séminaire
GdR MoMaS Novembre 2003 Conditions d’interface optimales algébriques pour la vibro-élasticité. François-Xavier Roux (ONERA) Laurent Sériès (ONERA) Yacine.
Novembre 2003 Simulation numérique en vibro-acoustique par couplage de deux codes parallèles Unité de Recherche Calcul à Haute Performance François-Xavier.
Transcription de la présentation:

Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI

Objectif Améliorer les performances de l’exécution en parallèle des méthodes itératives de résolution de systèmes linéaires et/ou de calcul de valeurs propres où la matrice est creuse et l’environnement parallèle est hétérogène

Quelques définitions Matrice creuse Matrice de très grande taille contenant beaucoup d’éléments nuls et peu d’éléments non nuls Applications : mécanique des fluides, traitement d’image satellite, télé médecine, …

Quelques définitions Compression de la matrice : gain en espace mémoire + en temps de traitement Plusieurs formats de compression pour matrice creuse : CSR, COO, BND, …

Quelques définitions Exemple : Format COO 6. 11. 14. 25. 5. 10. 13. 12. 22. 4. 8. 27. 3. 23. 7. 15. 2. 9. 16. 21. 1. Exemple : Format COO A IA JA 1. 2. 4. 5. 8. 27. 3. 6. 25. 21. 16. 15. 13. 7. 9. 10. 11. 12. 14. 22. 23. 1 2 4 5 3 6 1 2 4 5 3 6 10 Rmq : A une matrice donnée on peut associer un ensemble de formats de compression

Environnement parallèle hétérogène Réseau de machines ayant des caractéristiques matérielles et logicielles différentes et reliées par des liens hétérogènes.

Méthode itérative de résolution de système linéaire Déf : A * x = b Exple : Méthode de Jacobi, Gauss-Jordan, Gradient Conjugué, … des itérations de Produit Matrice-Vecteur

Problématique Étude des performances du PMVC dans un milieu hétérogène La distribution de la matrice en blocs L’exécution en « séquentiel » du PMVC sur chaque bloc Cas parallèle Cas séquentiel

Étude du PMVC : Cas séquentiel Performances d’un Algorithme Séquentiel Creux Machine(caractéristiques matérielles & logicielles) Matrice(densité, structure,…) Format de compression  Détecter le meilleur format de compression pour une matrice creuse et une machine données

Étude du PMVC : Cas séquentiel Tester le PMVC pour : Un ensemble de formats : CSR, COO, DNS, BND Une structure particulière de matrice : Bande Un ensemble de machines : PC Intel, un processeur d’une machine SP2, une station HP9000, …

Étude du PMVC : Cas séquentiel Générer aléatoirement des matrices creuses bande Stocker une matrice donnée dans chacun des formats de compression (COO, CSR, …) différentes versions du PMVC Exécuter le PMVC pour chaque format Comparer les performances pour les différents formats  déterminer le format qui a donné les meilleures performances

Étude du PMVC : Cas séquentiel Optimisation du PMVC séquentiel pour chaque format de compression Optimisations manuelles (par le programmeur) Optimisations automatiques (par le compilateur) Remplacement scalaire, Sortir les invariants d’une boucle, Technique de unrolling, … Options de compilation : funroll, O1, O2, …,

Optimisation du PMVC CSR Sur le PC et le mainframe HP9000 : Toutes les options du compilateur fournissent les mêmes performances Les optimisations du compilateur donnent des performances meilleures que celles données par les optimisations manuelles Sur un processeur de la machine SP2 : Pour certaines matrices (ayant un nombre de NNZ inférieur à un certain seuil), il faut combiner les optimisations manuelles et automatiques pour avoir les meilleurs performances  Poursuivre les tests pour les formats COO, BND et DNS

Étude du PMVC : Cas parallèle Étude des performances du calcul du polynôme de degré 2 : A(A*x+x)+x pour différents formats de compression dans un système pair-à-pair Réseau dans lequel toutes les stations de travail possèdent des capacités ainsi que des responsabilités équivalentes

Étude du PMVC : Cas parallèle Fragmentation des données Envoi des fragments compressés de A vers les pairs Calcul en parallèle du produit fragment-vecteur Communication des fragments de Y + réduction du vecteur Y à partir de ses fragments Diffusion du vecteur aux pairs

Fragmentation des données Approches différentes Fragments contenant le même nbre de lignes (FMNL) Fragments contenant le même nbre de NNZ (FMNENN) lignes contiguës lignes non contiguës

Fragmentation des données FMNL Approche facile peut engendrer un déséquilibre des charges prohibitif pour les pairs FMNENN Problème d’affectation de N tâches indépendantes de coûts c1, c2, …, cN à p processeurs homogènes, avec une contrainte sur la charge maximale par processeur Expérimentations sur le système ExtremWeb

Conclusion et Perspectives Cas séquentiel Optimisation du PMVC pour les formats CSR, COO, DNS et BND Comparaison des formats du PMVC pour chaque format Cas parallèle Étude de la parallélisation du PMVC pour chaque format de compression Pour un format donné, proposer plusieurs version parallèles à comparer Déterminer le format qui donne la meilleure version parallèle du PMVC