Lille, France – 02/12/2009 Journées CIGIL

Slides:



Advertisements
Présentations similaires
La Méthode de Simplexe Standardisation
Advertisements

Approche graphique du nombre dérivé
Non linéarités liées à la thermique
RENDU DE TERRAIN Problématique : Rendre une très large zone de terrains en la simplifiant au maximum pour réduire le nombre de polygones à afficher. A.Bailly.
Simplification Out-of-Core des modèles polygonales complexes
Efficient Simplification of Point-Sampled Surfaces
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Borhen LOUHICHI Merci, Monsieur le président,
Algorithmique et évaluation
1 1 Momentum. 2 2 Tout objet en mouvement continuera son mouvement tant que rien nentrave sa progression.
ACTIVITES Le calcul littéral (3).
Veille technologique - IEEE MIH - Nicolas DUROCHER – Samuel JEAN le 19/01/2009.
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
Le codage de l ’information
A Pyramid Approach to Subpixel Registration Based on Intensity
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Analyse de la variance à un facteur
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
Filière Informatique et Réseaux
Sélection automatique d’index et de vues matérialisées
Améliorer les performances du chiffrage à flot SYND
DEA instrumentation et commande
Des RRA à la diagnosticabilité
Calcul et programmation au lycée avec Scilab
Une théorie générale des réseaux connexionnistes
Application des algorithmes génétiques
Algorithmes Branch & Bound
Éclairage Structuré et vision active pour le contrôle qualité de surfaces métalliques réfléchissantes Olivier Morel*, Ralph Seulin, Christophe Stolz, Patrick.
ASI 3 Méthodes numériques pour l’ingénieur
Principes de persistance dans les applications orienté objet
Capital économique analyse et reporting pour Fortis Assurances
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Concepts avancés en mathématiques et informatique appliquées
CORRELATION GENETIQUE ENTRE LES RESULTATS DES TESTS DE TERRAIN DES CHEVAUX SWEDISH WARMBLOOD DE 4 ANS ET LES RESULTATS EN COMPETITION DE DRESSAGE ET DE.
Méthode des k plus proches voisins
Suzy Plachta et Julie Verbeke Décembre 2010
Free surface flows in Code Saturne
Optimisation et parallélisation de code pour processeur à instructions SIMD multimedia François Ferrand.
Test bilan de calcul mental N°1 :
Réseaux de neurones.
Mesurer l’intensité du courant électrique
Équations Différentielles
Chapitre 4 Réduction des endomorphismes
Examen partiel #3 Mercredi le 15 décembre de 15h30 à 17h20
« Recherche de méthode d’estimation de volume de production à risque »
Journées de Rencontre Jeune Chercheurs
Courbes de Bézier.
Les modèles linéaires (Generalized Linear Models, GLM)
Application du CDMA Optique Temporel aux Réseaux d’Accès Hauts Débits
Simulation numérique des problèmes d’acoustique et de vibroacoustique:
Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.
1 Protection des arbres multicast avec une forêt duale Mohand Yazid SAIDI Bernard COUSIN Miklós MOLNÁR 15 Février 2006.
Institut Supérieur des Etudes Technologiques de Djerba Exposé du Traitement de Données Réalisé par: Khalifa Marwa Magroun Amira Jawadi Souad L2MDW.
BIGDATA Stella Kemgang Samuel Quettier Dzung Nguyen Cyrille Meli
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Faculté des sciences économique et gestion de Nabeul
Coupes efficaces pour la relaxation lagrangienne
Fiabilité des composants électroniques
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 Modèle pédagogique d’un système d’apprentissage (SA)
1 Notations Asymptotiques Et Complexité Notations asymptotiques : 0 et  Complexité des algorithmes Exemples de calcul de complexité.
Fadwa AMRI Fanny COUTURIER Virginie ROMAIN.
1. Présentation générale du système
1 28 mai 2002Jean GARNIER CCT Composants Séminaire CAN CARACTERISATION ELECTRIQUE DES CONVERTISSEURS ANALOGIQUE/NUMERIQUE.
1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )
Prédiction de Jeu dans un Assemblage - Application au Calage
Algorithmique et programmation (1)‏
Méthodes de décomposition de domaine pour la formulation mixte duale du problème critique de la diffusion des neutrons Pierre Guérin
Transcription de la présentation:

Lille, France – 02/12/2009 Journées CIGIL Utilisation de GPUs et du Cell pour des calculs de neutronique : performances et précision Jérôme Dubois, Serge Petiton, Christophe Calvin CEA Saclay – DEN/DANS/DM2S/SERMA/LLPR University of Lille 1 – LIFL/MAP 02/12/09

Outline Motivations Caractéristiques principales Méthodes de Krylov: Arnoldi et ERAM Précision pour une itération d’Arnoldi Performances et impact de la precision pour ERAM : Arnoldi itéré 02/12/09

Motivations Champs d’application : simulation de coeur de réacteur, neutronique Objectif : MINOS détermine le k-effective ratio + autres données Data : Matrices creuses et larges jeux de données (Goctets) Intensité des calculs : transposition de matrice + résolution de système Speed-ups : 15x avec Tesla, 5x with Quadro GPU 02/12/09

Caractéristiques principales(1)‏ Meilleure performance crête : ~1-10x (vs Nehalem 8 cores) Meilleure bande passante mémoire : ~1-20x 02/12/09

Caractéristiques principales(2)‏ Norme IEEE admise Processeur Cell : 8 SPEs non complètement IEEE en SP : No multiple rounding modes Exception handled by saturation (NaN, inf, ...)‏ 8 SPEs complètement IEEE en DP GPU : Proche de la norme IEEE Mais pas complètement en SP & DP : FMAD result truncated IEEE exceptions handled differently 02/12/09

Algorithme de la méthode d’Arnoldi Input : ANxN, v0 Output : VNxm, Hm+1xm, λ1, ..., λm, R1, ..., Rm> Calculer m produits matrice vecteur, + opérations BLAS 1 pour obtenir : V* A V = H Avec H Hessenberg et V orthogonale Calculer les valeurs propres intéressantes dans H Projeter les vecteurs propres associés de l’espace de H dans l’espace de A Estimation de l’erreur 02/12/09

Principe de la méthode ERAM Contrainte : la taille de V est N x m Solution : Faire itérer la méthode d’Arnoldi dans un plus petit sous-espace Explicitly Restarted Arnoldi Method (ERAM)‏ Algorithme : Tant que error > tolerance Faire une itération d’Arnoldi Si nécessaire, redémarrer la méthode avec un nouveau vecteur initial construit avec une combinaison des vecteurs de Ritz calculés dans Arnoldi 02/12/09

Méthode d’Arnoldi Orthogonolisation et calcul de vp dominante (Hilbert matrix) 02/12/09

Précision atteinte pour l’orthogonalisation Arnoldi CGS : orthogonal basis‏ 02/12/09

Précision atteinte pour l’orthogonalisation Arnoldi CGS with reorthogonalization : orthogonal basis‏ 02/12/09

Influence sur la valeur propre dominante calculée Une itération de la méthode d’Arnoldi sur une matrice d’Hilbert d’ordre 10240 avec une taille de sous-espace de 8 : GPU proche du CPU Le Cell est 500-600x moins précis que le GPU en SP En DP, le Cell et le CPU calculent le même résultat. Celui du GPU diffère de 4.10-15 02/12/09

ERAM Méthode d’Arnoldi itérée (Hilbert & DingDong matrices) 02/12/09

Impact sur le nombre d’itérations, SP (cas facile)‏ ERAM : Hilbert matrix, SP, tolerance ε= 10-8. Tests on a Quadro GPU. 02/12/09

Impact sur le temps de calcul, SP (cas facile)‏ ERAM : Hilbert matrix in SP, ε= 10-8. Speed-up = 8x with Quadro GPU 02/12/09

Impact sur le nombre d’itérations, DP (cas facile)‏ Same number of iterations between CPU and GPU (Tesla) in DP Mean speed-up of 17x between CPU and Tesla GPU, with an error of 3.10-15 02/12/09

Impact sur le nombre d’itérations (cas sensible)‏ ERAM : DingDong matrix, SP , stop at ε= 10-8. Tests on Tesla GPU. 02/12/09

Impact sur le temps de calcul, SP (cas sensible)‏ ERAM : DingDong matrix, SP, ε= 10-8. Mean speed-up = 16x on Tesla 02/12/09

Impact sur la précision, SP (cas sensible)‏ ERAM : DingDong matrix, SP, ε= 10-8. 02/12/09

Conclusion Le GPU et le Cell peuvent améliorer la performance : Cell : 10x, SP ou DP GPU : 10-20x, SP ou DP Proche du speed-up obtenu avec le solveur Minos Impact sur le résultat: SP : Erreur de 10-6 à 10-5 for GPU, 10-4 à 10-3 pour le Cell en SP Le nombre d’itérations varie fortement avec un cas sensible DP : Résultat du Cell et du CPU identique GPU est proche du CPU avec une erreur de 10-15 02/12/09

Evolutions futures Nouveau modèle de GPU GT300/Fermi : Mémoire ECC (Error-Correcting Code) Respect complet de la norme IEEE-2008 Adressage mémoire 64 bits, cartes de 6Go prévues, ->1To! Ajout de caches L1 et L2 Support natif du C++ Puissance en DP multipliée par 8x : ~125 GFLOPs -> ~1TFLOPs Puissance SP multipliée par 2x : ~1TFLOPs -> 2TFLOPs 02/12/09

Merci pour votre attention ! Utilisation de GPUs et du Cell pour des calculs de neutronique : performances and precision Merci pour votre attention ! 02/12/09