La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP 02/12/09 Utilisation de GPUs et du Cell pour des calculs de neutronique : performances et précision Jérôme.

Présentations similaires


Présentation au sujet: "1 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP 02/12/09 Utilisation de GPUs et du Cell pour des calculs de neutronique : performances et précision Jérôme."— Transcription de la présentation:

1 1 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP 02/12/09 Utilisation de GPUs et du Cell pour des calculs de neutronique : performances et précision Jérôme Dubois, Serge Petiton, Christophe Calvin CEA Saclay – DEN/DANS/DM2S/SERMA/LLPR University of Lille 1 – LIFL/MAP Lille, France – 02/12/2009 Journées CIGIL

2 2 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP 02/12/09 Outline Motivations Caractéristiques principales Méthodes de Krylov: Arnoldi et ERAM Précision pour une itération dArnoldi Performances et impact de la precision pour ERAM : Arnoldi itéré

3 3 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Motivations Champs dapplication : simulation de coeur de réacteur, neutronique Objectif : MINOS détermine le k-effective ratio + autres données Data : Matrices creuses et larges jeux de données (Goctets) Intensité des calculs : transposition de matrice + résolution de système Speed-ups : 15x avec Tesla, 5x with Quadro GPU 02/12/09

4 4 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Caractéristiques principales(1) Meilleure performance crête : ~1-10x (vs Nehalem 8 cores) Meilleure bande passante mémoire : ~1-20x 02/12/09

5 5 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Caractéristiques principales(2) Norme IEEE admise Processeur Cell : – 8 SPEs non complètement IEEE en SP : No multiple rounding modes Exception handled by saturation (NaN, inf,...) – 8 SPEs complètement IEEE en DP GPU : – Proche de la norme IEEE – Mais pas complètement en SP & DP : FMAD result truncated IEEE exceptions handled differently 02/12/09

6 6 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Algorithme : – Input : A NxN, v 0 – Output : V Nxm, H m+1xm, λ 1,..., λ m, R 1,..., R m> – Calculer m produits matrice vecteur, + opérations BLAS 1 pour obtenir : V* A V = H Avec H Hessenberg et V orthogonale – Calculer les valeurs propres intéressantes dans H – Projeter les vecteurs propres associés de lespace de H dans lespace de A – Estimation de lerreur Algorithme de la méthode dArnoldi 02/12/09

7 7 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Contrainte : la taille de V est N x m Solution : – Faire itérer la méthode dArnoldi dans un plus petit sous-espace – Explicitly Restarted Arnoldi Method (ERAM) Algorithme : – Tant que error > tolerance Faire une itération dArnoldi Si nécessaire, redémarrer la méthode avec un nouveau vecteur initial construit avec une combinaison des vecteurs de Ritz calculés dans Arnoldi Principe de la méthode ERAM 02/12/09

8 8 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Méthode dArnoldi Orthogonolisation et calcul de vp dominante (Hilbert matrix) 02/12/09

9 9 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Précision atteinte pour lorthogonalisation Arnoldi CGS : orthogonal basis 02/12/09

10 10 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Précision atteinte pour lorthogonalisation Arnoldi CGS with reorthogonalization : orthogonal basis 02/12/09

11 11 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Une itération de la méthode dArnoldi sur une matrice dHilbert dordre avec une taille de sous-espace de 8 : GPU proche du CPU Le Cell est x moins précis que le GPU en SP En DP, le Cell et le CPU calculent le même résultat. Celui du GPU diffère de Influence sur la valeur propre dominante calculée 02/12/09

12 12 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP ERAM Méthode dArnoldi itérée (Hilbert & DingDong matrices) 02/12/09

13 13 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP ERAM : Hilbert matrix, SP, tolerance ε= Tests on a Quadro GPU. Impact sur le nombre ditérations, SP (cas facile) 02/12/09

14 14 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP ERAM : Hilbert matrix in SP, ε= Speed-up = 8x with Quadro GPU Impact sur le temps de calcul, SP (cas facile) 02/12/09

15 15 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Same number of iterations between CPU and GPU (Tesla) in DP Mean speed-up of 17x between CPU and Tesla GPU, with an error of Impact sur le nombre ditérations, DP (cas facile) 02/12/09

16 16 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP ERAM : DingDong matrix, SP, stop at ε= Tests on Tesla GPU. Impact sur le nombre ditérations (cas sensible) 02/12/09

17 17 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP ERAM : DingDong matrix, SP, ε= Mean speed-up = 16x on Tesla Impact sur le temps de calcul, SP (cas sensible) 02/12/09

18 18 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP ERAM : DingDong matrix, SP, ε= Impact sur la précision, SP (cas sensible) 02/12/09

19 19 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Le GPU et le Cell peuvent améliorer la performance : Cell : 10x, SP ou DP GPU : 10-20x, SP ou DP Proche du speed-up obtenu avec le solveur Minos Impact sur le résultat: SP : Erreur de à for GPU, à pour le Cell en SP Le nombre ditérations varie fortement avec un cas sensible DP : Résultat du Cell et du CPU identique GPU est proche du CPU avec une erreur de Conclusion 02/12/09

20 20 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Nouveau modèle de GPU GT300/Fermi : Mémoire ECC (Error-Correcting Code) Respect complet de la norme IEEE-2008 Adressage mémoire 64 bits, cartes de 6Go prévues, ->1To! Ajout de caches L1 et L2 Support natif du C++ Puissance en DP multipliée par 8x : ~125 GFLOPs -> ~1TFLOPs Puissance SP multipliée par 2x : ~1TFLOPs -> 2TFLOPs Evolutions futures 02/12/09

21 21 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP Utilisation de GPUs et du Cell pour des calculs de neutronique : performances and precision Merci pour votre attention ! 02/12/09


Télécharger ppt "1 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP 02/12/09 Utilisation de GPUs et du Cell pour des calculs de neutronique : performances et précision Jérôme."

Présentations similaires


Annonces Google