C ompute U nified D evice A rchitecture Présentation d’un Template simple pour une méthode de Monte-Carlo en finance Présentation au GT GPU Laboratoire.

Slides:



Advertisements
Présentations similaires
1 Bases de donn é es relationnelles. 2 Introduction au mod è le relationnel les donn é es sont repr é sent é es par des tables, sans pr é juger de la.
Advertisements

CARDIE.
Simulation d’un processus de Poisson
L’Audio sur PC Comparaison Numérique vs Analogique Comparaison Audio sur PC vs Hardware dédié (DSP) Rmq: beaucoup de simulitudes avec la vidéo, mais débit.
Cas OTT Comment faire accepter le projet des 300 secondes? CALANDE Benoît CHAYRIGUES Laëtitia DUMONT Juliette MEURZEC Erwan ULRICH François.
Les études descriptives J. Ateudjieu J Ateudjieu. Cours Epiconc Master's Epi et SP Université de Dschang.Fev
Apprentissage automatique L’apprentissage automatique.
1 Comment préparer un plan Document No. 2.1 Gestion des activités conjointes de lutte contre la tuberculose et le VIH: cours de formation pour responsables.
JI Les systèmes d’autorisation et d’authentification dans AMI Fabian Lambert.
ABF Améliorer nos formations pour une microfinance plus sociale.
FACTORY systemes Module 1 Section 2 Page 1-7 Introduction InSQL FORMATION InSQL 7.1.
TP2: Statistique & Probabilité Intervalle de confiance et test d’hypothèses.
1 TECHNOLOGIE EN SEGPA Objets techniques instrumentés, didactisés et maquettisés que préconisent les nouveaux programmes Stage 10SEGDES2 du 14 et 15 décembre.
Mediator 9 - Un outil de développement multimédia 3AC Techno/Informatique.
Développement d’application avec base de données Semaine 3 : Modifications avec Entité Framework Automne 2015.
ASR5 Système pour architectures multicœurs CSC5001 : Systèmes Hautes Performances Architecte de Services informatiques Répartis Gaël Thomas
MSN 21 Représenter des figures planes à l’aide de croquis (triangle, carré, rectangle, cercle) Le croquis est à considérer comme support de réflexion Reconnaître.
Les outils de tests 1 1 CHAKI Abderrazak - ETIENNE Jonathan - TOUMI Nacereddine - VACHER Nicolas.
Étapes pour la Programmation du 68HC11 I. Écriture du programme dans un fichier *.a11 II. Le programme est compilé (traduit en langage machine) III. Le.
1 Les bases de données Séance 7 Les fonctions avancées : Opérateurs ensemblistes, Sous-requêtes et transactions.
La Nouvelle Économie Quantique de l’Être
Développement d’application avec base de données Semaine 8 : WPF avec Entité Framework Automne 2015.
Chapitre 4 Gestion des disques Module S41. Plan du cours 1. Utilisation de l'outil Gestion des disques 2. Utilisation des disques de base 3. Utilisation.
1 Initiation à la micro-informatique Le matériel CFPPA d’AUXERRE La Brosse Réalisation : Gilles BERDAL 2005 un clic pour la suite… L’Unité Centrale.
FACTORY systemes Module 5 Page 5-1 Les outils clients Wonderware FORMATION InSQL 7.0.
1 Les logiciels en général sont classés en deux familles:  Logiciels de base  Logiciels d’applications (applications) 2.
Initiation aux bases de données et à la programmation événementielle Outil de création des tables Support de TD rédigé par Bernard COFFIN Université Paris.
Projet Personnel (Epreuve 6) Projet réalisé dans le cadre de mon épreuve E6 au sein de mon alternance au conseil départemental du val de marne Arnaud PICANO.
Groupe de travail : Claire BRENEUR, Christelle GEORGET, Nathalie JACQUES, Régis BARDOULAT, Michael DESCOTTES, Frédéric GAUTHIER, Nicolas GIRAUD, Benoit.
Migration Plan adressage EPLE Migration Plan d'adressage EPLE.
« Construction de la mixité (garçons/filles et hommes/femmes) dans les projets d’éducation, insertion, prévention, vie civile, animations et loisirs »
Management  Définitions  Catégories  Compétences  Étapes  Évaluation de la performance  9 Responsabilités  Habiletés personnelles  Pyramide - organigramme.
Automates Programmables Industriels ( ITEEM 2004 ) I.T.E.E.M de BEAULIEU Enseignante : Mme RECHID CHAPITRE 7 Le Logiciel PL7 Présentation - Ergonomie Les.
Les méthodes de tests Les grands principes pour réaliser des tests efficaces.
Un outil spécifique à Moodle pour le calcul des indicateurs d’interaction Présenté par : Tarek DJOUAD Laboratoire LIRIS, Lyon1 Équipe SILEX
Enabling innovation in construction 1 Topic Training Fondations Irca Schepers Customer Service Engineer.
Introduction à la Programmation Orientée Objet H.GATI.
1 Journées Scientifiques novembre 2003 MoMaS EDF Electricité de France Multi Domaines Simulation Multi Domaines Laurent Loth - Andra.
Chapitre 2 Variables aléatoires 1. Variables aléatoires : définition Résultat d’une expérience dont l’issue est multiple (VARIABLE) et imprévisible (ALÉATOIRE)
Chapitre 6 Les tests d ’ hypoth è se 2 – Les tests du  2 (chi 2)
Jobs multicore dans WLCG Présentation en partie basée sur des présentations faites dans le cadre du groupe de travail multicore.
Rappel de la méthode :  Choisir un Etat de la technique le plus proche.  Définir le problème technique à résoudre à partir de cet Etat de la technique.
Eric Fede - 1 GESTION DES PRIORITES SUR LA GRILLE.
Chapitre 5 Interprétation des données d’enquête 1.
Chapitre IV Architecture de VonNeumann. I/ Introduction John VonNeumann est un mathématicien d’origine Hongroise qui a participé au projet Manhattan.
Chapitre 2 Résolution de Programmes Linéaires. La méthode graphique Cette méthode est simple et s’applique à des problèmes de programmation linéaire à.
CSI 3531 Systèmes d’exploitation Nathalie Japkowicz 1.
Human Task Service (2008) Oscar Barrios et François Charoy Human Task Service Service de tâches dans un système de gestion de workflow Oscar Barrios
On the analysis of CMMN expressiveness: revisiting workflow patterns Renata Carvalho Hafedh Mili.
« crédits bancaires octroyés aux PME Gabonaises en 2012 et 2013 Difficultés rencontrées solutions préconisées » 1.
Comment développer sa poitrine naturellement. Je n'avais pas beaucoup de solutions. En plus je risquais de perdre mon petit ami de l'époque que j'aimais.
Informatique 1A Langage C 6 ème séance 1. Objectifs de la séance 6  Allocation dynamique de mémoire  Application à la création de tableaux 2.
Informatique 2A Langage C 3 ème séance.
1 PRESENTATION DU PROJET NTIC - SERMM. 2 SERMM Fondée en personnes, 6,9 M€ Spécialisée dans l’usinage, la soudure de pièces en métaux difficiles.
La spécialité mathématique en TS. Les mathématiques sont une science qui se construit elle-même grâce à la démonstration. Axiomes et définitions Théorèmes.
Présenté par  Samira BELHORMA  Imane ZEHHAF. Introduction I. Définitions II. Quand et comment évaluer une compétence? III. Le contexte d’évaluation.
 a été réalisé et optimisé pour Microsoft Office PowerPoint L’utilisation d’une version inférieure supprime les effets visuels.  correspond aux.
Les applications O.Legrand G. Seront. Les applications Chaque application a son Linux.
Universit é Mohamed Kheider de Biskra Facult é de science et technologie D é partement de g é nie é lectrique Sp é cialit é : t é l é communication Le.
Régression linéaire (STT-2400) Section 3 Préliminaires, Partie II, La loi multinormale Version: 8 février 2007.
Profile Likelihood Une petite revue succincte. Petite citation a méditer… « a probability of 1 in is almost impossible to estimate » R. P.
1 UNIX AVANCE Yves PAGNOTTE – Janvier – PROCESSUS ET RESSOURCES.
Chapitre 5 Interprétation des données d’enquête 1.
Ecole Informatique 2010 La Programmation des Architectures Multi-cœurs Cécile Barbier Fatih Bellachia Alain Masserot.
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
Un projet pour tous, un engagement pour chacun Cette épreuve de « compte est bon » permet à tous les élèves, quel que soit leur compétence, de participer.
GPU sous LabVIEW eTIG_OOP_ Plan de la présentation 1.Frameworks OOP référencés 2.Performances d’accés 3.Performances de compilation 4.Erreurs.
Persistance des données O.Legrand. Persistance developer.android.com/guide/topics/data/data-storage.htmll Plusieurs moyens sur le mobile: –Système de.
Transcription de la présentation:

C ompute U nified D evice A rchitecture Présentation d’un Template simple pour une méthode de Monte-Carlo en finance Présentation au GT GPU Laboratoire Jacques-Louis Lions Hugues Henri Liniger, le 28 mai 2009

plan Présentation de CUDA - point de vue matériel - point de vue logiciel Présentation Template utilisé - contraintes - mise en œuvre Résultats des tests - exemples d’évaluations - Core Ghz vs 285gtx Limites rencontrées - Il semble qu’on ne peut pas tout faire.

Petit historique GPGPU 90’s, utilisation du câblage spécifique ( zbuffer, rasterizer) des GPU pour des problèmes de chemins optimaux et de diagrammes de Voronoï. Problème! 2 mondes et 2 langages: Les experts GPU et les chercheurs désirant tiré parti de cette architecture parallèle. Là où un programmeur 3D parle de shader, de texture ou de fragment un adepte de la programmation parallèle parle de stream, de kernel, de scatter ou de gather. La première difficulté consiste donc à trouver des analogies entre deux mondes distincts : – un stream - flux d’éléments de même type - peut être représenté sur le GPU par une texture. En langages de programmation classiques ce n’est rien d’autre qu’un tableau. – un kernel, ou noyau est le programme qui va être appliqué à chaque élément du flux, c’est le pixel shader. Conceptuellement c’est la boucle interne d’un programme classique – pour lire le résultat de l’application d’un kernel sur un stream il faut effectuer un rendu dans une texture. Evidemment il n’y a pas d’équivalent sur un CPU qui a un accès total à la mémoire. – pour contrôler l’endroit où l’on souhaite écrire en mémoire (scatter) il faut le faire dans un vertex shader car un pixel shader ne peut modifier les coordonnées du pixel en cours de traitement – … 2000’s, apparition de BrookGPU, presenté comme « C with Streams ». BrookGPU utilise les 2 API graphiques de l’époque: Direct3D et openGL pour transformer le GPU en coprocesseur parallèle. Brook est l’ensemble d’un compilateur C++ pour les.br, et un ensemble de librairie liant le code aux drivers des API 3D et CPU ( DX9, Open GL, et x86) Les gros problèmes de Brook viennent d’une compatibilité remise en cause à chaque fois que les drivers de GPU sont mis à jours, et d’un grand nombre de couche d’abstraction ralentissant forcement le travail. Non utilisable de manière professionnel dans l’état.

2000: Nvidia acquière 3dfx (connaissance multi GPU, SLI..), et une partie des chercheurs de brook intègrent Nvidia. Les autres seront acheter par AMD/ATI pour créer Brook+ ( ATI Stream aujourd’hui) Objectif: se passer de l’API 3D. Petit historique GPGPU Schéma de fonctionnement de BrookSchéma de fonctionnement de CUDA

Présentation de CUDA 1/ définitions & point de vue matériel Langage propriétaire Nvidia. Utilisation du GPU comme d’un ensemble de coprocesseurs massivement paralléle. Terminologie propre au monde GPGPU nvidia. – Thread : un thread en CUDA consiste en un élément de base des données à traiter. – Warp : un warp est un ensemble de 32 threads, il s'agit de la taille minimale des données traitées de façon SIMD par un multiprocesseur. Mais cette granularité n'est toujours pas suffisante pour être facilement utilisable par un programmeur, ainsi en CUDA on ne manipule pas directement des warps, on travaille avec des blocs. – Bloc : un bloc peut contenir de 64 à 512 threads. Enfin ces blocs sont réunis dans des Grilles. – Kernel : un kernel ou noyau de programmation peut être vu comme une fonction appliquée à un ensemble de données subdivisé en blocs. Le nombre de blocs traités simultanément par le GPU est intimement lié aux ressources du hardware comme nous le verrons plus loin. Ainsi, le modèle de programmation en CUDA peut paraître simple : il considère une grille composée d'un ensemble de blocs qui exécutent simultanément des threads. Le nombre de blocs dans une grille permet d’abstraire totalement cette contrainte et d’appliquer un kernel à une grande quantité de threads en un seul appel, sans se soucier de ressources fixées. Le runtime CUDA se charge de décomposer le tout pour nous. Ce modèle est ainsi extrêmement extensible : si un hardware a peu de ressources il exécute les blocs séquentiellement, à l’inverse s’il dispose d’un très grand nombre d’unités il peut les traiter en parallèle. Le même code permet donc de cibler à la fois les GPU d’entrée de gamme, les GPU haut de gamme voire les GPU futurs.

Modèle de programmation en CUDA Présentation de CUDA 1/ point de vue matériel Exécuté par un unique multiprocesseur Partagé par tous les threads d’un bloc. Propriété pouvant être utile pour certain calcul.

une carte graphique Nvidia peut être vu comme une grosse unité de calcul divisée en un ensemble de microprocesseurs au niveau desquels les instructions sont exécutées par groupes de warps à travers des processeurs généraux. Présentation de CUDA 1/point de vue matériel Architecture GPU Nvidia 16 multiprocesseurs pour les G80/92, 30 pour G200 de 8 UAL Les multiprocesseurs disposent de 8192 registres, peuvent accepter jusqu’à 8 blocs actifs en même temps. Le nombre de Wrap actifs est lui limité à 24 (768 threads) optimiser un programme CUDA consiste donc essentiellement à équilibrer au mieux le nombre de blocs et leurs tailles : plus de threads par blocs s'avère utile pour mieux masquer la latence des opérations mémoires mais d'un autre côté cela diminue le nombre de registres disponibles par threads Remarque: on voit que des blocs de 512 threads seraient inefficaces ( 256 ou 128 c’est mieux)

Quelques extensions au langage C – qualificateurs s'appliquant aux fonctions _GLOBAL_ : placé devant une fonction indique que celle-ci est un kernel _DEVICE_ : désigne une fonction exécutée par le GPU appelée à partir du GPU (i.e. depuis une fonction _DEVICE_ ou _GLOBAL_). _HOST_ : optionnel, il désigne fonction traditionnelle – qualificateurs s'appliquant à la mémoire _SHARED_: indique que la variable sera dans la Shared Memory du bloc Présentation de CUDA 2/point de vue logiciel Une fonction sur GPU est de type Void, et ne peux gérer de mémoire globale. Une fonction __GLOBAL__ est appelée en précisant la configuration de son exécution. Concrètement le nombre de Grilles ( facultatif), Blocs et Threads.

Une bonne connaissance de l’architecture semble requise pour le choix du nombre de grilles, blocs et Threads. Les fonctions GPU ne gèrent pas la mémoire globale – le compilateur ne le sais pas forcement… Une simulation de Monte-Carlo est volumineuse, et la mémoire GPU limitée. Les allers retours mémoire système, mémoire GPU sont à proscrire. L’utilisation de Double est 8x plus lente que l’utilisation de Float. Calcul virgule flottante IEEE 754 uniquement à partir de génération G200. Pas de nombres aléatoires sur GPU. Présentation du Template 1/ Les contraintes

Problème des nombres aléatoires. – Génération de nombres pseudo aléatoire ( Monte Carlo), ou quasi-aléatoires avec des suites à discrépance faible (Quazi Monte Carlo)? Utilisation de Mersenne Twister ( déjà 4x plus rapide que rand() en C) qui est parallélisé par Nvidia ( code incomplet dans le SDK!). MT passe avec succès l’ensemble des tests d’uniformité et de non corrélation des packages DIE HARD et DIE HARDER – ce n’est pas le cas de rand(). Utilisation de suites à discrépance faible multidimensionnelles. Ex: Halton, suite du tore, Sobol… – Intérêts des suites à discrépance faible. Pas besoin de code. Asymptotiquement meilleures que les suites pseudo aléatoire: Présentation du Template 2/ Mise en œuvre

Problème des nombres aléatoires – Inconvénients des suites à discrépance faible Difficile d’avoir un intervalle de confiance Dégradation des propretés avec la dimension. Ici la dimension c’est le nombre de pas de temps. regardons les corrélations entre dimensions n et n+1 pour Halton, suite du tore, et Sobol. Présentation du Template 2/ Mise en œuvre

Problème des nombres aléatoires – Inconvénients des suites à discrépance faible Difficile d’avoir un intervalle de confiance Dégradation des propretés avec la dimension. Ici la dimension c’est le nombre de pas de temps. Regardons une application du théorème avec f(X) = (x Xd ) / d, pour d dans [|1;200|], avec Halton, suite du tore, et Sobol: Présentation du Template 2/ Mise en œuvre

Problème des nombres aléatoires Mersenne twister – voir site officiel et papier de Victor Podlozhnyuk chez Nvidia. Dans mon code, il y a la fonction « vectrand » qui sort des variables aléatoires de loi U)0,1( et N(0,1), sous forme float ou Hexadécimal pour les tests DIE HARD et DIE HARDER. Mersenne twister s’améliore avec la taille de l’échantillon. En gros 200x plus rapide sur 285gtx que la même demande avec Rand() sur CPU nombres nombres Kurtosys 0.09, coef d’assymetrie 0.007, JB: 42Kurtosys 1, coef d’assymetrie -0.7, JB: 163 JB: 300 Présentation du Template 2/ Mise en œuvre

Limitation mémoire GPU – 1GO sur 285 GTX, déjà partiellement utilisée ( pas d’indication sur l’utilisation en cours) – Solution temporaire: ce limiter à 750MO de données… – Le volume requit peut être supérieur à 750 MO, utilisation de tableau de stockage de taille réduite dans le GPU. – Générer des SEEDS MT indépendantes. Schéma du modèle – Initialisation CUDA et MT : recherche de la carte, chargement des paramètres initiaux pour MT parallèle, démarrage d’un timer pour génération de SEEDS indépendantes – Calcul des besoins en mémoire pour répondre au problème – Création des tableaux sur GPU pour stockage des résultats réduits du problème. – Choix du nombre de blocs et threads ( limité le nombre de thread pour conserver suffisamment de registres, ne pas prendre trop de thread par bloc) – Découper le nombre de tests en morceaux requérant la mémoire limite, exécuter le premier morceau, sauver les résultats dans les tableau de stockage, nettoyer de la mémoire les données du premier morceau de test, etc. – Transfert des tableaux de stockage de résultats réduits sur mémoire centrale. – Traitement des données, et nettoyage mémoire. Présentation du Template 2/ Mise en œuvre

Résultats des tests 1/ exemple d’évaluations Réduction de variance: – Variables antithétiques – Variables de Contrôle : d’espérance nulle et, on peut optimiser avec Pour un call europeen on utilise la parité Call Put: et le paramètre minimisant est Cette variable de contrôle permet un recentrage, mais les formules du calcul de grecque par processus tangent et calcul de Malliavin changent un peu. ( voir compte rendu projet DEA) – Echantillonnage d’importance: C’est l’utilisation de la formule de changement de probabilité de Girsanov pour appliquer un drift permettant de centrer la diffusion sur les endroits ou il y a de l’information, c’est-à-dire dans la monnaie.

Comparaison des Schéma de discrétisation Euler / Mihlstein Euler ( naïf) : Mihlstein : Call 1 ans, spot 100, strike 100, risk free 5%, volatilité 20%, tests : Résultats des tests 1/ exemple d’évaluations

Calcul des Grecques du call – Différence finie à pas fixe choix de ε est compromis entre biais ( augmente avec ε ) et variance ( diminue avec ε ) – Différence finie à pas décroissant. ε devient une suite optimale. – Processus tangent: dérivation sous E du paramètre donné Il faut des pay off régulier Résultats des tests 1/ exemple d’évaluations

Calcul des Grecques du call – Malliavin – Propriétés: – Pour le call: Résultats des tests 1/ exemple d’évaluations

Comparons les méthodes Processus tangent et plus intéressant pour les pay-offs réguliers: pas d’erreur de discrétisation Malliavin a utilisé uniquement dans les cas ou on a pas le choix.

Pseudo Monte Carlo vs Quasi Monte Carlo – Sobol & Halton: convergence rapide, et pas besoin de recalculer les suites. Mais pas d’Intervalle de confiance simple, et mauvaise propriétés d’autocorrélation avec la dimension. – Pseudo Monte carlo: possibilité de donner des intervalles de confiance facilement. MT quasiment illimité en taille d’échantillon Résultats des tests 1/ Exemple d’utilisation

Utilisation de L’importance Sampling. – priçons un put 1 ans de strike 110, spot 100, volatilité 30% et taux sans risque 5%. on utilise un schéma d’Euler, avec 100 pas, et on indique la valeur selon là ou le drift nous emmène. Résultats des tests 1/ Exemple d’utilisation

Utilisation de L’algorithme proposé Résultats des tests 2/ CPU vs GPU

Tous doit être parallélisé, et évitons les transferts pendant le calcul – Calcul des moyennes sont CPU à 100%, et transfert à chaque fois que la mémoire est pleine: Résultats des tests 2/ CPU vs GPU

Tous doit être parallélisé, et évitons les transferts pendant le calcul – Calcul des moyennes sont CPU à 100%, et transfert à chaque fois que la mémoire est pleine Résultats des tests 2/ CPU vs GPU

Limites rencontrées Obligation technique de travailler avec des Floats Gestion de mémoire globale par GPU impossible – heureusement- mais gestion de Shared Memory inadaptée aux structure de données non standard. Pas de débuggeur réel. Pas de gestion des overflows: risque de plantage fréquent parce qu’on ne sait pas ce qu’il y a dans la mémoire graphique. Documentation sans doute non à jour: performance étrange entre CUDA1 et CUDA 2….

Remerciement & Liens Merci Victor Podlozhnyuk et Hyungon Ryu de Nvidia Utilitaires DIE HARD(ER): Informations Nvidia CUDA