La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié

Présentations similaires


Présentation au sujet: "Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié"— Transcription de la présentation:

1 Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié par maximum de vraisemblance dans le cas univarié 1/42

2 Les mélanges gaussiens par lexemple Etudes cliniques :Dosage de globules blancs dans le sang des patients Pour des individus sains, la distribution est gaussienne de moyenne 0 connue Pour certaines maladies, le nombre de globules blancs augmente La variance des observations est commune et connue Deux hypothèses : H1H1 H0H0 Les individus analysés sont sains Certains individus sont malades Le nombre de globule blanc suit une loi normale Le nombre de globules blancs suit une loi de mélange 2/42

3 Problématique Ayant observé un échantillon Comment faire un choix entre les deux hypothèses ? Quelle confiance dans le résultat ? Comment repérer les individus malades ? Théorie des tests statistiques Approche classificatrice Pour dautres maladies, le taux de globules diminue Peut on caractériser les maladies ? Les repérer, les compter ? Détection du nombre de composants 3/42

4 Et en multivarié ? Images détoile double prises au pic du midi Quelle est la probabilité davoir observé une étoile double ? 4/42

5 On souhaite analyser des données supposées Indépendantes, provenant dun mélange gaussien à k composants de densité : Nombre de composants Estimation des paramètres Objectifs de linférence : Première utilisation dun modèle de mélange : Karl Pearson (1894) Utilisation de plus en plus large : 50% des publications postérieures à 1995 Très nombreuses applications pratiques, en univarié comme en multivarié Thème général : Les mélanges gaussiens 5/42

6 Notion didentifiabilité Le mélange est invariant sous les k! permutations des paramètres La vraisemblance possède donc k! modes Solution classique : imposer une condition dordre comme ou Conditions non utilisées dans cette thèse 6/42

7 PLAN PARTIE 1 : Test dhomogéneité contre mélange simple dans le cas général PARTIE 2 : Méthodes de Monte Carlo par chaînes de Markov Test du rapport des maximums de vraisemblance Log-vraisemblance modifiée Application aux mélanges sur les variances Tabulations Méthodes de Monte Carlo par chaînes de Markov Illustrations Le problème du « label switching » Modélisation bayésienne des modèles à dimension variable Choix des lois a priori La méthode MCMC à sauts réversibles Lalgorithme Le mouvement de séparation Simulations PARTIE 3 : RJMCMC appliqué au mélanges gaussiens multivariés 7/42

8 PARTIE 1 Test dhomogéneité contre mélange simple dans le cas général 8/42

9 Ce type de problème a été étudié par de nombreux auteurs : Approche adoptée : Résoudre ce problème dans le cas général de manière simple en recherchant des hypothèses minimales sur la densité g Chen & Chen (2001) Garel (2001) Lemdani & Pons (1999) Dacunha- Castelle & Gassiat (1997) Retour à lexemple introductif Homogéneité :Mélange simple : H1H1 H0H0 9/42

10 La statistique de test est : Avec : Test du rapport des maximums de vraisemblance on peut écrire la Log-vraisemblance de la façon suivante Avec : et 10/42

11 On utilise une Log vraisemblance modifiée Le sup de : est atteint pour cest-à-dire sur des ensembles de la forme : : Zone où la vraisemblance est maximale 11/42 p a a

12 Retour à la Log-vraisemblance originale Selon Redner(1981), la vraisemblance atteint son maximum sur un voisinage de lhypothèse nulle, cest-à-dire : On se ramène à des ensembles de la forme sur lesquels on montre que : On peut donc utiliser le maximum de la vraisemblance modifiée qui sécrit : 12/42

13 En faisant certaines hypothèses simples sur la loi g (régularité, intégrabilité) on obtient le résultat suivant : 13/42

14 Application aux mélanges gaussiens sur les variances Le théorème précédent sapplique avec : et : Poursuite dun travail initié par Goussanou (2001) On montre que les hypothèses nécessaires sont vérifiées H1H1 H0H0 14/42

15 converge versDe plus, où est un processus gaussien centré de variance 1 et de même fonction dautocovariance que avec et On est donc en mesure deffectuer les tabulations de ce test dans ce cas particulier 15/42

16 Davies (1977) : Tabulations Connaissant, on souhaite calculer u tel que : On ne dispose que de avec où est la fonction dautocovariance du processus. Delmas (2001) : 16/42

17 Les valeurs critiques pour un niveau fixé seront solutions de Le terme est très complexe (Delmas (2001)) et conduit à de nombreuses instabilités numériques DL de 17/42

18 PARTIE 2 Méthodes de Monte Carlo par Chaînes de Markov et « label switching » 18/42

19 De plus, les méthodes classiques de maximisation ne réussissent généralement pas à trouver le maximum global de la vraisemblance à cause de la multimodalité (identifiabilité). Même des modèles simples peuvent mener à des calculs très complexes La vraisemblance dun mélange gaussien à k composants possède k n termes, ce qui rend son calcul prohibitif pour de grands échantillons Permettent de résoudre des problèmes doptimisation (liés à la vraisemblance) comme des problèmes dintégration (fréquents en statistique bayesienne) Méthodes de Monte Carlo par chaînes de Markov 19/42

20 Méthodes de Monte Carlo par Chaînes de Markov Objectif de lintégration par MCMC : générer un échantillon distribué selon, la loi de Y et approximer par : On a Un exemple, lalgorithme de Metropolis Hastings 20/42

21 MCMC et méthodes bayesiennes Dans un cadre bayésien, linformation apportée par les données y 1,…,y n réalisations dune v.a., combinée avec une information a priori sur le paramètre (donnée par la densité ) est résumée par la loi a posteriori avec Les méthodes MCMC sont ici utilisées pour simuler des lois a posteriori 21/42

22 Le problème du « label switching » /42

23 Un exemple On génère un échantillon de densité : 4000 itérations de lalgorithme de Gibbs nous donnent le résultat suivant : 23/42

24 Des solutions existent Stephens (2000) : Un algorithme de type k-means avec k! classes correspondant aux k! façons dordonner les composants du mélange Celeux (1998) : Comparable à une version séquentielle de lalgorithme des k-means dont les centres sont déterminés par les m premières itérations. 24/42

25 PARTIE 3 Méthode de Monte Carlo par chaînes de Markov à sauts réversibles appliquée aux mélanges gaussiens multivariés Généralisation multidimensionnelle de Richardson & Green (1997) 25/42

26 Choix de modèles Le nombre de composants k représente la dimension du modèle associés La densité dun mélange gaussien multivarié sécrit avec : choisirparmi Objectif : 26/42

27 Modélisation bayésienne des modèles à dimension variable On sintéresse à la loi a posteriori de « One of the things we do not know is the number of things we do not know » Peter Green 27/42 Loi a priori sur Vraisemblance

28 Second problème :K! modes dans la vraisemblance ET DONC dans Phénomène de « label switching » dans les simulations Premier problème :ne peut être obtenue analytiquement Utilisation de méthodes de type MCMC Modèle hiérarchique On introduit le modèle à données manquantes Chaque donnée y i provient dun des composants du mélange y i est associée à une variable indicatrice telle que 28/42

29 Choix des lois a priori Inspirés par Richardson & Green (1997) et Stephens (2000) A priori sur le nombre de composants : A priori sur les moyennes et les variances : Attention ! Les lois a priori impropres sont prohibées Risque de composants videsLoi a posteriori impropre indépendants et faiblement informatifs { loi de Poisson tronquée à 29/42

30 Richardson & Green (1997)Stephens (2000) R = amplitude de variation des données 30/42

31 Graphe acyclique ordonné 31/42

32 La méthode MCMC à sauts réversibles Soit la variable aléatoire de réalisation Sauts réversibles entre espaces différents 32/42 On génère une chaîne de Markov sur se déplaçant de vers Si : mouvement de Gibbs classique Si : changement de dimension !

33 On définit un difféomorphisme avec (réversibilité) Transition de vers Pour se déplacer de vers, nous devons compléter ces espaces pour se ramener à une dimension commune 33/42

34 Applications permettant de changer de dimension est généré selon la densité 34/42

35 Le nouvel état proposé est Il est alors accepté avec la probabilité : cest-à-dire : la probabilité de tenter un déplacement de vers : la probabilité de tenter un déplacement de vers Rapport des lois a priori du nombre de composants Rapport des lois a priori sur les paramètres Rapport des vraisemblances : jacobien de la transformation 35/42

36 Lalgorithme 1. 2.Mise à jour de 3.Mise à jour des 4.Mise à jour des allocations 5.Mise à jour de lhyperparamètre 6. Avec probabilité ½ essayer de séparer un composant Avec probabilité ½ essayer de combiner deux composants Avec probabilité ½ essayer de faire naître un composant Avec probabilité ½ essayer de tuer un composant { { 36/42

37 Le mouvement de Séparation Proposer un nouveau jeu de paramètres aussi bien supporté par les données que le précédent Garantir la définie positivité des nouvelles matrices de variance Conserver les moments jusquà lordre 2 Utiliser la décomposition de Cholesky 37/42

38 Le changement de variable proposé est le suivant : de jacobien :J = Pour r = 1 J = à comparer avec celui de Richardson & Green (1997) 38/42

39 Simulations Nous avons généré léchantillon bivarié suivant : Estimation à noyau de la densité Données générées 39/42

40 =1 =2 =3 =4 Evolution du nombre de composants au cours des itérations Loi a posteriori associée Nombre de composants a posteriori Paramètre a priori pour le nombre de composants : 40/42

41 =1 =2 =3 =4 Evolution du nombre de composants au cours des itérations Loi a posteriori associée Nombre de composants a posteriori pour les données réelles « geyser » 41/42

42 Conclusion Algorithme complexe Nécessitant un très grand nombre ditérations Estimation du nombre de composants prometteuse Nécessité dune étude plus approfondie (convergence, « label switching » …) Programmer avec un langage compilé et effectuer un très grand nombre ditérations Envisager dautres solutions au « label switching » (fonctions de coûts « label free ») Envisager dautres types de mouvements (condition sur les moments non nécessaire) Utiliser une paramétrisation des matrices de variance


Télécharger ppt "Identification du nombre de composants dun mélange gaussien Sous la direction de Bernard Garel par chaînes de Markov à sauts réversibles dans le cas multivarié"

Présentations similaires


Annonces Google