La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Identification du nombre de composants

Présentations similaires


Présentation au sujet: "Identification du nombre de composants"— Transcription de la présentation:

1 Identification du nombre de composants
1/42 Identification du nombre de composants d’un mélange gaussien par maximum de vraisemblance dans le cas univarié par chaînes de Markov à sauts réversibles dans le cas multivarié Sous la direction de Bernard Garel

2 Les mélanges gaussiens par l’exemple
2/42 Etudes cliniques : Dosage de globules blancs dans le sang des patients Pour des individus sains, la distribution est gaussienne de moyenne 0 connue Pour certaines maladies, le nombre de globules blancs augmente Deux hypothèses : H1 H0 Les individus analysés sont sains Certains individus sont malades Le nombre de globule blanc suit une loi normale Le nombre de globules blancs suit une loi de mélange La variance des observations est commune et connue

3 Problématique Ayant observé un échantillon
3/42 Problématique Ayant observé un échantillon Comment faire un choix entre les deux hypothèses ? Quelle confiance dans le résultat ? Théorie des tests statistiques Comment repérer les individus malades ? Approche classificatrice Pour d’autres maladies, le taux de globules diminue Peut on caractériser les maladies ? Les repérer, les compter ? Détection du nombre de composants

4 Images d’étoile double prises au pic du midi
4/42 Et en multivarié ? Images d’étoile double prises au pic du midi Quelle est la probabilité d’avoir observé une étoile double ?

5 Thème général : Les mélanges gaussiens
5/42 Thème général : Les mélanges gaussiens On souhaite analyser des données supposées Indépendantes, provenant d’un mélange gaussien à k composants de densité : Première utilisation d’un modèle de mélange : Karl Pearson (1894) Utilisation de plus en plus large : 50% des publications postérieures à 1995 Très nombreuses applications pratiques, en univarié comme en multivarié Nombre de composants Estimation des paramètres Objectifs de l’inférence :

6 Notion d’identifiabilité
6/42 Le mélange est invariant sous les k! permutations des paramètres La vraisemblance possède donc k! modes Solution classique : imposer une condition d’ordre comme ou Conditions non utilisées dans cette thèse

7 PLAN 7/42 PARTIE 1 : Test d’homogéneité contre mélange simple dans le cas général Test du rapport des maximums de vraisemblance Log-vraisemblance modifiée Application aux mélanges sur les variances Tabulations PARTIE 2 : Méthodes de Monte Carlo par chaînes de Markov Méthodes de Monte Carlo par chaînes de Markov Illustrations Le problème du « label switching »  PARTIE 3 : RJMCMC appliqué au mélanges gaussiens multivariés Modélisation bayésienne des modèles à dimension variable Choix des lois a priori La méthode MCMC à sauts réversibles L’algorithme Le mouvement de séparation Simulations

8 Test d’homogéneité contre mélange simple
8/42 PARTIE 1 Test d’homogéneité contre mélange simple dans le cas général

9 Retour à l’exemple introductif
9/42 Ce type de problème a été étudié par de nombreux auteurs : Chen & Chen (2001) Garel (2001) Lemdani & Pons (1999) Dacunha- Castelle & Gassiat (1997) Approche adoptée : Résoudre ce problème dans le cas général de manière simple en recherchant des hypothèses minimales sur la densité g Homogéneité : Mélange simple : H1 H0

10 Test du rapport des maximums de vraisemblance
10/42 La statistique de test est : Avec : et on peut écrire la Log-vraisemblance de la façon suivante Avec :

11 On utilise une Log vraisemblance modifiée
11/42 p 1 + - -a a Le sup de : est atteint pour c’est-à-dire sur des ensembles de la forme : : Zone où la vraisemblance est maximale

12 Retour à la Log-vraisemblance originale
12/42 Selon Redner(1981), la vraisemblance atteint son maximum sur un voisinage de l’hypothèse nulle, c’est-à-dire : On se ramène à des ensembles de la forme sur lesquels on montre que : On peut donc utiliser le maximum de la vraisemblance modifiée qui s’écrit :

13 on obtient le résultat suivant :
13/42 En faisant certaines hypothèses simples sur la loi g (régularité, intégrabilité) on obtient le résultat suivant :

14 Application aux mélanges gaussiens sur les variances
14/42 Application aux mélanges gaussiens sur les variances H1 H0 Poursuite d’un travail initié par Goussanou (2001) On montre que les hypothèses nécessaires sont vérifiées Le théorème précédent s’applique avec : et :

15 où est un processus gaussien centré de variance 1 et de même fonction
15/42 converge vers De plus, où est un processus gaussien centré de variance 1 et de même fonction d’autocovariance que avec et On est donc en mesure d’effectuer les tabulations de ce test dans ce cas particulier

16 Tabulations Connaissant , on souhaite calculer u tel que :
16/42 Connaissant , on souhaite calculer u tel que : On ne dispose que de Davies (1977) : Delmas (2001) : avec où  est la fonction d’autocovariance du processus.

17 Les valeurs critiques pour un niveau  fixé seront solutions de
17/42 Les valeurs critiques pour un niveau  fixé seront solutions de Le terme est très complexe (Delmas (2001)) et conduit à de nombreuses instabilités numériques DL de

18 Méthodes de Monte Carlo par Chaînes de Markov
18/42 PARTIE 2 Méthodes de Monte Carlo par Chaînes de Markov et « label switching »

19 Même des modèles simples peuvent mener à des calculs très complexes
19/42 Même des modèles simples peuvent mener à des calculs très complexes La vraisemblance d’un mélange gaussien à k composants possède kn termes, ce qui rend son calcul prohibitif pour de grands échantillons De plus, les méthodes classiques de maximisation ne réussissent généralement pas à trouver le maximum global de la vraisemblance à cause de la multimodalité (identifiabilité). Méthodes de Monte Carlo par chaînes de Markov Permettent de résoudre des problèmes d’optimisation (liés à la vraisemblance) comme des problèmes d’intégration (fréquents en statistique bayesienne)

20 Méthodes de Monte Carlo par Chaînes de Markov
20/42 Méthodes de Monte Carlo par Chaînes de Markov Objectif de l’intégration par MCMC : générer un échantillon distribué selon , la loi de Y et approximer par : On a Un exemple, l’algorithme de Metropolis Hastings

21 MCMC et méthodes bayesiennes
21/42 Dans un cadre bayésien, l’information apportée par les données y1,…,yn réalisations d’une v.a , combinée avec une information a priori sur le paramètre  (donnée par la densité ) est résumée par la loi a posteriori avec Les méthodes MCMC sont ici utilisées pour simuler des lois a posteriori

22 Le problème du « label switching »
22/42 Le problème du « label switching » 1 1 0.5 0.5

23 On génère un échantillon de densité :
23/42 Un exemple On génère un échantillon de densité : 4000 itérations de l’algorithme de Gibbs nous donnent le résultat suivant :

24 Des solutions existent
24/42 Des solutions existent Stephens (2000) : Un algorithme de type k-means avec k! classes correspondant aux k! façons d’ordonner les composants du mélange Celeux (1998) : Comparable à une version séquentielle de l’algorithme des k-means dont les centres sont déterminés par les m premières itérations.

25 PARTIE 3 Méthode de Monte Carlo par chaînes de Markov
25/42 PARTIE 3 Méthode de Monte Carlo par chaînes de Markov à sauts réversibles appliquée aux mélanges gaussiens multivariés Généralisation multidimensionnelle de Richardson & Green (1997)

26 26/42 Choix de modèles Le nombre de composants k représente la dimension du modèle associés La densité d’un mélange gaussien multivarié s’écrit avec : choisir parmi Objectif :

27 Modélisation bayésienne des modèles à dimension variable
27/42 « One of the things we do not know is the number of things we do not know » Peter Green Loi a priori sur Vraisemblance On s’intéresse à la loi a posteriori de

28 ne peut être obtenue analytiquement
28/42 Premier problème : ne peut être obtenue analytiquement Utilisation de méthodes de type MCMC Second problème : K! modes dans la vraisemblance ET DONC dans Phénomène de « label switching » dans les simulations Modèle hiérarchique On introduit le modèle à données manquantes Chaque donnée yi provient d’un des composants du mélange yi est associée à une variable indicatrice telle que

29 { Choix des lois a priori
29/42 Choix des lois a priori Inspirés par Richardson & Green (1997) et Stephens (2000) A priori sur le nombre de composants : loi de Poisson tronquée à A priori sur les moyennes et les variances : indépendants et faiblement informatifs { Attention ! Les lois a priori impropres sont prohibées Risque de composants vides Loi a posteriori impropre

30 R = amplitude de variation des données
30/42 Richardson & Green (1997) Stephens (2000) R = amplitude de variation des données

31 Graphe acyclique ordonné
31/42 Graphe acyclique ordonné

32 La méthode MCMC à sauts réversibles
32/42 La méthode MCMC à sauts réversibles Soit la variable aléatoire de réalisation On génère une chaîne de Markov sur se déplaçant de vers Si : mouvement de Gibbs classique Si : changement de dimension ! Sauts réversibles entre espaces différents

33 Pour se déplacer de vers , nous devons compléter ces espaces
33/42 Pour se déplacer de vers , nous devons compléter ces espaces pour se ramener à une dimension commune On définit un difféomorphisme avec (réversibilité) Transition de vers

34 Applications permettant de changer de dimension
34/42 Applications permettant de changer de dimension est généré selon la densité

35 Le nouvel état proposé est
35/42 Le nouvel état proposé est Il est alors accepté avec la probabilité : c’est-à-dire : la probabilité de tenter un déplacement de vers Rapport des lois a priori du nombre de composants sur les paramètres Rapport des vraisemblances : jacobien de la transformation

36 { { L’algorithme Avec probabilité ½ essayer de séparer un composant
36/42 L’algorithme Mise à jour de Mise à jour des Mise à jour des allocations Mise à jour de l’hyperparamètre { Avec probabilité ½ essayer de séparer un composant Avec probabilité ½ essayer de combiner deux composants { Avec probabilité ½ essayer de faire naître un composant Avec probabilité ½ essayer de tuer un composant

37 Le mouvement de Séparation
37/42 Proposer un nouveau jeu de paramètres aussi bien supporté par les données que le précédent Conserver les moments jusqu’à l’ordre 2 Garantir la définie positivité des nouvelles matrices de variance Utiliser la décomposition de Cholesky

38 Le changement de variable proposé est le suivant :
38/42 Le changement de variable proposé est le suivant : de jacobien : J = Pour r = 1 J = à comparer avec celui de Richardson & Green (1997)

39 Simulations Nous avons généré l’échantillon bivarié suivant :
39/42 Simulations Nous avons généré l’échantillon bivarié suivant : Données générées Estimation à noyau de la densité

40 Nombre de composants a posteriori
40/42 Paramètre a priori pour le nombre de composants : =1 =2 =3 =4 Evolution du nombre de composants au cours des itérations Loi a posteriori associée

41 Evolution du nombre de composants au cours des itérations
Nombre de composants a posteriori pour les données réelles « geyser » =1 =2 =3 =4 Evolution du nombre de composants au cours des itérations Loi a posteriori associée 41/42

42 Conclusion Algorithme complexe
Nécessitant un très grand nombre d’itérations Estimation du nombre de composants prometteuse Nécessité d’une étude plus approfondie (convergence, « label switching » …) Programmer avec un langage compilé et effectuer un très grand nombre d’itérations Envisager d’autres solutions au « label switching » (fonctions de coûts « label free ») Envisager d’autres types de mouvements (condition sur les moments non nécessaire) Utiliser une paramétrisation des matrices de variance


Télécharger ppt "Identification du nombre de composants"

Présentations similaires


Annonces Google