Identification du nombre de composants 1/42 Identification du nombre de composants d’un mélange gaussien par maximum de vraisemblance dans le cas univarié par chaînes de Markov à sauts réversibles dans le cas multivarié Sous la direction de Bernard Garel
Les mélanges gaussiens par l’exemple 2/42 Etudes cliniques : Dosage de globules blancs dans le sang des patients Pour des individus sains, la distribution est gaussienne de moyenne 0 connue Pour certaines maladies, le nombre de globules blancs augmente Deux hypothèses : H1 H0 Les individus analysés sont sains Certains individus sont malades Le nombre de globule blanc suit une loi normale Le nombre de globules blancs suit une loi de mélange La variance des observations est commune et connue
Problématique Ayant observé un échantillon 3/42 Problématique Ayant observé un échantillon Comment faire un choix entre les deux hypothèses ? Quelle confiance dans le résultat ? Théorie des tests statistiques Comment repérer les individus malades ? Approche classificatrice Pour d’autres maladies, le taux de globules diminue Peut on caractériser les maladies ? Les repérer, les compter ? Détection du nombre de composants
Images d’étoile double prises au pic du midi 4/42 Et en multivarié ? Images d’étoile double prises au pic du midi Quelle est la probabilité d’avoir observé une étoile double ?
Thème général : Les mélanges gaussiens 5/42 Thème général : Les mélanges gaussiens On souhaite analyser des données supposées Indépendantes, provenant d’un mélange gaussien à k composants de densité : Première utilisation d’un modèle de mélange : Karl Pearson (1894) Utilisation de plus en plus large : 50% des publications postérieures à 1995 Très nombreuses applications pratiques, en univarié comme en multivarié Nombre de composants Estimation des paramètres Objectifs de l’inférence :
Notion d’identifiabilité 6/42 Le mélange est invariant sous les k! permutations des paramètres La vraisemblance possède donc k! modes Solution classique : imposer une condition d’ordre comme ou Conditions non utilisées dans cette thèse
PLAN 7/42 PARTIE 1 : Test d’homogéneité contre mélange simple dans le cas général Test du rapport des maximums de vraisemblance Log-vraisemblance modifiée Application aux mélanges sur les variances Tabulations PARTIE 2 : Méthodes de Monte Carlo par chaînes de Markov Méthodes de Monte Carlo par chaînes de Markov Illustrations Le problème du « label switching » PARTIE 3 : RJMCMC appliqué au mélanges gaussiens multivariés Modélisation bayésienne des modèles à dimension variable Choix des lois a priori La méthode MCMC à sauts réversibles L’algorithme Le mouvement de séparation Simulations
Test d’homogéneité contre mélange simple 8/42 PARTIE 1 Test d’homogéneité contre mélange simple dans le cas général
Retour à l’exemple introductif 9/42 Ce type de problème a été étudié par de nombreux auteurs : Chen & Chen (2001) Garel (2001) Lemdani & Pons (1999) Dacunha- Castelle & Gassiat (1997) Approche adoptée : Résoudre ce problème dans le cas général de manière simple en recherchant des hypothèses minimales sur la densité g Homogéneité : Mélange simple : H1 H0
Test du rapport des maximums de vraisemblance 10/42 La statistique de test est : Avec : et on peut écrire la Log-vraisemblance de la façon suivante Avec :
On utilise une Log vraisemblance modifiée 11/42 p 1 + - -a a Le sup de : est atteint pour c’est-à-dire sur des ensembles de la forme : : Zone où la vraisemblance est maximale
Retour à la Log-vraisemblance originale 12/42 Selon Redner(1981), la vraisemblance atteint son maximum sur un voisinage de l’hypothèse nulle, c’est-à-dire : On se ramène à des ensembles de la forme sur lesquels on montre que : On peut donc utiliser le maximum de la vraisemblance modifiée qui s’écrit :
on obtient le résultat suivant : 13/42 En faisant certaines hypothèses simples sur la loi g (régularité, intégrabilité) on obtient le résultat suivant :
Application aux mélanges gaussiens sur les variances 14/42 Application aux mélanges gaussiens sur les variances H1 H0 Poursuite d’un travail initié par Goussanou (2001) On montre que les hypothèses nécessaires sont vérifiées Le théorème précédent s’applique avec : et :
où est un processus gaussien centré de variance 1 et de même fonction 15/42 converge vers De plus, où est un processus gaussien centré de variance 1 et de même fonction d’autocovariance que avec et On est donc en mesure d’effectuer les tabulations de ce test dans ce cas particulier
Tabulations Connaissant , on souhaite calculer u tel que : 16/42 Connaissant , on souhaite calculer u tel que : On ne dispose que de Davies (1977) : Delmas (2001) : avec où est la fonction d’autocovariance du processus.
Les valeurs critiques pour un niveau fixé seront solutions de 17/42 Les valeurs critiques pour un niveau fixé seront solutions de Le terme est très complexe (Delmas (2001)) et conduit à de nombreuses instabilités numériques DL de
Méthodes de Monte Carlo par Chaînes de Markov 18/42 PARTIE 2 Méthodes de Monte Carlo par Chaînes de Markov et « label switching »
Même des modèles simples peuvent mener à des calculs très complexes 19/42 Même des modèles simples peuvent mener à des calculs très complexes La vraisemblance d’un mélange gaussien à k composants possède kn termes, ce qui rend son calcul prohibitif pour de grands échantillons De plus, les méthodes classiques de maximisation ne réussissent généralement pas à trouver le maximum global de la vraisemblance à cause de la multimodalité (identifiabilité). Méthodes de Monte Carlo par chaînes de Markov Permettent de résoudre des problèmes d’optimisation (liés à la vraisemblance) comme des problèmes d’intégration (fréquents en statistique bayesienne)
Méthodes de Monte Carlo par Chaînes de Markov 20/42 Méthodes de Monte Carlo par Chaînes de Markov Objectif de l’intégration par MCMC : générer un échantillon distribué selon , la loi de Y et approximer par : On a Un exemple, l’algorithme de Metropolis Hastings
MCMC et méthodes bayesiennes 21/42 Dans un cadre bayésien, l’information apportée par les données y1,…,yn réalisations d’une v.a. , combinée avec une information a priori sur le paramètre (donnée par la densité ) est résumée par la loi a posteriori avec Les méthodes MCMC sont ici utilisées pour simuler des lois a posteriori
Le problème du « label switching » 22/42 Le problème du « label switching » 1 1 0.5 0.5
On génère un échantillon de densité : 23/42 Un exemple On génère un échantillon de densité : 4000 itérations de l’algorithme de Gibbs nous donnent le résultat suivant :
Des solutions existent 24/42 Des solutions existent Stephens (2000) : Un algorithme de type k-means avec k! classes correspondant aux k! façons d’ordonner les composants du mélange Celeux (1998) : Comparable à une version séquentielle de l’algorithme des k-means dont les centres sont déterminés par les m premières itérations.
PARTIE 3 Méthode de Monte Carlo par chaînes de Markov 25/42 PARTIE 3 Méthode de Monte Carlo par chaînes de Markov à sauts réversibles appliquée aux mélanges gaussiens multivariés Généralisation multidimensionnelle de Richardson & Green (1997)
26/42 Choix de modèles Le nombre de composants k représente la dimension du modèle associés La densité d’un mélange gaussien multivarié s’écrit avec : choisir parmi Objectif :
Modélisation bayésienne des modèles à dimension variable 27/42 « One of the things we do not know is the number of things we do not know » Peter Green Loi a priori sur Vraisemblance On s’intéresse à la loi a posteriori de
ne peut être obtenue analytiquement 28/42 Premier problème : ne peut être obtenue analytiquement Utilisation de méthodes de type MCMC Second problème : K! modes dans la vraisemblance ET DONC dans Phénomène de « label switching » dans les simulations Modèle hiérarchique On introduit le modèle à données manquantes Chaque donnée yi provient d’un des composants du mélange yi est associée à une variable indicatrice telle que
{ Choix des lois a priori 29/42 Choix des lois a priori Inspirés par Richardson & Green (1997) et Stephens (2000) A priori sur le nombre de composants : loi de Poisson tronquée à A priori sur les moyennes et les variances : indépendants et faiblement informatifs { Attention ! Les lois a priori impropres sont prohibées Risque de composants vides Loi a posteriori impropre
R = amplitude de variation des données 30/42 Richardson & Green (1997) Stephens (2000) R = amplitude de variation des données
Graphe acyclique ordonné 31/42 Graphe acyclique ordonné
La méthode MCMC à sauts réversibles 32/42 La méthode MCMC à sauts réversibles Soit la variable aléatoire de réalisation On génère une chaîne de Markov sur se déplaçant de vers Si : mouvement de Gibbs classique Si : changement de dimension ! Sauts réversibles entre espaces différents
Pour se déplacer de vers , nous devons compléter ces espaces 33/42 Pour se déplacer de vers , nous devons compléter ces espaces pour se ramener à une dimension commune On définit un difféomorphisme avec (réversibilité) Transition de vers
Applications permettant de changer de dimension 34/42 Applications permettant de changer de dimension est généré selon la densité
Le nouvel état proposé est 35/42 Le nouvel état proposé est Il est alors accepté avec la probabilité : c’est-à-dire : la probabilité de tenter un déplacement de vers Rapport des lois a priori du nombre de composants sur les paramètres Rapport des vraisemblances : jacobien de la transformation
{ { L’algorithme Avec probabilité ½ essayer de séparer un composant 36/42 L’algorithme Mise à jour de Mise à jour des Mise à jour des allocations Mise à jour de l’hyperparamètre { Avec probabilité ½ essayer de séparer un composant Avec probabilité ½ essayer de combiner deux composants { Avec probabilité ½ essayer de faire naître un composant Avec probabilité ½ essayer de tuer un composant
Le mouvement de Séparation 37/42 Proposer un nouveau jeu de paramètres aussi bien supporté par les données que le précédent Conserver les moments jusqu’à l’ordre 2 Garantir la définie positivité des nouvelles matrices de variance Utiliser la décomposition de Cholesky
Le changement de variable proposé est le suivant : 38/42 Le changement de variable proposé est le suivant : de jacobien : J = Pour r = 1 J = à comparer avec celui de Richardson & Green (1997)
Simulations Nous avons généré l’échantillon bivarié suivant : 39/42 Simulations Nous avons généré l’échantillon bivarié suivant : Données générées Estimation à noyau de la densité
Nombre de composants a posteriori 40/42 Paramètre a priori pour le nombre de composants : =1 =2 =3 =4 Evolution du nombre de composants au cours des itérations Loi a posteriori associée
Evolution du nombre de composants au cours des itérations Nombre de composants a posteriori pour les données réelles « geyser » =1 =2 =3 =4 Evolution du nombre de composants au cours des itérations Loi a posteriori associée 41/42
Conclusion Algorithme complexe Nécessitant un très grand nombre d’itérations Estimation du nombre de composants prometteuse Nécessité d’une étude plus approfondie (convergence, « label switching » …) Programmer avec un langage compilé et effectuer un très grand nombre d’itérations Envisager d’autres solutions au « label switching » (fonctions de coûts « label free ») Envisager d’autres types de mouvements (condition sur les moments non nécessaire) Utiliser une paramétrisation des matrices de variance