Identification du nombre de composants

Slides:



Advertisements
Présentations similaires
LES NOMBRES PREMIERS ET COMPOSÉS
Advertisements

Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Licence pro MPCQ : Cours
Distance inter-locuteur
Caractériser les précipitations intenses du MRCC
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Champs de Markov en Vision par Ordinateur
1/30 Rendu par tracé de chemins ESSI2 George Drettakis http: //www-sop.imag.fr/reves/George.Drettakis/cours/ESSI2/index.html.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
RECONNAISSANCE DE FORMES
Test statistique : principe
Les tests d’hypothèses (I)
Inférence statistique
Comparaison de deux pourcentages observés
Tests non paramétriques
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
A Pyramid Approach to Subpixel Registration Based on Intensity
Optimisation du portefeuille clients d’EDF suivant des modèles de type Markowitz DALLAGI Anes.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Les tests d’hypothèses
Estimation de la survie comparaison des courbes de survie FRT C3.
Le 19/ 11/ Modèle de tarification planifiée pour les réseaux mobiles Mustapha OUGHDI Alexandre CAMINADA Sid LAMROUS.
Analyse de la variance à un facteur
1 Analyse de la variance multivariée Michel Tenenhaus.
variable aléatoire Discrète
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Etienne Bertaud du Chazaud
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Application des algorithmes génétiques
Classification Multi Source En Intégrant La Texture
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Cours de physique générale I Ph 11
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Titre : Implémentation des éléments finis sous Matlab
Groupe 1: Classes de même intervalle
III – Convergence Asymptotique
DEA Perception et Traitement de l’Information
LES NOMBRES PREMIERS ET COMPOSÉS
Partie 1: Ondes et Particules.
2 TP avec l ’aide d ’un modeleur 3D :
II- L’algorithme du recuit simulé (pseudo-code)
Modeles Lineaires.
Commentaires sur les biais écologiques et les échelles non emboîtées
Représentation des systèmes dynamiques dans l’espace d’état
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Courbes de Bézier.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
1.1 LES VECTEURS GÉOMÉTRIQUES
Sélection génétique de moutons par croisements. Un gène nommé Fec contrôle le niveau dovulation Il existe un allèle Fec B qui cause une hyperovulation.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Les changements de numéraire dans la tarification d’options
Titre : Implémentation des éléments finis en Matlab
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
Introduction au calcul quantique
AIP PRIMECA des Pays de La Loire – 9 novembre 2006
Filtrage de Kalman et aperçu probabiliste
ASI 3 Méthodes numériques pour l’ingénieur
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
Equation différentielle de 2ème ordre
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Probabilités et Statistiques
Les Chiffres Prêts?
Partie II: Temps et évolution Energie et mouvements des particules
Méthode des moindres carrés (1)
Transcription de la présentation:

Identification du nombre de composants 1/42 Identification du nombre de composants d’un mélange gaussien par maximum de vraisemblance dans le cas univarié par chaînes de Markov à sauts réversibles dans le cas multivarié Sous la direction de Bernard Garel

Les mélanges gaussiens par l’exemple 2/42 Etudes cliniques : Dosage de globules blancs dans le sang des patients Pour des individus sains, la distribution est gaussienne de moyenne 0 connue Pour certaines maladies, le nombre de globules blancs augmente Deux hypothèses : H1 H0 Les individus analysés sont sains Certains individus sont malades Le nombre de globule blanc suit une loi normale Le nombre de globules blancs suit une loi de mélange La variance des observations est commune et connue

Problématique Ayant observé un échantillon 3/42 Problématique Ayant observé un échantillon Comment faire un choix entre les deux hypothèses ? Quelle confiance dans le résultat ? Théorie des tests statistiques Comment repérer les individus malades ? Approche classificatrice Pour d’autres maladies, le taux de globules diminue Peut on caractériser les maladies ? Les repérer, les compter ? Détection du nombre de composants

Images d’étoile double prises au pic du midi 4/42 Et en multivarié ? Images d’étoile double prises au pic du midi Quelle est la probabilité d’avoir observé une étoile double ?

Thème général : Les mélanges gaussiens 5/42 Thème général : Les mélanges gaussiens On souhaite analyser des données supposées Indépendantes, provenant d’un mélange gaussien à k composants de densité : Première utilisation d’un modèle de mélange : Karl Pearson (1894) Utilisation de plus en plus large : 50% des publications postérieures à 1995 Très nombreuses applications pratiques, en univarié comme en multivarié Nombre de composants Estimation des paramètres Objectifs de l’inférence :

Notion d’identifiabilité 6/42 Le mélange est invariant sous les k! permutations des paramètres La vraisemblance possède donc k! modes Solution classique : imposer une condition d’ordre comme ou Conditions non utilisées dans cette thèse

PLAN 7/42 PARTIE 1 : Test d’homogéneité contre mélange simple dans le cas général Test du rapport des maximums de vraisemblance Log-vraisemblance modifiée Application aux mélanges sur les variances Tabulations PARTIE 2 : Méthodes de Monte Carlo par chaînes de Markov Méthodes de Monte Carlo par chaînes de Markov Illustrations Le problème du « label switching »  PARTIE 3 : RJMCMC appliqué au mélanges gaussiens multivariés Modélisation bayésienne des modèles à dimension variable Choix des lois a priori La méthode MCMC à sauts réversibles L’algorithme Le mouvement de séparation Simulations

Test d’homogéneité contre mélange simple 8/42 PARTIE 1 Test d’homogéneité contre mélange simple dans le cas général

Retour à l’exemple introductif 9/42 Ce type de problème a été étudié par de nombreux auteurs : Chen & Chen (2001) Garel (2001) Lemdani & Pons (1999) Dacunha- Castelle & Gassiat (1997) Approche adoptée : Résoudre ce problème dans le cas général de manière simple en recherchant des hypothèses minimales sur la densité g Homogéneité : Mélange simple : H1 H0

Test du rapport des maximums de vraisemblance 10/42 La statistique de test est : Avec : et on peut écrire la Log-vraisemblance de la façon suivante Avec :

On utilise une Log vraisemblance modifiée 11/42  p 1 + - -a a Le sup de : est atteint pour c’est-à-dire sur des ensembles de la forme : : Zone où la vraisemblance est maximale

Retour à la Log-vraisemblance originale 12/42 Selon Redner(1981), la vraisemblance atteint son maximum sur un voisinage de l’hypothèse nulle, c’est-à-dire : On se ramène à des ensembles de la forme sur lesquels on montre que : On peut donc utiliser le maximum de la vraisemblance modifiée qui s’écrit :

on obtient le résultat suivant : 13/42 En faisant certaines hypothèses simples sur la loi g (régularité, intégrabilité) on obtient le résultat suivant :

Application aux mélanges gaussiens sur les variances 14/42 Application aux mélanges gaussiens sur les variances H1 H0 Poursuite d’un travail initié par Goussanou (2001) On montre que les hypothèses nécessaires sont vérifiées Le théorème précédent s’applique avec : et :

où est un processus gaussien centré de variance 1 et de même fonction 15/42 converge vers De plus, où est un processus gaussien centré de variance 1 et de même fonction d’autocovariance que avec et On est donc en mesure d’effectuer les tabulations de ce test dans ce cas particulier

Tabulations Connaissant , on souhaite calculer u tel que : 16/42 Connaissant , on souhaite calculer u tel que : On ne dispose que de Davies (1977) : Delmas (2001) : avec où  est la fonction d’autocovariance du processus.

Les valeurs critiques pour un niveau  fixé seront solutions de 17/42 Les valeurs critiques pour un niveau  fixé seront solutions de Le terme est très complexe (Delmas (2001)) et conduit à de nombreuses instabilités numériques DL de

Méthodes de Monte Carlo par Chaînes de Markov 18/42 PARTIE 2 Méthodes de Monte Carlo par Chaînes de Markov et « label switching »

Même des modèles simples peuvent mener à des calculs très complexes 19/42 Même des modèles simples peuvent mener à des calculs très complexes La vraisemblance d’un mélange gaussien à k composants possède kn termes, ce qui rend son calcul prohibitif pour de grands échantillons De plus, les méthodes classiques de maximisation ne réussissent généralement pas à trouver le maximum global de la vraisemblance à cause de la multimodalité (identifiabilité). Méthodes de Monte Carlo par chaînes de Markov Permettent de résoudre des problèmes d’optimisation (liés à la vraisemblance) comme des problèmes d’intégration (fréquents en statistique bayesienne)

Méthodes de Monte Carlo par Chaînes de Markov 20/42 Méthodes de Monte Carlo par Chaînes de Markov Objectif de l’intégration par MCMC : générer un échantillon distribué selon , la loi de Y et approximer par : On a Un exemple, l’algorithme de Metropolis Hastings

MCMC et méthodes bayesiennes 21/42 Dans un cadre bayésien, l’information apportée par les données y1,…,yn réalisations d’une v.a. , combinée avec une information a priori sur le paramètre  (donnée par la densité ) est résumée par la loi a posteriori avec Les méthodes MCMC sont ici utilisées pour simuler des lois a posteriori

Le problème du « label switching » 22/42 Le problème du « label switching » 1 1 0.5 0.5

On génère un échantillon de densité : 23/42 Un exemple On génère un échantillon de densité : 4000 itérations de l’algorithme de Gibbs nous donnent le résultat suivant :

Des solutions existent 24/42 Des solutions existent Stephens (2000) : Un algorithme de type k-means avec k! classes correspondant aux k! façons d’ordonner les composants du mélange Celeux (1998) : Comparable à une version séquentielle de l’algorithme des k-means dont les centres sont déterminés par les m premières itérations.

PARTIE 3 Méthode de Monte Carlo par chaînes de Markov 25/42 PARTIE 3 Méthode de Monte Carlo par chaînes de Markov à sauts réversibles appliquée aux mélanges gaussiens multivariés Généralisation multidimensionnelle de Richardson & Green (1997)

26/42 Choix de modèles Le nombre de composants k représente la dimension du modèle associés La densité d’un mélange gaussien multivarié s’écrit avec : choisir parmi Objectif :

Modélisation bayésienne des modèles à dimension variable 27/42 « One of the things we do not know is the number of things we do not know » Peter Green Loi a priori sur Vraisemblance On s’intéresse à la loi a posteriori de

ne peut être obtenue analytiquement 28/42 Premier problème : ne peut être obtenue analytiquement Utilisation de méthodes de type MCMC Second problème : K! modes dans la vraisemblance ET DONC dans Phénomène de « label switching » dans les simulations Modèle hiérarchique On introduit le modèle à données manquantes Chaque donnée yi provient d’un des composants du mélange yi est associée à une variable indicatrice telle que

{ Choix des lois a priori 29/42 Choix des lois a priori Inspirés par Richardson & Green (1997) et Stephens (2000) A priori sur le nombre de composants : loi de Poisson tronquée à A priori sur les moyennes et les variances : indépendants et faiblement informatifs { Attention ! Les lois a priori impropres sont prohibées Risque de composants vides Loi a posteriori impropre

R = amplitude de variation des données 30/42 Richardson & Green (1997) Stephens (2000) R = amplitude de variation des données

Graphe acyclique ordonné 31/42 Graphe acyclique ordonné

La méthode MCMC à sauts réversibles 32/42 La méthode MCMC à sauts réversibles Soit la variable aléatoire de réalisation On génère une chaîne de Markov sur se déplaçant de vers Si : mouvement de Gibbs classique Si : changement de dimension ! Sauts réversibles entre espaces différents

Pour se déplacer de vers , nous devons compléter ces espaces 33/42 Pour se déplacer de vers , nous devons compléter ces espaces pour se ramener à une dimension commune On définit un difféomorphisme avec (réversibilité) Transition de vers

Applications permettant de changer de dimension 34/42 Applications permettant de changer de dimension est généré selon la densité

Le nouvel état proposé est 35/42 Le nouvel état proposé est Il est alors accepté avec la probabilité : c’est-à-dire : la probabilité de tenter un déplacement de vers Rapport des lois a priori du nombre de composants sur les paramètres Rapport des vraisemblances : jacobien de la transformation

{ { L’algorithme Avec probabilité ½ essayer de séparer un composant 36/42 L’algorithme Mise à jour de Mise à jour des Mise à jour des allocations Mise à jour de l’hyperparamètre { Avec probabilité ½ essayer de séparer un composant Avec probabilité ½ essayer de combiner deux composants { Avec probabilité ½ essayer de faire naître un composant Avec probabilité ½ essayer de tuer un composant

Le mouvement de Séparation 37/42 Proposer un nouveau jeu de paramètres aussi bien supporté par les données que le précédent Conserver les moments jusqu’à l’ordre 2 Garantir la définie positivité des nouvelles matrices de variance Utiliser la décomposition de Cholesky

Le changement de variable proposé est le suivant : 38/42 Le changement de variable proposé est le suivant : de jacobien : J = Pour r = 1 J = à comparer avec celui de Richardson & Green (1997)

Simulations Nous avons généré l’échantillon bivarié suivant : 39/42 Simulations Nous avons généré l’échantillon bivarié suivant : Données générées Estimation à noyau de la densité

Nombre de composants a posteriori 40/42 Paramètre a priori pour le nombre de composants : =1 =2 =3 =4 Evolution du nombre de composants au cours des itérations Loi a posteriori associée

Evolution du nombre de composants au cours des itérations Nombre de composants a posteriori pour les données réelles « geyser » =1 =2 =3 =4 Evolution du nombre de composants au cours des itérations Loi a posteriori associée 41/42

Conclusion Algorithme complexe Nécessitant un très grand nombre d’itérations Estimation du nombre de composants prometteuse Nécessité d’une étude plus approfondie (convergence, « label switching » …) Programmer avec un langage compilé et effectuer un très grand nombre d’itérations Envisager d’autres solutions au « label switching » (fonctions de coûts « label free ») Envisager d’autres types de mouvements (condition sur les moments non nécessaire) Utiliser une paramétrisation des matrices de variance