L’algorithme EM pour des données manquantes Molière Nguile makao INSERM U823/équipe 11.

Slides:



Advertisements
Présentations similaires
QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Apprentissage supervisé et non supervisé sur les données INDANA
Chapitre annexe. Récursivité
F. Bataille CEA, Service Hospitalier Frédéric Joliot, Orsay, France
Eléments de Génie Logiciel
Gestion de portefeuille
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Champs de Markov en Vision par Ordinateur
Sensibilisation à l’Algorithmique
Sensibilisation à l’Algorithmique et structure de données
3- Déclaration et accès aux objets
C1 Bio-statistiques F. KOHLER
Inférence statistique
Les TESTS STATISTIQUES
Les K plus proches voisins
Les TESTS STATISTIQUES
Régression -corrélation
Analyse de la variance à un facteur
Présenté par : MOHSEN BEN HASSINE
Méthodes d‘optimisation en finance
Application des algorithmes génétiques
Les Systèmes Multi-Agents pour la Gestion de Production
FERRAFIAT Nicolas Le logiciel d’estimation statistique en fiabilité
RECONNAISSANCE DE FORMES
Points importants de la semaine Le paramétrage. La portée. Le passage par copie. Le passage par référence.
Décodage des informations
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Plan d’expérience dynamique pour la maximisation
DEA Perception et Traitement de l’Information
Algorithme de Bellman-Ford
Méthodes de prévision (STT-3220)
Les modèles linéaires (Generalized Linear Models, GLM)
Le forage de données ou data mining
Algorithmes probabilistes
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Régression linéaire (STT-2400)
GPA750 – Gestion de Projets
Pour le chemin le plus court pour tous les couples
LA LOGIQUE ALGORITHMIQUE
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Equations d’estimation généralisées: GEE
Présentation du marché obligataire
Séance 8 30 novembre 2005 N. Yamaguchi
Vers les fonctions …. Objectifs Travailler sur les tableaux (type tableaux de proportionnalité, mais pas seulement !) Travailler sur la représentation.
Algorithmes pour le web “A Unified Approach to Personalization Based on Probabilistic Latent Semantic Models of Web Usage and Content”
Apparence globale 1 image = 1 vecteur Base apprentissage Rotation –capture les variabilités Troncature –Quelques coefficients Représentation linéaire Espace.
Atelier Probabilités et statistiques
Concepts fondamentaux: statistiques et distributions
Etude statistique d’histogrammes en image Master 1 Mathématiques et Aide à la Décision 2005/2006 Soutenance de stage Benjamin MARTIN.
Présenté par Mathieu Almeida, Amine Ghozlane
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Equipe synthèse d ’images et réalité virtuelle IRIT-UPS Toulouse Surfaces implicites Les différents modèles analytiques.
Méthode des moindres carrés (1)
Mais quel est donc le taux d’inflation actuel ? J.C. Lambelet et D. Nilles Catherine Roux Alvaro Aparicio Gregor Banzer Daniel Cavallaro.
Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC.
Chapitre 4 Variables aléatoires discrètes
Rappel de statistiques
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Post-optimisation, analyse de sensibilité et paramétrage
Surfaces de Bézier.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Probabilités et Statistiques
La Maîtrise Statistique des Procédés
Segmentation (2 ième partie) Références: Sonka et al: sections 6.2.6, 10.2 (10.6) Autres: chap Forsyth chap. 4 Ballard & Brown (pour GHT) Dernière.
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Données manquantes et imputations multiples
Gestion de portefeuille Chapitre 5: Portefeuille efficient au sens de Markovitz.
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

L’algorithme EM pour des données manquantes Molière Nguile makao INSERM U823/équipe 11

historique Article historique de Dempster, Laird et Rubin (1977), ML estimation from incomplete data via the EM algorithm, JRSS, B 39, 1-38

Définition EM pour Espérance-maximisation (Expectation- Maximization). L'algorithme EM permet de compléter une sé- rie de données manquantes en se basant sur la vraisemblance maximale (maximum-likelihood estimation) de l'ensemble des données.

Exemple obsX1X obsX1X

Estimation de la vraisemblance maximale obsxdensité 11,725exp(-1,725*a) 20,821exp(-0,821*a) 30,318exp(-0,318*a) 41,147exp(-1,147*a) 52,61exp(-2,61*a) 60,648exp(-0,648*a) exp(-a*x)=f(x) L (a)=exp(-(1, ,318+1,147+2,61+0,648)*a) Trouver « a » revient à optimiser L(a) Rappel

Estimation de la vraisemblance maximale On suppose que un échantillon X1,…Xn suit une distribution. Exp: normale de paramètre Θ=(μ,Σ) pas de données manquantes Avec des données manquantes p(X| Θ) la densité L(X1| Θ)=log ( p(X| Θ) ) Variable modifiée Z=(X,Y) où Y représente l’ensemble des données manquantes p(Z| Θ)= p(Y|X, Θ) p(X| Θ) L(X,Y| Θ)=log ( p(Z| Θ) ) Principe

EM pour des données manquantes But : trouver la valeur espérée de la log-vraisemblance de l'ensemble complet de données Z par rapport aux données manquantes Y sachant les données observées X et les paramètres du modèle Θ Problème : Manque de connaissance sur la variable Y, il faut donc utiliser les données et les paramètres d'une itération précédente X et Θ^(i-1) valeur espérée : Q(Θ, Θ^(i-1)) = Ey[ L(X,Y| Θ)|X,Θ^(i-1)] Les étapes de l'algorithme EM Étape E : Évaluation de l'espérance selon les données observées et les paramètres à notre disposition. Étape M : Maximisation de cette espérance

Algorithme EM Set n=0 initialize Θo E-step Compute Q(Θ|Θn) M-step Θ*=max Q(Θ|Θn) Θn+1=Θn* Q(Θn+1|Θn)- Q(Θn|Θn-1)<ξ Θml=Θn+1 n=n+1 Θml:Maximum likelihood estimated ξ: termination threshold

Exemple utilisation de l’algorithme EM Exemple des sinus Deux fonctions: Y1 = Sin(x), Y2=Sin( x+3)+2 5 cycles sont ensuite retirés à Y2 Utilisation de l'algorithme EM pour retrouver les données. ( logiciel R ) Données imputées (orange) pour la fonction Y2

Exemple en utilisant le logiciel sas Exemple de sas: Data on Physical Fitness Utilisation de l’algorithme EM pour calcul les paramètres de la distribution conjointe Procédure sas proc mi data = FitMiss seed= simple nimpute =0; em itprint outem=outem; var Oxygen RunTime RunPulse; run; proc print data=outem; title 'EM Estimates'; run;

Exemple en utilisant le logiciel sas(suite)

Exemple en utilisant le logiciel sas

Discussion EM est intéressant et très puissant (application multiple) mais pas de bonne qualité pour des séries avec une grande variance-covariance. alternative: ex: EMBootstrapping. Pour ce qui est des paramètres du modèle, il est possible d'obtenir de bons résultats avec une bonne précision. Les caractéristiques globales sont donc bien reproduites par l'algorithme. Remarque :la censure informative peut être traitée par l’algorithme EM. EM est beaucoup plus qu’un algorithme, c’est un mode de pensée.