La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Minimum Description Length identification de modèles à partir de données Maria-João Rendas CNRS – I3S Novembre 2006.

Présentations similaires


Présentation au sujet: "Minimum Description Length identification de modèles à partir de données Maria-João Rendas CNRS – I3S Novembre 2006."— Transcription de la présentation:

1 Minimum Description Length identification de modèles à partir de données Maria-João Rendas CNRS – I3S Novembre 2006

2 Problème Étant données des observations x (n), choisir un modèle H qui exprime ses propriétés intrinsèques. Exemples ajuste dun modèle polynomial à des paires de valeurs réels segmentation non-supervisée (images, signaux,...) ajuste dune distribution de probabilité à des échantillons

3 Ajuste dun modèle polynomial Données x (n) = [(x 1,y 1 ), (x 2,y 2 ),…, (x n,y n )] Modèles candidats H k : y i = a 0 +a 1 x i + …+ a k x i k, k=0,1,2,…

4 Segmentation non-supervisée Données x (n) = [x 1, x 2,…, x n ]

5 Ajuste dune distribution de probabilité Données x (n) = [x 1, x 2,…, x n ] Modèles candidats H 1 : x i N (x i :, ) H 2 : x i (2 e - x|

6 Principe de Longueur de Description Minimale Choisir le modèle qui permet la codification la plus compacte des données Considère le problème de choix de modèles comme celui de déceler les régularités des données. Basé sur (i) la relation intime entre (longueurs de) codes optimaux et lois de probabilité qui découle de linégalité de Kraft, et (ii) la notion de code universel Choisir le code optimal pour un ensemble de données est équivalent à trouver la distribution de probabilité de la source. codeur C source p (C p (x)) = -log p(x) p C (x) = 2 - (Cp(x))

7 Définitions et notation Modèle probabiliste H ={p (x n ), } peut être : fini, dénombrable, continu... Modèle paramétrique : H ={p(x n | ), } Ex: Gaussien, famille exponentielle,... Estimateur du Maximum de Vraisemblance MV (x n ) = arg max p H p(x n ) Modèle paramétrique : MV (x n ) = arg max p(x n | ) MV (x n ) = p(x n | MV (x n ))

8 Propriétés asymptotiques Estimateur consistant x n X, x n p lim n MV (x n ) = p w.p.1 x n X, x n p(x n | ) lim n MV (x n ) = w.p.1 Code universel (par rapport à un modèle) H : modèle probabiliste L ensemble de (longueurs de) codes (de préfixe) L H est un code universel pour H ssi x n X lim n 1/n L H ( x n ) = lim n 1/n min L L L( x n ) Note: si x n p H lim n 1/n min L L L( x n ) = H(p ) : taux dentropie

9 Pénalité dun code/modèle (p) par rapport à un modèle H (ensemble de codes/modèles) Pénalité P p, H (x n ) = -log p(x n ) – min q H ( -log q(x n ) ) Modèle paramétrique P p, H (x n ) = -log p(x n ) + log p( x n | MV (x n ) ) Pénalité au pire cas P p, H = max x n X P p, H (x n ) = max x n X [ -log p(x n ) - min q H ( -log q(x n ) ) ]

10 Code universel optimal (par rapport à un modèle) Code universel optimal L H * est un code universel optimal (pour le modèle H ) ssi P L H*, H P L, H Solution: Code (modèle) de Shtarkov: p nmv (x n ) = p H * (x n ) p(x n | MV (x n ) ), p H * (x n ) d x n =1 Pour ce code, x n X P p nmv, H (x n ) = P p nmv, H = -log p(x n | MV (x n )) d x n

11 Principe du MDL Choix entre deux modèles H 1 et H 2 : Choisir le modèle pour lequel le code universel optimal conduit à une longueur de code minimale: L H 1 * (x n ) < L H 2 * (x n ) choisir H 1 L H 1 * (x n ) > L H 2 * (x n ) choisir H 2 Avec la définition de code optimal (de Shtarkov) nous sommes conduits à un critère du type « codage en deux parties » : L H 1 * (x n ) = -log p(x n | 1 (x n )) + log p(x n | 1 (x n )) dx n

12 Complexité paramétrique Complexité paramétrique dun modèle C n ( H ) = log p(x n | (x n )) dx n Avec cette définition L H 1 * (x n ) = -log p(x n | (x n )) + C n ( H 1 ) C n ( H 1 ) : codage du modèle (structure) -log p(x n | (x n )) : codage des détails (bruit)

13 Test MDL Choix entre deux modèles H 1 et H 2 : L H 1 * (x n ) < L H 2 * (x n ) choisir H 1 L H 1 * (x n ) > L H 2 * (x n ) choisir H 2 -log p(x n | 1 (x n )) + C n ( H 1 ) -log p(x n | 2 (x n )) + C n ( H 2 ) choisir H 1

14 Complexité paramétrique ( H : ensemble fini) Si H = {p(x n | i ), i=1,2,…,M} C n ( H ) = log x n p(x n | (x n )) = log j x n : (x n ) = j p(x n | j ) = log j (1- x n : (x n ) j p(x n | j ) ) = log ( M – Pr{ (x n ) j } ) log M Ces expressions montrent que la complexité paramétrique dun modèle mesure le nombre de distributions que le modèle contient qui sont distinguables avec un certain volume de données Dans lexpression précédente, le terme derreur tend (pour des modèles non pathologiques, pour lesquels un estimateur consistant existe) vers zéro quand le nombre de données tend vers infini, et C n ( H ) log M

15 Exemple: Bernoulli S n : sufficient statistic for (Stirling app.)

16 Principe du MDL et RVG MDL: log p 1 (x n | 1 (x n ))/ p 2 (x n | 2 (x n )) C n ( H 1 ) - C n ( H 2 ) Le test du MDL est un test du rapport de vraisemblance généralisé, où le seuil de décision est automatiquement fixé par la complexité paramétrique des modèles. * RVG : rapport de vraisemblance généralisé

17 Consistance Le fait que le code optimal soit un code universel garanti que quand n le vrai modèle (si les données sont une réalisation dune source avec une distribution de probabilité qui fait partie dun des modèles) est choisi, avec probabilité 1. Note: cette propriété est maintenue même si le code utilisé nest pas le code optimal (la distribution de Shtarkov)

18 Approximation asymptotique (MDL) Sous certaines conditions, pour des modèles paramétriques, (k fixe, n ) où k est la dimension du modèle paramétrique H (comme variété différentiable) n est le nombre dobservations I( ) est la matrice (asymptotique) de Fisher:

19 Conditions sufisantes C n ( H )<, |I( )| 1/2 d < reste eloigné de la frontière de. H est une famille exponentielle : p(x| ) = exp( t(x))f(x)g( ) t : X ! R est une fonction de x Exemples: Bernoulli, Gaussienne, Multinomial, Poisson, Gamma, … (mais pas les modèles de mélange)

20 Interprétation Avec cette approximation L H * (x n ) = -log p(x n | (x n )) + C n ( H ) = -log p(x n | (x n )) (fit to data (noise): linear in n) (# models: log in n) (model geometry: C te in n) ( 0 when n ) Good approximation if n large, k n

21 MDL et Bayes Pour des modèles paramétriques H i ={p(x n | i ), i i }, i=1,2 lapproche Bayesienne considère connues des distributions a priori, w i ( i ), pour les paramètres inconnus i de chaque modèle H i, et choisit le modèle pour lequel la distribution marginale est la plus grande : choisir H 1

22 La marginale de Bayes est un code universel ( countable (Bayes better than 2-part coding!)

23 Comportement asymptotique de Bayes Pour des familles exponentielles (expansion de Laplace) Pour n>>1 Bayes et MDL coincident avec BIC (Bayesian Information Criterion, Schwartz)

24 Jeffreys prior, Bayes et MDL Pour les distributions a priori de Jeffrey: alors : Note: MDL et Bayes sont des approches différentes: MDL nest pas basé sur des supposions sur la vraie distribution des données, ce que nest pas le cas pour Bayes! MDL Bayes (up to order 1)

25 MDL et codage prédictif La factorisation implique longueur de codepénalité de prédiction accumulée : coût de la prédiction de x i basée sur lobservation de x 1 …x i-1

26 Pointers pour en savoir plus MDL idéal et Complexité de Kolomogorov Vytanyi (Amsterdam, MDL avec complexité paramétrique infinie Rissanen ( Helsinki ), T. Cover (Stanford, Grunwald ( Amsterdam, Interprétation géométrique de la complexité paramétrique Balasubramanian (( UPenn, Philadelphia,

27 Code unniversel pour les entiers Pour coder un entier k {1,..,M} on a besoin de n= log k bits : k c n (k) {0,1} n Pour coder un entier k {1,…} ? k C u (k) =0 log k 1 c log k (k) {0,1} 2n+1 C u est un code universel pour les entiers


Télécharger ppt "Minimum Description Length identification de modèles à partir de données Maria-João Rendas CNRS – I3S Novembre 2006."

Présentations similaires


Annonces Google