La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Une vue unifiée des algorithmes avec passage de message: mesures de divergence Florence Forbes INRIA Rhone-Alpes Daprès un article de Tom Minka, Divergence.

Présentations similaires


Présentation au sujet: "1 Une vue unifiée des algorithmes avec passage de message: mesures de divergence Florence Forbes INRIA Rhone-Alpes Daprès un article de Tom Minka, Divergence."— Transcription de la présentation:

1 1 Une vue unifiée des algorithmes avec passage de message: mesures de divergence Florence Forbes INRIA Rhone-Alpes Daprès un article de Tom Minka, Divergence measures and message passing, 2005

2 2 Contexte: Modélisation de problèmes réels, algorithmes trop exigeants en temps, ressources informatiques et humaines Nécessité de disposer doutils dapproximation BUT: approcher une loi p(x) complexe par une loi plus simple q(x) appartenant à une famille F Pourquoi? La loi q peut alors etre utilisée pour remplacer p dans un processus dinférence plus générale: Ex: calcul de fonction de partition, segmentation dimage, sélection de modèles, etc.

3 3 Les méthodes variationnelles Une famille de méthodes dapproximation où p complexe est remplacée par q dans F plus simple en minimisant la perte dinformation Souvent un problème peut-etre décomposer en sous problèmes: Stratégie de décomposition qui conduit aux algorithmes de passage de messages Algorithmes de passage de messages: une méthode locale, distribuée pour calculer q

4 4 Les algorithmes de passage de messages Des recettes différentes pour minimiser une mesure dinformation Se base sur la notion de divergence Idée: étudier les propriétés de ces divergences devrait permettre de choisir le meilleur algorithme en fonction de lapplication visée, de la tache à accomplir Exemples dalgorithmes de passage de messages

5 5 Exemples dalgorithmes (Message-Passing Algorithms) Mean-field MF[Peterson,Anderson 87] Loopy belief propagation BP[Frey,MacKay 97] Expectation propagation EP[Minka 01] Tree-reweighted message passing TRW[Wainwright,Jaakkola,Willsky 03] Fractional belief propagation FBP[Wiegerinck,Heskes 02] Power EP PEP[Minka 04]

6 6 Un algorithme de passage de messages se construit en 4 étapes 1.Choisir une famille F (ex. Lois factorisées, lois gaussiennes, mélanges de gaussiennes, etc.) 2.Choisir une mesure de divergence à minimiser pour trouver le meilleur q dans F (ex Kullback-Leibler) 3.Proposer une méthode pour calculer le q optimal: souvent une itération de point fixe 4.Mettre en oeuvre le calcul de manière distribuée et locale (minimisation de divergences locales)

7 Florence Forbes Message Passing: compute marginals Example Find marginal for a particular node –for M -state nodes, cost is –exponential in length of chain –but, we can exploit the graphical structure (conditional independences)

8 Florence Forbes Message Passing Joint distribution Exchange sums and products: ab+ ac = a(b+c) b e f orex i a f t erx i

9 Florence Forbes Message Passing Express as product of messages Recursive evaluation of messages Find Z by normalizing

10 Florence Forbes Belief Propagation Extension to general tree-structured graphs At each node: –form product of incoming messages and local evidence –marginalize to give outgoing message –one message in each direction across every link Fails if there are loops

11 Florence Forbes Junction Tree Algorithm An efficient exact algorithm for a general graph –applies to both directed and undirected graphs –compile original graph into a tree of cliques –then perform message passing on this tree Problem: –cost is exponential in size of largest clique –many vision models have intractably large cliques

12 Florence Forbes Loopy Belief Propagation Apply belief propagation directly to general graph –possible because message passing rules are local –need to keep iterating –might not converge State-of-the-art performance in error-correcting codes

13 Florence Forbes Max-product Algorithm: most probable x Goal: find –define –then Message passing algorithm with sum replaced by max Example: –Viterbi algorithm for HMMs

14 14 Divergence de Kullback-Leibler (KL) Mesures de divergence soient p,q des distributions non normalisées Alpha-divergence ( nombre réel quelconque) Asymétrique, convexe

15 15 Exemples dalpha-divergences

16 16 Minimum alpha-divergence q est Gaussienne, minimise D (p||q) = - 1

17 17 Minimum alpha-divergence q est Gaussienne, minimise D (p||q) = 0

18 18 Minimum alpha-divergence q est Gaussienne, minimise D (p||q) = 0.5

19 19 Minimum alpha-divergence q est Gaussienne, minimise D (p||q) = 1

20 20 Minimum alpha-divergence q est Gaussienne, minimise D (p||q) = 1

21 21 Propriétés des alpha-divergences 0 cherche le mode de plus grande masse (pas le plus grand mode) –zero-forcing: p(x)=0 force q(x)=0 –Sous-estime le support de p –Modélise queues plutot que la partie centrale ¸ 1 sétire pour tout englober –inclusive: p(x)>0 force q(x)>0 –Sur-estime le support de p [Frey,Patrascu,Jaakkola,Moran 00]

22 22 Structure de lespace en alpha 01 zero forcing inclusive (zero avoiding) MF BP, EP FBP, PEP TRW

23 23 Si q est un minimum exact d1 alpha-divergence: Constante de normalisation: Si =1: Gaussienne q a moyenne,variance de p – q factorisée a les marginales de p Autres propriétés

24 24 Exemple à deux variables q factorisée, minimise -divergence avec p q a les correctes marginales seulement pour = 1 (BP) x y

25 25 Exemple à deux variables = 1 (BP) Distribution Bimodale BonMauvais Marges Masse Zeros hauteurs modes Zeros un mode Marges Masse = 0 (MF) 0.5

26 26 Exemple à deux variables = 1 Distribution bimodale BonMauvais Hauteurs modes Zeros Marges

27 27 Leçons Pas de méthode meilleure – dépend de ce à quoi on sintéresse une approx factorisée ne préserve pas les marginales (seulement pour =1) Ajouter y au problème peut changer la marginale estimée pour x (alors que la vraie marginale est inchangée)

28 28 Minimisation dune alpha-divergence ® 6 = 0 qpo i n t s t a t i ona i re d e D ® ( p jj q ), qpo i n t s t a t i ona i re d e KL ( p ® q 1 ¡ ® jj q ) Itération de point fixe, qpo i n t s t a t i ona i re d e D ¯ ( p ® = ¯ q 1 ¡ ® = ¯ jj q ) q = P ro j [ p ® q 1 ¡ ® ] Pour q qui minimise,… Heuristique: à litération t, on a un q t ~ q = P ro j [ p ® q 1 ¡ ® t ] q t + 1 = q ² y ~ q 1 ¡ ² Moralité: une méthode simple pour minimiser une alpha-divergence est de minimiser successivement différentes KL-divergences

29 29 Minimisation de la KL-divergence Cas où F est une famille exponentielle Dans le schéma heuristique, on peut donc remplacer la première étape par un calcul despérances des gj pour la loi Ex: si F est la famille des lois gaussiennes, pour mettre à jour q, on calcule la constante de normalisation, moyenne, variance de On prend pour la gaussienne déterminée par ces valeurs de moyenne, variance mais avec le facteur déchelle adéquat ® = 1 q ( x ) = exp ( P j g j ( x ) º j ) º j son t l esparam µ e t res, g j ( x ) = 1 ; x ; x 2 ; e t c q = P ro j [ p ], 8 j R x g j ( x ) q ( x ) d x = R x g j ( x ) p ( x ) d x p ® q 1 ¡ ® p ® q 1 ¡ ® ~ q ~ q

30 30 Cas où F est une famille de lois factorisées Dans le schéma heuristique si F famille exponentielle factorisée q ( x ) = s Q i q i ( x ) avecq i norma l i sees q = P ro j [ p ], 8 i R x = x i q ( x ) d x = R x = x i p ( x ) d x, 8 i q i ( x ) = 1 s R x = x i p ( x ) d x, 8 i q i ( x ) = 1 s P ro j [ R x = x i p ( x ) d x ] ~ q i ( x i ) = s 1 ¡ ® ~ s q i ( x i ) 1 ¡ ® R x = x i p ( x ) ® Q j 6 = i q j ( x j ) 1 ¡ ® d x

31 31 Le champ moyen Itération de point fixe hors du schéma précédent A comparer avec quand ® = 0 ® ! 0 ~ q i ( x i ) / exp ( R x = x i l ogp ( x ) Q j 6 = i q j ( x j ) d x ) ~ q i ( x i ) = s 1 ¡ ® ~ s q i ( x i ) 1 ¡ ® R x = x i p ( x ) ® Q j 6 = i q j ( x j ) 1 ¡ ® d x

32 32 En pratique …. Déterminer un schéma ditération ne résout pas nécessairement le problème: ex. Calcul desperance difficile …

33 33 Divergence globale et divergence locale Divergence globale: Divergence locale:

34 34 Ecrire p comme un produit de facteurs: Approcher les facteurs un par un: Les multiplier pour avoir lapproximation: Minimisation Distribuée

35 35 F famille exponentielle factorisée Schéma ditération ~ t a ( x ) = Q i m a ! i ( x i ) m i ! a ( x i ) = Q b 6 = a m b ! i ( x i ) ~ s = R x t a ( x ) ® Q j m a ! j ( x j ) 1 ¡ ® m j ! a ( x j ) d x ~ m a ! i = 1 ~ sm i ! a ( x i ) P ro j [ m a ! i ( x i ) 1 ¡ ® m i ! a ( x i )... R x = x i t a ( x ) ® Q j 6 = i m a ! j ( x j ) 1 ¡ ® m j ! a ( x j ) d x ] q i ( x i ) = m a ! i ( x i ) m i ! a ( x i ) 8 a ( c f HMM ) C aspar t i cu l i er: t a ( x ) ne d epen d pas d ex i ) m a ! i ( x i ) = 1 ie les messages ne sont propagés que dun facteur a aux variables x i quil utilise (cas des MRFs, messages seulement entre voisins)

36 36 F factorisée sans contrainte de famille exponentielle est équivalent à F exponentielle avec –Cas du champ moyen (alpha = 0) –Loopy Belief Propagation (alpha = 1) Expectation Propagation (alpha= 1 + F factorisée exponentielle) Ajoute un terme de Projection, réduit la complexité des messages… Fractional BP et Power EP (alpha quelconque, F factorisée, sans ou avec hypothèse exponentielle) ~ m a ! i ( x i ) / exp ( R x = x i l og t a ( x ) Q j 6 = i m a ! j ( x j ) m j ! a ( x j ) d x ) ~ m a ! i ( x i ) / R x = x i t a ( x ) Q j 6 = i m j ! a ( x j ) d x ) g ij ( x i ) = ± ( x i ¡ j ) ~ m a ! i ( x i ) / 1 m i ! a ( x i ) P ro j [ m i ! a ( x i ) R x = x i t a ( x ) Q j 6 = i m j ! a ( x j ) d x )

37 37 Passages de messages Messages: passés entre facteurs Messages: approxim. des facteurs Facteur a reçoit –Minimise divergence locale pour avoir –Lenvoie aux autres facteurs –Répète à convergence Produit les 6 algos

38 38 Divergence globale vs. locale En général, local global mais résultats similaires BP ne minimise pas KL globale, mais est proche 0 MF local = global Pas de pertes avec le passage de messages local global

39 39 Une Hiérarchie dalgorithmes BP fully factorized KL(p||q) EP exp family KL(p||q) FBP fully factorized D (p||q) Power EP exp family D (p||q) MF fully factorized KL(q||p) TRW fully factorized D (p||q), >1 Structured MF exp family KL(q||p)

40 40 Matrice dalgorithmes BP fully factorized KL(p||q) EP exp family KL(p||q) FBP fully factorized D (p||q) Power EP exp family D (p||q) Mesures de divergence Autres familles? (melanges) MF fully factorized KL(q||p) TRW fully factorized D (p||q), >1 Famille approximante Structured MF exp family KL(q||p) Autres divergences?

41 41 Qua-t-on apris sur la qualité des approximations? Rien!? Mais accés à quelques propriétés de ces approximations Guide le choix dune mesure de divergence à minimiser et donc dun algorithme. 3 critères: Complexité: quelle est la divergence la plus facile à minimiser (calculs dépendent du problème par ex) Famille approximante: Si proche de la vraie distribution (alpha équivalents), loin (alpha=0 ou négatif), moyen (dépend de la tache) Nature de la tache: Marginales, constante de normalisation (BP)

42 42 Cas de lapprentissage bayesien, modèles à données manquantes, etc. Vraisemblance observée, sélection de modèles, distribution prédictive Distribution dintéret: Critère à considérer: MAP dans HMRF: alpha-Divergences OK Sélection de modèles dans HMRF: lien avec lapproximation de Laplace? R x p ( y j x ) p ( x ) d x D ® ( R x p ( x j y ) p ( x ) d x jj R x p ( x j y ) q ( x ) d x )


Télécharger ppt "1 Une vue unifiée des algorithmes avec passage de message: mesures de divergence Florence Forbes INRIA Rhone-Alpes Daprès un article de Tom Minka, Divergence."

Présentations similaires


Annonces Google