Télécharger la présentation
Publié parMegane Abadie Modifié depuis plus de 10 années
1
Cours 5 Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 18/01/2012
2
Plan des cours Introduction à la Programmation Bayésienne : incomplétude, incertitude Programmation bayésienne : exemple détaillé, Classes de modèles probabilistes Distributions usuelles, Programmation bayésienne des robots Modélisation bayésienne de la perception et de l’action Comparaison bayésienne de modèles Compléments : inférence, apprentissage, principe d’entropie
3
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
4
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
5
Inférence exacte Inférence approximée
sommation, propagation des incertitudes Inférence approximée décisions intermédiaires (tirage de points), propagation d’une partie des incertitudes
6
Modélisation de la perception
stimulus Perception Un problème inverse (Poggio, 1984) Modèle bayésien Inversion + hypothèse d’indépendance conditionnelle sensations
7
Humans integrate visual and haptic information in a statistically optimal fashion
Mécanisme d’integration visuo-haptique par fusion de gaussiennes Utilisé par les humains
8
Causal inference (Körding et al., 07; Sato et al., 07)
Y a-t-il une source unique, ou deux sources distinctes ?
9
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
10
Sources
11
Devinette n° 1 Quel est le suivant ? {1, 3, 5, 7, 9, 11, ?}
{1, 1, 2, 3, 5, 8, 13, ?} {0, 4, 7, 6, 8, 2, 5, 8, 9, ?}
12
Réponses {1, 3, 5, 7, 9, 11, ?} 42 {1, 1, 2, 3, 5, 8, 13, ?} 42 {0, 4, 7, 6, 8, 2, 5, 8, 9, ?} 42
13
Devinette n° 2 Combien de méthodes pour définir une relation mathématique ?
14
Combien de méthodes pour définir une relation mathématique ?
Par fonction analytique f E F x | f(x) Par extension Ensemble de points (pas pratique pour un ensemble infini)
15
Quelle méthode pour la devinette ?
Passage de points à une fonction Utilisation de la fonction pour prédire le point suivant ≅ Modélisation
16
Modélisation : méthode
data set set of models set of parameters Définir une classe de modèles M Définir une mesure de « qualité » Sélectionner le modèle dans M qui maximise la mesure
17
Modélisation Méthode très générale ! Machine learning data set
set of models set of parameters Méthode très générale ! Machine learning Réseau de neurone Algorithmes génétiques Apprentissage bayésien Curve fitting Optimisation Regression
18
Précaution Toute l’activité scientifique n’est pas que la modélisation
Modèle vs. Théorie Modèle vs. Expérience
19
Mesures de qualité de modèles
Falsifiability (réfutabilité, pas falsifiabilité !) Existe-t-il des observations incompatibles ? Explanatory adequacy Make sense of the data but also of established findings Interpretability Réifiabilité : les paramètres sont liés à d’autres processus Faithfulness La qualité du modèle vient de sa structure, pas de propriétés du calcul, ni de la simulation Goodness of fit Complexity (or simplicity) Generalizability (Karl Popper, La connaissance objective, 1985) (Léna Soler, Introduction à l’épistémologie, 2000) (Myung, 2003)
20
Mesures de qualité de fit
Residual Pourcentage de la variance Percent variance accounted for PVAF Root mean square deviation RMSD = root mean square error RMSE
21
Mesures de qualité de fit
Correlation coefficient R2 aka Pearson’s sample correlation coefficient Simple correlation coefficient Cross-correlation coefficient Product-moment coefficient Formes multidimensionnelles Matricielles Multiple Correlation Coefficient R
22
Correlation coefficient
23
Correlation coefficient
Explorer les données !
24
Fit vs complexity Fit to regularity Fit to experimental noise
Intéressant à modéliser Fit to experimental noise Pas intéressant
25
Théorème Par n points passe un unique polynôme de degré n-1
n points (ou contraintes) Polynôme degré n-1 a n paramètres f(x) = ax2 + bx + c Par deux points passe une unique droite Par trois points passe une unique parabole
26
Théorème Par n points passe un unique polynôme de degré n-1 Idem
développement limité de Taylor Transformée de Fourier Somme de noyaux Gaussiens avec assez de paramètres, on approxime tout
27
Fit vs complexity underfitting « sweet spot » overfitting
28
Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle
M1 : y = sin(cos(ax))aexp(-bx)/xb M2 : y = axb M3 : y = ax + b a=12 b=1
29
Fonctionnelle de Tikhonov
Mesure à minimiser R(M, Δ) = GM(Δ) + λ H(M) GM(Δ) mesure de fit H(M) mesure de complexité indépendante de Δ λ : poids relatif Compromis à résoudre : complexity regularization (central en machine learning)
31
Generalizability underfitting « sweet spot » overfitting Fit sur les
points observés Fit sur les points pas encore observés underfitting « sweet spot » overfitting
32
Mesure de generalisation
Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT Mesure de divergence entre distribution de probabilité D D(f,g) > D(f,f)=0 si f ≠ g
33
Mesure de generalisation
Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT MT est évidemment inconnu
34
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
35
Cross-validation (CV)
Estimer la généralisation du modèle sans connaître le vrai modèle Partitionner les données Δ Identification de paramètres sur la partie calibration Estimation de la capacité de généralisation sur la partie validation
36
Méthodes de CV Split-sample, hold-out method
Split-half cross-validation Coupe en deux Δ = Δ1, Δ2 Estime les paramètres sur Δ1 Calcule l’erreur de prédiction sur Δ2 e1 Intervertir Δ1, Δ2, recommencer e2 Validation croisée Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2
37
Méthodes de CV Leave-one-out cross-validation
Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction Répéter n fois Erreur de prédiction moyenne sur les n étapes
38
Méthodes de CV K-fold cross-validation K blocs de taille n/K
Données pour l’identification : K-1 blocs (taille n-n/K) Données pour la prédiction : 1 bloc (taille n/K) Idem leave-n/K-out Choix de K change le résultat
39
Méthode de CV Bootstrapping Tirage avec replacement
subsamples au lieu de subsets des données .632+ bootstrap method 63,2 % de Δ pour l’identification
40
Critique de la CV Large training set overfitting
Small training set underfitting Trouver le bon découpage même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov Rien résolu (mais facile à coder)
41
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
42
Mesures de distances entre distributions de probabilités
Déf : Une métrique est une fonction g non-négative telle que Inégalité triangulaire g(x,y)+g(y,z) ≥ g(x,z) Symétrique g(x,y) = g(y,x) g(x,x) = 0 g(x,y) = 0 => x = y
43
Mesures de distances entre distributions de probabilités
Kullback-Leibler Distance / divergence de Kullback-Leibler KL divergence Information gain Relative entropy Cross entropy Mutual information
44
KL divergence Pas une mesure de distance D(p,q) ≠ D(q,p)
se symétrise Ds(p,q)=Ds(q,p)= (D(p,q)+D(q,p)) /2 D(p,q) > 0 pour tout p,q D(p,q) = 0 ssi pk = qk pour tout k
45
Cross entropy Entropie H(p), cross-entropie H(p,q)
Relation avec la KL divergence
46
Mutual information mesurée en bits I(X,Y) = I(Y,X) I(X,Y) ≥ 0
47
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
48
Notation probabiliste
Soient Θ = {θ1, θ2, …} paramètres des modèles Δ = {δ1, δ2, …, δn} données expérimentales δi = {x, y} une donnée x condition : var indépendante contrôlée VI y observation pour cette condition : var dépendante VD Un modèle
49
En modélisation probabiliste
Plusieurs modèles Espace de paramètres Θ = {θ1, θ2, …} Classe des modèles M = {m1, m2, …} Un modèle : P(y | x [Θ = θ1] [M = m1]) Méta-modèle, modèle hiérarchique
50
Méta-modèle
51
Méta-modèle Version simplifiée : une seule classe de modèle
\begin{eqnarray*}P(\Delta~\Theta) & = & P(\delta_0\ldots\delta_N~\Theta) \\& = & \prod_i P(\delta_i~\Theta) \mbox{~~~~~~~~~~~~~~~~~~~(hyp i.i.d.)} \\& = & \prod_i P(\delta_i~|~\Theta) P(\Theta) \\& = & \prod_i P(x_i~y_i~|~\Theta) P(\Theta) \\& = & \prod_i P(y_i~|~x_i~\Theta) P(x_i) P(\Theta) \\& = & \prod_i P(y_i~|~x_i~\Theta) P(\Theta) \mbox{~~~~~($P(x)$ uniforme)}\end{eqnarray*}
52
Mesure de comparaison des modèles
Calculer la probabilité d’un modèle m1, au vu de données expérimentales Δ
53
Si P() = uniforme Si P() uniforme Modèle = prior vraisemblance
Posterior Prior Vraisemblance Si P() = uniforme Modèle de maximum de vraisemblance Maximum Likelihood (MLE) Si P() uniforme Modèle = prior vraisemblance Modèle de maximum a posteriori (MAP) Modèle bayésien
54
Goodness of fit en probabilités
Maximiser la vraisemblance
55
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
56
Tel monsieur Jourdain…
Un phénomène génère des couples di = x,y Un modèle prédit y = F(x), F linéaire, F = ax + b autorise du « bruit » dans les mesures On observe D = {dx1, …, dxn} Question Quels sont les paramètres a, b les plus probables ?
57
Tel monsieur Jourdain…
58
Tel monsieur Jourdain…
59
Moindre carrés de l’erreur
Comme un Réseau de Neurones & Backpropagation (Mitchell 95, p167) Une régression linéaire residual …
60
Least square fitting sur Mathworld http://mathworld.wolfram.com
61
Pour aller plus loin… Inférence dans les cas non-linéaires
Moindres carrés Bayésien Espace de modèles = {3x+2, 4x3-2x2+4} Priors hiérarchiques P( | ) Rasoir d’Occam automatique…
62
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
63
Odds, posterior odds, evidence
Un modèle à 2 cas : Une hypothèse H, et
64
Odds, posterior odds, evidence
Odds , log odds (stats) Posterior odds Odds en bijection avec p
65
Odds, posterior odds, evidence
Evidence (en decibels db) Evidence en bijection avec p
66
Odds, posterior odds, evidence
67
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
68
Identification de paramètres vs Sélection de modèles
Identification de paramètres learning Sélection de modèle
69
Comparaison de modèles
Basés sur la vraisemblance AIC Akaike Information Criterion BIC Bayesian Information Criterion MDL Minimum Description Length BMS Bayesian Model Selection
70
AIC avec k le nombre de paramètres Modèle M qui minimise la mesure AIC
Fonctionnelle de Tikhonov AIC = lack of fit + complexity Dérive de l’approximation pour de larges ensembles de données de la KL divergence
71
BIC avec k le nombre de paramètres n le nombre de données Dérive de l’approximation pour de larges ensembles de données de la Bayesian Model Selection
72
MDL avec k le nombre de paramètres n le nombre de données
I(θ) la matrice d’information de Fisher Matrice des espérances des log des dérivées partielles de la vraisemblance selon les dimensions |.| le déterminant de la matrice
73
MDL Mesure de complexité qui prend en compte la forme fonctionnelle
Provient de la théorie de l’information Compression des données Δ par modèle + déviation
74
BMS Vraisemblance Vraisemblance marginale
75
Bayesian model selection
Attention BMS Bayesian model selection BMS Bootstrap model selection
76
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
77
« vraie » Bayesian model selection
Prior sur M uniforme ou pas Prior sur les paramètres θ uniformes ou pas
78
Bayesian model selection
Intégrale sur l’espace des paramètres MAP si on la fait méthodes de Monte-Carlo (voire, méthode de Gibbs (Mitchell 95)) si on tire aléatoirement dans θ pour approximer Gibbs sampling Metropolis-Hastings Random walk methods Approximation du log vraisemblance autour de BMSL Bayesian Model Selection Laplace approximation
79
Bayes Factor Extension du odds
Ratio de vraisemblances marginales si prior uniforme sur M P(M1) = P(M2)
80
Bayesian Model Selection
n’a pas la forme d’une fonctionnelle de Tikhonov et pourtant, mesure la complexité des M
81
BMS et mesure de complexité
« Occam automatique » : intuition Si et P(Δ | θ) concentré autour de Alors P(θ2 | Δ) pénalisé par la normalisation sur Θ2 (espace plus grand)
82
Rasoir d’Occam automatique
MacKay, 03
83
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
84
? Question ouverte 1 Distinguabilité des modèles data set
Sélectionner un modèle, ok Boucle expérimentale où prendre la prochaine donnée expérimentale ? Notion d’expérience cruciale (discriminante) Distinguer les modèles Distinguabilité des modèles Design optimization Active learning (active perception) Optimal experimental design Bayesian model distinguishability modélisation data set set of models set of parameters ?
85
Question ouverte 2 Deux problèmes inverses
Perception Phénomène = f -1 (stimuli) Modélisation Modèle = f -1 (observations) Doit-on conclure que le cerveau construit des modèles comme un scientifique le fait ? Le cerveau est-il bayésien ?
86
Question ouverte 3 Pourquoi 42 ?
87
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
88
Modélisation du contrôle
Mouvements de pointage, volontaire, chez l’humain Etude des régularités Lois du mouvement Isochronie, loi de Fitts, loi de la puissance 2/3 Hypothèses sur les mécanismes Modèles (neuro)cognitifs
89
Modèles de planification de mouvements
Sélection d’une trajectoire selon un coût
90
Quelle grandeur manipulée par le système de contrôle ?
+ free energy principle (Friston 10) + inactivation principle (Berret 08) + …
91
Minimum variance Bruit dépendant du signal (signal dependent noise SDN)
92
Bayesian Decision Theory
Modèle probabiliste + modèle de coût (reward, cost, loss function) Bayes theorem Prior Bayesian decision theory X Posterior observation di Likelihood X output Cost function
93
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
94
Modélisation bayésienne d’une boucle sensorimotrice : application à l’écriture
95
Plan Résumé + questions ! Comparaison et sélection de modèles
Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables
96
Importance des variables cachées
97
Modélisation d’une série temporelle
98
P(y)
99
Variable cachée V1 = {Bleu, Rouge}
V1=R V1=B
100
P(y | [V1=R]) P(y | [V1=B])
101
V2 = {Bleu, Rouge} [V1=R] [V1=B] P(y | [V1=R] [V2=R])
P(y | [V1=R] [V2=B]) [V1=R] P(y | [V1=B] [V2=R]) P(y | [V1=B] [V2=B]) [V1=B]
102
Digression : entropie Déf : Exemple : [Shannon, 1948]
103
Exemple 2 : P(X), X = {-1, 0, 1}
104
Variables cachées, connaissance et entropie
Théorème : Les variables cachées apportent de l’information P(y) P(y | [V1=B] [V2=B])
105
Prédiction de la prochaine valeur ?
P(y) P(y | [V1=B] [V2=B])
106
Pour 2007, [V1=B] et [V2=B]
107
Merci de votre attention !
Questions ?
108
Distinguabilité des modèles
Modèle de distinguabilité Extension du méta-modèle de fit P(Δ Θ M) = P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M)
109
Distinguabilité des modèles
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.