La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Comparaison et sélection Bayésienne de modèles

Présentations similaires


Présentation au sujet: "Comparaison et sélection Bayésienne de modèles"— Transcription de la présentation:

1 Comparaison et sélection Bayésienne de modèles
Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 24/02/2009

2 Correctif Ernst & Banks

3 Cas mono-modal

4 Integration visuo-haptique
0% 67% 133% 200%

5 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

6 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

7 Importance des variables cachées

8 Modélisation d’une série temporelle

9 P(y)

10 Variable cachée V1 = {Bleu, Rouge}
V1=R V1=B 10

11 P(y | [V1=R]) P(y | [V1=B]) 11

12 V2 = {Bleu, Rouge} [V1=R] [V1=B] P(y | [V1=R] [V2=R])
P(y | [V1=R] [V2=B]) [V1=R] P(y | [V1=B] [V2=R]) P(y | [V1=B] [V2=B]) [V1=B] 12

13 Digression : entropie Déf : Exemple : [Shannon, 1948] 13

14 Exemple 2 : P(X), X = {-1, 0, 1} 14

15 Variables cachées, connaissance et entropie
Théorème : Les variables cachées apportent de l’information P(y) P(y | [V1=B] [V2=B]) 15

16 Prédiction de la prochaine valeur ?
P(y) P(y | [V1=B] [V2=B]) 16

17 Pour 2007, [V1=B] et [V2=B] 17

18

19 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

20 Sources

21 Devinettes Quel est le suivant ? {1, 3, 5, 7, 9, 11, ?}
{1, 1, 2, 3, 5, 8, 13, ?} {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}

22 Réponses {1, 3, 5, 7, 9, 11, ?}  42 {1, 1, 2, 3, 5, 8, 13, ?}  42 {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}  42

23 Devinette n° 2 Combien de méthodes pour définir une relation mathématique ?

24 Combien de méthodes pour définir une relation mathématique ?
Par fonction analytique f E  F x | f(x) Par extension Ensemble de points (pas pratique pour un ensemble infini)

25 Quelle méthode pour la devinette ?
Passage de points à une fonction Utilisation de la fonction pour prédire le point suivant Modélisation Passage de points à un modèle Utilisation du modèle pour prédire le point suivant

26 Modélisation Définition d’une classe de modèles Sélection du modèle
Qui maximise une mesure donnée Méthode très générale ! Machine learning Réseau de neurone Algorithmes génétiques Apprentissage bayésien Curve fitting Optimisation

27 Mesures de qualité de modèles
Falsifiability Existe-t-il des observations incompatibles ? Explanatory adequacy Make sense of the data but also established findings Interpretability Réifiabilité : les paramètres sont liés à d’autres processus Faithfulness La qualité du modèle vient de sa structure, pas de propriétés du calcul, de la simulation Goodness of fit Complexity (or simplicity) Generalizability (Léna Soler, Introduction à l’épistémologie, Ellipses, 2000) (Myung 03)

28

29 Fit vs complexity Fit to regularity Fit to experimental noise
Intéressant à modéliser Fit to experimental noise Pas intéressant

30 Théorème Par n points passe un unique polynôme de degré n-1
n points (ou contraintes) Polynôme degré n-1 a n paramètres f(x) = ax2 + bx + c Par deux points passe une unique droite Par trois points passe une unique parabole

31 Théorème Par n points passe un unique polynôme de degré n-1
Idem développement limité de Taylor Idem Transformée de Fourier avec assez de paramètres, on approxime tout

32 Fit vs complexity

33 Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle
M1 : y = sin(cos(ax))aexp(-bx)/xb M2 : y = axb M3 : y = ax + b a=12 b=1

34 Fonctionnelle de Tikhonov
Mesure à minimiser R(M, Δ) = GM(Δ) + λ H(M) GM(Δ) mesure de fit H(M) mesure de complexité (indépendante de Δ) λ : poids relatif Tradeoff a résoudre : complexity regularization (idem en machine learning)

35

36 Generalizability

37 Mesure de generalisation
Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT Mesure de divergence entre distribution de probabilité D D(f,g) > D(f,f)=0 si f ≠ g

38 Mesure de generalisation
Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT MT est évidemment inconnu

39 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

40 Cross-validation (CV)
Estimer la généralisation du modèle sans connaître le vrai modèle Partitionner les données Δ Identification de paramètres sur la partie calibration Estimation de la capacité de généralisation sur la partie validation

41 Méthodes de CV Split-sample, hold-out method
Split-half cross-validation Coupe en deux Δ = Δ1, Δ2 Estime les paramètres sur Δ1 Calcule l’erreur de prédiction sur Δ2  e1 Intervertir Δ1, Δ2, recommencer  e2 Validation croisée Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2

42 Méthodes de CV Leave-one-out cross-validation
Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction Répéter n fois Erreur de prédiction moyenne sur les n étapes

43 Méthodes de CV K-fold cross-validation K blocs de taille n/K
Données pour l’identification : K-1 blocs (taille n-n/K) Données pour la prédiction : 1 bloc (taille n/K) Idem leave-n/K-out Choix de K change le résultat

44 Méthode de CV Bootstrapping Tirage avec replacement
 subsamples au lieu de subsets des données .632+ bootstrap method 63,2 % de Δ pour l’identification

45 Critique de la CV Large training set  overfitting
Small training set  underfitting Trouver le bon découpage même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov Rien résolu (mais facile à coder)

46 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

47 Mesures de distances entre distributions de probabilités
Kullback-Leibler Distance / divergence de Kullback-Leibler KL divergence Information gain Relative entropy Cross entropy Mutual information

48 KL divergence Pas une mesure de distance D(p,q) ≠ D(q,p)
D(p,q) > 0 pour tout p,q D(p,q) = 0 ssi pk = qk pour tout k

49 Cross entropy Entropie H(p), cross-entropie H(p,q)
Relation avec la KL divergence

50 Mutual information mesurée en bits I(X,Y) = I(Y,X) I(X,Y) ≥ 0

51 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

52 En modélisation probabiliste
Un modèle Point expérimental δ = {x,y} P(δ) = P(y | x) P(x) P(δ | θ1) = P(y | x θ1) P(x | θ1) P(δ | θ1 m1) = P(y | x θ1 m1) P(x | θ1 m1)

53 En modélisation probabiliste
Plusieurs modèles Espace de paramètres Θ = {θ1, θ2, …} Classe des modèles M = {m1, m2, …} Un modèle : P(y | x [Θ = θ1] [M = m1]) Méta-modèle, modèle hiérarchique P(Δ Θ M) = P(δi Θ M) = P(x y Θ M) = P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M)

54 Mesure de comparaison des modèles
Probabilité d’un modèle m1, au vu de données expérimentales Δ P(Δ Θ M) = P(δi Θ M) = P(x y Θ M) = P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M) = P(δi | Θ M) P(Θ | M) P(M)

55 Quel est le modèle le plus probable, au vu des données ?
Soient Un seul modèle M D = {d1, …, dn}, un ensemble de données expérimentales  un ensemble de paramètres de M Quel est le modèle le plus probable, au vu des données ? (Règle de Bayes) (Hyp i.i.d.)

56 Si P() = uniforme Si P()  uniforme Modèle = prior  vraisemblance
Posterior Prior Vraisemblance Si P() = uniforme Modèle de maximum de vraisemblance Maximum Likelihood (MLE) Si P()  uniforme Modèle = prior  vraisemblance Modèle de maximum a posteriori (MAP) Modèle bayésien

57 Goodness of fit en probabilités
Maximiser la vraisemblance P(Δ | Θ M) P(Δ | Θ M) = Πi P(δi | Θ M) max P(Δ | Θ M) = max log P(Δ | Θ M) = max log Πi P(δi | Θ M) = max Σi log P(δi | Θ M)

58 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

59 Tel monsieur Jourdain…
Un phénomène génère des couples x,y Un modèle prédit y = F(x), F linéaire, F = ax + b autorise du « bruit » dans les mesures On observe D = {dx1, …, dxn} Question Quels sont les paramètres a, b les plus probables ?

60 Tel monsieur Jourdain…

61 Tel monsieur Jourdain…

62 Moindre carrés de l’erreur
Comme un Réseau de Neurones & Backpropagation (Mitchell 95, p167) Une régression linéaire

63 Least square fitting sur Mathworld

64 Pour aller plus loin… Inférence dans les cas non-linéaires
Moindres carrés Bayésien Espace de modèles  = {3x+2, 4x3-2x2+4} Priors hiérarchiques P( | ) Rasoir d’Occam automatique…

65 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

66 Odds, posterior odds, evidence
Une hypothèse H (modèle), et Odds , log odds (stats)

67 Odds, posterior odds, evidence

68 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

69 Identification de paramètres vs Sélection de modèles
P(θ | Δ M)  learning Sélection de modèle P(M θ | Δ) P(M | Δ)

70 Comparaison de modèles
Basés sur la vraisemblance AIC Akaike Information Criterion BIC Bayesian Information Criterion MDL Minimum Description Length BMS Bayesian Model Selection

71 AIC avec k le nombre de paramètres Modèle M qui minimise la mesure AIC
Fonctionnelle de Tikhonov AIC = lack of fit + complexity Dérive de l’approximation pour de larges ensembles de données de la KL divergence

72 BIC avec k le nombre de paramètres n le nombre de données Dérive de l’approximation pour de larges ensembles de données de la Bayesian Model Selection

73 MDL avec k le nombre de paramètres n le nombre de données
I(θ) la matrice d’information de Fisher |.| le déterminant de la matrice

74 MDL Mesure de complexité qui prend en compte la forme fonctionnelle
Provient de la théorie de l’information Compression des données Δ par modèle + déviation

75 BMS Vraisemblance Vraisemblance marginale P(Δ | θ M)
P(Δ | M) = Σθ P(Δ | θ M) P(θ | M)

76 Bayesian model selection
Attention BMS Bayesian model selection BMS Bootstrap model selection

77 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

78 « vraie » Bayesian model selection
Prior sur M uniforme ou pas Prior sur les paramètres θ uniformes ou pas

79 Bayesian model selection
Intégrale sur l’espace des paramètres MAP si on la fait méthodes de Monte-Carlo (voire, méthode de Gibbs (Mitchell 95)) si on tire aléatoirement dans θ pour approximer Gibbs sampling Metropolis-Hastings Random walk methods Approximation du log vraisemblance autour de BMSL Bayesian Model Selection Laplace approximation

80 Bayes Factor Extension du odds
Ratio de vraisemblances marginales si prior uniforme sur M P(M1) = P(M2)

81 Bayesian Model Selection
n’a pas la forme d’une fonctionnelle de Tikhonov et pourtant, mesure la complexité des M

82 BMS et mesure de complexité
« Occam automatique » : intuition Si et P(Δ | θ) concentré autour de Alors P(θ2 | Δ) pénalisé par la normalisation sur Θ2 (espace plus grand)

83 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

84 Distinguabilité des modèles
Sélectionner un modèle, ok Boucle expérimentale : où prendre la prochaine donnée expérimentale ? Notion philosophique d’expérience cruciale (discriminante) Distinguer les modèles

85 Distinguabilité des modèles
Modèle de distinguabilité en PBR Extension du méta-modèle de fit

86 Question ouverte Deux problèmes inverses
Perception Phénomène = f -1 (stimuli) Modélisation Modèle = f -1 (observations) Doit-on conclure que le cerveau construit des modèles comme un scientifique le fait ? Le cerveau est-il bayésien ?

87 Question ouverte Pourquoi 42 ?

88 Merci de votre attention !
Questions ?


Télécharger ppt "Comparaison et sélection Bayésienne de modèles"

Présentations similaires


Annonces Google