• 0:00
    /
    0:00
    Loaded: 0%
    0:00
    Progress: 0%
    Stream TypeLIVE
    0:00
     
    1x
    Advertisement

Comparaison et sélection Bayésienne de modèles

Présentations similaires


Présentation au sujet: "Comparaison et sélection Bayésienne de modèles"— Transcription de la présentation:

1 Comparaison et sélection Bayésienne de modèles
Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 24/02/2009

2 Correctif Ernst & Banks

3 Cas mono-modal

4 Integration visuo-haptique
0% 67% 133% 200%

5 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

6 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

7 Importance des variables cachées

8 Modélisation d’une série temporelle

9 P(y)

10 Variable cachée V1 = {Bleu, Rouge}
V1=R V1=B 10

11 P(y | [V1=R]) P(y | [V1=B]) 11

12 V2 = {Bleu, Rouge} [V1=R] [V1=B] P(y | [V1=R] [V2=R])
P(y | [V1=R] [V2=B]) [V1=R] P(y | [V1=B] [V2=R]) P(y | [V1=B] [V2=B]) [V1=B] 12

13 Digression : entropie Déf : Exemple : [Shannon, 1948] 13

14 Exemple 2 : P(X), X = {-1, 0, 1} 14

15 Variables cachées, connaissance et entropie
Théorème : Les variables cachées apportent de l’information P(y) P(y | [V1=B] [V2=B]) 15

16 Prédiction de la prochaine valeur ?
P(y) P(y | [V1=B] [V2=B]) 16

17 Pour 2007, [V1=B] et [V2=B] 17

18

19 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

20 Sources

21 Devinettes Quel est le suivant ? {1, 3, 5, 7, 9, 11, ?}
{1, 1, 2, 3, 5, 8, 13, ?} {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}

22 Réponses {1, 3, 5, 7, 9, 11, ?}  42 {1, 1, 2, 3, 5, 8, 13, ?}  42 {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}  42

23 Devinette n° 2 Combien de méthodes pour définir une relation mathématique ?

24 Combien de méthodes pour définir une relation mathématique ?
Par fonction analytique f E  F x | f(x) Par extension Ensemble de points (pas pratique pour un ensemble infini)

25 Quelle méthode pour la devinette ?
Passage de points à une fonction Utilisation de la fonction pour prédire le point suivant Modélisation Passage de points à un modèle Utilisation du modèle pour prédire le point suivant

26 Modélisation Définition d’une classe de modèles Sélection du modèle
Qui maximise une mesure donnée Méthode très générale ! Machine learning Réseau de neurone Algorithmes génétiques Apprentissage bayésien Curve fitting Optimisation

27 Mesures de qualité de modèles
Falsifiability Existe-t-il des observations incompatibles ? Explanatory adequacy Make sense of the data but also established findings Interpretability Réifiabilité : les paramètres sont liés à d’autres processus Faithfulness La qualité du modèle vient de sa structure, pas de propriétés du calcul, de la simulation Goodness of fit Complexity (or simplicity) Generalizability (Léna Soler, Introduction à l’épistémologie, Ellipses, 2000) (Myung 03)

28

29 Fit vs complexity Fit to regularity Fit to experimental noise
Intéressant à modéliser Fit to experimental noise Pas intéressant

30 Théorème Par n points passe un unique polynôme de degré n-1
n points (ou contraintes) Polynôme degré n-1 a n paramètres f(x) = ax2 + bx + c Par deux points passe une unique droite Par trois points passe une unique parabole

31 Théorème Par n points passe un unique polynôme de degré n-1
Idem développement limité de Taylor Idem Transformée de Fourier avec assez de paramètres, on approxime tout

32 Fit vs complexity

33 Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle
M1 : y = sin(cos(ax))aexp(-bx)/xb M2 : y = axb M3 : y = ax + b a=12 b=1

34 Fonctionnelle de Tikhonov
Mesure à minimiser R(M, Δ) = GM(Δ) + λ H(M) GM(Δ) mesure de fit H(M) mesure de complexité (indépendante de Δ) λ : poids relatif Tradeoff a résoudre : complexity regularization (idem en machine learning)

35

36 Generalizability

37 Mesure de generalisation
Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT Mesure de divergence entre distribution de probabilité D D(f,g) > D(f,f)=0 si f ≠ g

38 Mesure de generalisation
Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT MT est évidemment inconnu

39 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

40 Cross-validation (CV)
Estimer la généralisation du modèle sans connaître le vrai modèle Partitionner les données Δ Identification de paramètres sur la partie calibration Estimation de la capacité de généralisation sur la partie validation

41 Méthodes de CV Split-sample, hold-out method
Split-half cross-validation Coupe en deux Δ = Δ1, Δ2 Estime les paramètres sur Δ1 Calcule l’erreur de prédiction sur Δ2  e1 Intervertir Δ1, Δ2, recommencer  e2 Validation croisée Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2

42 Méthodes de CV Leave-one-out cross-validation
Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction Répéter n fois Erreur de prédiction moyenne sur les n étapes

43 Méthodes de CV K-fold cross-validation K blocs de taille n/K
Données pour l’identification : K-1 blocs (taille n-n/K) Données pour la prédiction : 1 bloc (taille n/K) Idem leave-n/K-out Choix de K change le résultat

44 Méthode de CV Bootstrapping Tirage avec replacement
 subsamples au lieu de subsets des données .632+ bootstrap method 63,2 % de Δ pour l’identification

45 Critique de la CV Large training set  overfitting
Small training set  underfitting Trouver le bon découpage même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov Rien résolu (mais facile à coder)

46 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

47 Mesures de distances entre distributions de probabilités
Kullback-Leibler Distance / divergence de Kullback-Leibler KL divergence Information gain Relative entropy Cross entropy Mutual information

48 KL divergence Pas une mesure de distance D(p,q) ≠ D(q,p)
D(p,q) > 0 pour tout p,q D(p,q) = 0 ssi pk = qk pour tout k

49 Cross entropy Entropie H(p), cross-entropie H(p,q)
Relation avec la KL divergence

50 Mutual information mesurée en bits I(X,Y) = I(Y,X) I(X,Y) ≥ 0

51 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

52 En modélisation probabiliste
Un modèle Point expérimental δ = {x,y} P(δ) = P(y | x) P(x) P(δ | θ1) = P(y | x θ1) P(x | θ1) P(δ | θ1 m1) = P(y | x θ1 m1) P(x | θ1 m1)

53 En modélisation probabiliste
Plusieurs modèles Espace de paramètres Θ = {θ1, θ2, …} Classe des modèles M = {m1, m2, …} Un modèle : P(y | x [Θ = θ1] [M = m1]) Méta-modèle, modèle hiérarchique P(Δ Θ M) = P(δi Θ M) = P(x y Θ M) = P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M)

54 Mesure de comparaison des modèles
Probabilité d’un modèle m1, au vu de données expérimentales Δ P(Δ Θ M) = P(δi Θ M) = P(x y Θ M) = P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M) = P(δi | Θ M) P(Θ | M) P(M)

55 Quel est le modèle le plus probable, au vu des données ?
Soient Un seul modèle M D = {d1, …, dn}, un ensemble de données expérimentales  un ensemble de paramètres de M Quel est le modèle le plus probable, au vu des données ? (Règle de Bayes) (Hyp i.i.d.)

56 Si P() = uniforme Si P()  uniforme Modèle = prior  vraisemblance
Posterior Prior Vraisemblance Si P() = uniforme Modèle de maximum de vraisemblance Maximum Likelihood (MLE) Si P()  uniforme Modèle = prior  vraisemblance Modèle de maximum a posteriori (MAP) Modèle bayésien

57 Goodness of fit en probabilités
Maximiser la vraisemblance P(Δ | Θ M) P(Δ | Θ M) = Πi P(δi | Θ M) max P(Δ | Θ M) = max log P(Δ | Θ M) = max log Πi P(δi | Θ M) = max Σi log P(δi | Θ M)

58 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

59 Tel monsieur Jourdain…
Un phénomène génère des couples x,y Un modèle prédit y = F(x), F linéaire, F = ax + b autorise du « bruit » dans les mesures On observe D = {dx1, …, dxn} Question Quels sont les paramètres a, b les plus probables ?

60 Tel monsieur Jourdain…

61 Tel monsieur Jourdain…

62 Moindre carrés de l’erreur
Comme un Réseau de Neurones & Backpropagation (Mitchell 95, p167) Une régression linéaire

63 Least square fitting sur Mathworld

64 Pour aller plus loin… Inférence dans les cas non-linéaires
Moindres carrés Bayésien Espace de modèles  = {3x+2, 4x3-2x2+4} Priors hiérarchiques P( | ) Rasoir d’Occam automatique…

65 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

66 Odds, posterior odds, evidence
Une hypothèse H (modèle), et Odds , log odds (stats)

67 Odds, posterior odds, evidence

68 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

69 Identification de paramètres vs Sélection de modèles
P(θ | Δ M)  learning Sélection de modèle P(M θ | Δ) P(M | Δ)

70 Comparaison de modèles
Basés sur la vraisemblance AIC Akaike Information Criterion BIC Bayesian Information Criterion MDL Minimum Description Length BMS Bayesian Model Selection

71 AIC avec k le nombre de paramètres Modèle M qui minimise la mesure AIC
Fonctionnelle de Tikhonov AIC = lack of fit + complexity Dérive de l’approximation pour de larges ensembles de données de la KL divergence

72 BIC avec k le nombre de paramètres n le nombre de données Dérive de l’approximation pour de larges ensembles de données de la Bayesian Model Selection

73 MDL avec k le nombre de paramètres n le nombre de données
I(θ) la matrice d’information de Fisher |.| le déterminant de la matrice

74 MDL Mesure de complexité qui prend en compte la forme fonctionnelle
Provient de la théorie de l’information Compression des données Δ par modèle + déviation

75 BMS Vraisemblance Vraisemblance marginale P(Δ | θ M)
P(Δ | M) = Σθ P(Δ | θ M) P(θ | M)

76 Bayesian model selection
Attention BMS Bayesian model selection BMS Bootstrap model selection

77 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

78 « vraie » Bayesian model selection
Prior sur M uniforme ou pas Prior sur les paramètres θ uniformes ou pas

79 Bayesian model selection
Intégrale sur l’espace des paramètres MAP si on la fait méthodes de Monte-Carlo (voire, méthode de Gibbs (Mitchell 95)) si on tire aléatoirement dans θ pour approximer Gibbs sampling Metropolis-Hastings Random walk methods Approximation du log vraisemblance autour de BMSL Bayesian Model Selection Laplace approximation

80 Bayes Factor Extension du odds
Ratio de vraisemblances marginales si prior uniforme sur M P(M1) = P(M2)

81 Bayesian Model Selection
n’a pas la forme d’une fonctionnelle de Tikhonov et pourtant, mesure la complexité des M

82 BMS et mesure de complexité
« Occam automatique » : intuition Si et P(Δ | θ) concentré autour de Alors P(θ2 | Δ) pénalisé par la normalisation sur Θ2 (espace plus grand)

83 Plan Modélisation : choix des variables
Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

84 Distinguabilité des modèles
Sélectionner un modèle, ok Boucle expérimentale : où prendre la prochaine donnée expérimentale ? Notion philosophique d’expérience cruciale (discriminante) Distinguer les modèles

85 Distinguabilité des modèles
Modèle de distinguabilité en PBR Extension du méta-modèle de fit

86 Question ouverte Deux problèmes inverses
Perception Phénomène = f -1 (stimuli) Modélisation Modèle = f -1 (observations) Doit-on conclure que le cerveau construit des modèles comme un scientifique le fait ? Le cerveau est-il bayésien ?

87 Question ouverte Pourquoi 42 ?

88 Merci de votre attention !
Questions ?


Télécharger ppt "Comparaison et sélection Bayésienne de modèles"
Annonces Google