Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Comparaison et sélection Bayésienne de modèles Julien Diard Laboratoire.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

DECONVOLUTION ET AUTRES
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Apprentissage supervisé à partir de séquences
Champs de Markov en Vision par Ordinateur
RECONNAISSANCE DE FORMES
Calculs de complexité d'algorithmes
Inférence statistique
Les K plus proches voisins
Corrélations et ajustements linéaires.
Maria-João Rendas CNRS – I3S Novembre 2006
Régression -corrélation
Résumé cours précédent
Modélisation Bayésienne par chaines de Markov Monte Carlo
Application à la méthode des
DEA instrumentation et commande
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Chapitre 2 Les indices.
Cours 5 Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 18/01/

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Concepts avancés en mathématiques et informatique appliquées
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Construction de modèles visuels
DEA Perception et Traitement de l’Information
Signaux aléatoires.
Corrélation et régression linéaire simple
Modeles non-lineaires
Les réseaux de neurones
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Régression linéaire (STT-2400)
Comparaison et sélection Bayésienne de modèles
La régression multiple
Filtrage de Kalman et aperçu probabiliste
Régression linéaire multiple : hypothèses & interprétation
1 Notations Asymptotiques Et Complexité Notations asymptotiques : 0 et  Complexité des algorithmes Exemples de calcul de complexité.
Méthodes de Biostatistique
Apprentissage Statistique et Techniques de Ré-échantillonnage
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
Chapitre 3-B : AUTOMATIQUE : LES S.L.C.I.
10 février 2006GDR ISIS Journée Localisation et Navigation Projet EGNOS-BUS (Eurêka) André Monin, Wael Suleiman LAAS-CNRS.
Outils mathématiques pour le datamining
Equations d’estimation généralisées: GEE
Classification : objectifs
Présentation du marché obligataire
STATISTIQUES – PROBABILITÉS
GTS813: cours #6 Évaluation d’une mesure (Validité, Répétabilité, Fiabilité, précision) Activité. Études de cas #2: Qui pose la question? La question est-elle.
Probabilités et Statistiques Année 2010/2011
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Chapitre 1 - Introduction.
Julien Diard — LPNC-CNRS Cours M2R Psychologie Cognitive — UE18S3 — 2009 Introduction à la modélisation bayésienne Julien Diard Laboratoire de Psychologie.
Julien Diard — LPNC-CNRS Cours M2R Psychologie Cognitive — UE18S3 — 2010 Introduction à la modélisation bayésienne Julien Diard Laboratoire de Psychologie.
Introduction à la modélisation bayésienne
Méthode des moindres carrés (1)
Modélisation bayésienne de la perception et de l’action
Rappels sur les fonctions et les suites aléatoires
ETUDE DE 2 VARIABLES QUANTITATIVES
Julien Diard — LPNC-CNRS Cours M2R Psychologie Cognitive — UE18S3 — 2009 Introduction à la modélisation bayésienne Julien Diard Laboratoire de Psychologie.
Neurogéométrie & Contours subjectifs
Julien Diard — LPNC-CNRS Cours M2R Psychologie Cognitive — UE18S3 — 2010 Introduction à la modélisation bayésienne Julien Diard Laboratoire de Psychologie.
Rappel de statistiques
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
La grande combinaison: problèmes et solutions Pourquoi les combinaisons ? Comment combiner ? Les problèmes techniques ? Les solutions possibles Prospectives.
Segmentation (2 ième partie) Références: Sonka et al: sections 6.2.6, 10.2 (10.6) Autres: chap Forsyth chap. 4 Ballard & Brown (pour GHT) Dernière.
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Transcription de la présentation:

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Comparaison et sélection Bayésienne de modèles Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 30/11/

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Plan Modélisation : choix des variables Comparaison et sélection de modèles –Cadre général : fit, complexité, capacité de généralisation –Méthodes de validation croisée –Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles –Sélection probabiliste vs. Bayésienne –Tel monsieur Jourdain… un exemple –Apparté : vocabulaire –Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS –Sélection bayésienne de modèles Questions ouvertes 2

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Plan Modélisation : choix des variables Comparaison et sélection de modèles –Cadre général : fit, complexité, capacité de généralisation –Méthodes de validation croisée –Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles –Sélection probabiliste vs. Bayésienne –Tel monsieur Jourdain… un exemple –Apparté : vocabulaire –Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS –Sélection bayésienne de modèles Questions ouvertes 3

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Importance des variables cachées 4

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Modélisation d’une série temporelle 5

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 P(  y) 6

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Variable cachée V1 = {Bleu, Rouge} V1=RV1=B 7

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 P(  y | [V1=R]) P(  y | [V1=B]) 8

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 V2 = {Bleu, Rouge} [V1=R] [V1=B] P(  y | [V1=R] [V2=R]) P(  y | [V1=R] [V2=B]) P(  y | [V1=B] [V2=R]) P(  y | [V1=B] [V2=B]) 9

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Digression : entropie Déf : Exemple : [Shannon, 1948] 10

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Exemple 2 : P(X), X = {-1, 0, 1} 11

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Variables cachées, connaissance et entropie Théorème : Les variables cachées apportent de l’information P(  y | [V1=B] [V2=B]) P(  y) 12

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Prédiction de la prochaine valeur ? P(  y) P(  y | [V1=B] [V2=B]) 13

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Pour 2007, [V1=B] et [V2=B] 14

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Plan Modélisation : choix des variables Comparaison et sélection de modèles –Cadre général : fit, complexité, capacité de généralisation –Méthodes de validation croisée –Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles –Sélection probabiliste vs. Bayésienne –Tel monsieur Jourdain… un exemple –Apparté : vocabulaire –Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS –Sélection bayésienne de modèles Questions ouvertes 15

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Sources 16

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Devinette n° 1 Quel est le suivant ? –{1, 3, 5, 7, 9, 11, ?} –{1, 1, 2, 3, 5, 8, 13, ?} –{0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?} 17

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Réponses –{1, 3, 5, 7, 9, 11, ?}  42 –{1, 1, 2, 3, 5, 8, 13, ?}  42 –{0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}  42 18

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Devinette n° 2 Combien de méthodes pour définir une relation mathématique ? 19

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Combien de méthodes pour définir une relation mathématique ? –Par fonction analytique f E  F x |  f(x) –Par extension Ensemble de points (pas pratique pour un ensemble infini) 20

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Quelle méthode pour la devinette ? Passage de points à une fonction Utilisation de la fonction pour prédire le point suivant ≅ Modélisation 21

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Précaution Toute l’activité scientifique n’est pas que la modélisation –Modèle vs. Théorie –Modèle vs. Expérience 22

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Modélisation Définition d’une classe de modèles Sélection du modèle –Qui maximise une mesure donnée Méthode très générale ! –Machine learning Réseau de neurone Algorithmes génétiques Apprentissage bayésien –Curve fitting –Optimisation –Regression 23 modélisation data set set of models set of parameters

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Mesures de qualité de modèles Falsifiability –Existe-t-il des observations incompatibles ? Explanatory adequacy –Make sense of the data but also of established findings Interpretability –Réifiabilité : les paramètres sont liés à d’autres processus Faithfulness –La qualité du modèle vient de sa structure, pas de propriétés du calcul, de la simulation Goodness of fit Complexity (or simplicity) Generalizability 24 (Myung 03) (Léna Soler, Introduction à l’épistémologie, Ellipses, 2000)

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Mesures de qualité de fit Residual Pourcentage de la variance –Percent variance accounted for PVAF Root mean square deviation RMSD = root mean square error RMSE 25

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Mesures de qualité de fit Correlation coefficient R 2 –Pearson’s sample correlation coefficient –Simple correlation coefficient –Cross-correlation coefficient –Product-moment coefficient Formes multidimensionnelles –Matricielles –Multiple Correlation Coefficient R 26

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Correlation coefficient 27

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Correlation coefficient r = Explorer les données ! 28

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Fit vs complexity Fit to regularity –Intéressant à modéliser Fit to experimental noise –Pas intéressant 29

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Théorème Par n points passe un unique polynôme de degré n-1 –n points (ou contraintes) –Polynôme degré n-1 a n paramètres f(x) = ax 2 + bx + c Par deux points passe une unique droite Par trois points passe une unique parabole 30

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Théorème Par n points passe un unique polynôme de degré n-1 Idem –développement limité de Taylor –Transformée de Fourier avec assez de paramètres, on approxime tout 31

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Fit vs complexity 32

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle –M1 : y = sin(cos(ax)) a exp(-bx)/x b –M2 : y = ax b –M3 : y = ax + b 33 a=12 b=1

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Fonctionnelle de Tikhonov Mesure à minimiser –R(M, Δ) = G M (Δ) + λ H(M) –G M (Δ) mesure de fit –H(M) mesure de complexité (indépendante de Δ) –λ : poids relatif Compromis à résoudre : complexity regularization (central en machine learning) 34

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » —

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Generalizability 36

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Mesure de generalisation –Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle M T –Mesure de divergence entre distribution de probabilité D –D(f,g) > D(f,f)=0 si f ≠ g 37

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Mesure de generalisation Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle M T M T est évidemment inconnu 38

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Plan Modélisation : choix des variables Comparaison et sélection de modèles –Cadre général : fit, complexité, capacité de généralisation –Méthodes de validation croisée –Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles –Sélection probabiliste vs. Bayésienne –Tel monsieur Jourdain… un exemple –Apparté : vocabulaire –Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS –Sélection bayésienne de modèles Questions ouvertes 39

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Cross-validation (CV) Estimer la généralisation du modèle sans connaître le vrai modèle –Partitionner les données Δ –Identification de paramètres sur la partie calibration –Estimation de la capacité de généralisation sur la partie validation 40

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Méthodes de CV Split-sample, hold-out method Split-half cross-validation –Coupe en deux Δ = Δ 1, Δ 2 –Estime les paramètres sur Δ 1 –Calcule l’erreur de prédiction sur Δ 2  e 1 –Intervertir Δ 1, Δ 2, recommencer  e 2 Validation croisée –Erreur de prédiction finale : moyenne des erreurs de prédiction (e 1 + e 2 ) / 2 41

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Méthodes de CV Leave-one-out cross-validation –Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction –Répéter n fois –Erreur de prédiction moyenne sur les n étapes 42

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Méthodes de CV K-fold cross-validation –K blocs de taille n/K –Données pour l’identification : K-1 blocs (taille n-n/K) –Données pour la prédiction : 1 bloc (taille n/K) –Idem leave-n/K-out –Choix de K change le résultat 43

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Méthode de CV Bootstrapping –Tirage avec replacement  subsamples au lieu de subsets des données –.632+ bootstrap method 63,2 % de Δ pour l’identification 44

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Critique de la CV Large training set  overfitting Small training set  underfitting Trouver le bon découpage –même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov Rien résolu (mais facile à coder) 45

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Plan Modélisation : choix des variables Comparaison et sélection de modèles –Cadre général : fit, complexité, capacité de généralisation –Méthodes de validation croisée –Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles –Sélection probabiliste vs. Bayésienne –Tel monsieur Jourdain… un exemple –Apparté : vocabulaire –Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS –Sélection bayésienne de modèles Questions ouvertes 46

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Mesures de distances entre distributions de probabilités Déf : Une métrique est une fonction g non-négative telle que –Inégalité triangulaire g(x,y)+g(y,z) ≥ g(x,z) –Symétrique g(x,y) = g(y,x) –g(x,x) = 0 –g(x,y) = 0 => x = y 47

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Mesures de distances entre distributions de probabilités Kullback-Leibler –Distance / divergence de Kullback-Leibler –KL divergence –Information gain –Relative entropy Cross entropy Mutual information 48

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 KL divergence Pas une mesure de distance –D(p,q) ≠ D(q,p) –D(p,q) > 0 pour tout p,q –D(p,q) = 0 ssi p k = q k pour tout k 49

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Cross entropy Entropie H(p), cross-entropie H(p,q) Relation avec la KL divergence 50

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Mutual information mesurée en bits I(X,Y) = I(Y,X) I(X,Y) ≥ 0 51

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Plan Modélisation : choix des variables Comparaison et sélection de modèles –Cadre général : fit, complexité, capacité de généralisation –Méthodes de validation croisée –Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles –Sélection probabiliste vs. Bayésienne –Tel monsieur Jourdain… un exemple –Apparté : vocabulaire –Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS –Sélection bayésienne de modèles Questions ouvertes 52

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 En modélisation probabiliste Un modèle –Point expérimental δ = {x,y} –P(δ) = P(y | x) P(x) –P(δ | θ 1 ) = P(y | x θ 1 ) P(x | θ 1 ) –P(δ | θ 1 m 1 ) = P(y | x θ 1 m 1 ) P(x | θ 1 m 1 ) 53

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 En modélisation probabiliste Plusieurs modèles –Espace de paramètres Θ = {θ 1, θ 2, …} –Classe des modèles M = {m 1, m 2, …} –Un modèle : P(y | x [Θ = θ 1 ] [M = m 1 ]) Méta-modèle, modèle hiérarchique –P(Δ Θ M) = P(δ i Θ M) = P(x y Θ M) = P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M) 54

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Mesure de comparaison des modèles Probabilité d’un modèle m 1, au vu de données expérimentales Δ –P(Δ Θ M) = P(δ i Θ M) = P(x y Θ M) = P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M) = P(δ i | Θ M) P(Θ | M) P(M) 55

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — Soient –Un seul modèle M –D = {d 1, …, d n }, un ensemble de données expérimentales –  un ensemble de paramètres de M Quel est le modèle le plus probable, au vu des données ? (Règle de Bayes) (Hyp i.i.d.)

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — Si P(  ) = uniforme – Modèle de maximum de vraisemblance Maximum Likelihood (MLE) Si P(  )  uniforme –Modèle = prior  vraisemblance Modèle de maximum a posteriori (MAP) Modèle bayésien Posterior Prior Vraisemblance

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Goodness of fit en probabilités Maximiser la vraisemblance P(Δ | Θ M) P(Δ | Θ M) = Π i P(δ i | Θ M) max P(Δ | Θ M) = max log P(Δ | Θ M) = max log Π i P(δ i | Θ M) = max Σ i log P(δ i | Θ M) 58

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Plan Modélisation : choix des variables Comparaison et sélection de modèles –Cadre général : fit, complexité, capacité de généralisation –Méthodes de validation croisée –Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles –Sélection probabiliste vs. Bayésienne –Tel monsieur Jourdain… un exemple –Apparté : vocabulaire –Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS –Sélection bayésienne de modèles Questions ouvertes 59

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — Tel monsieur Jourdain… Un phénomène génère des couples x,y Un modèle –prédit y = F(x), F linéaire, F = ax + b –autorise du « bruit » dans les mesures On observe D = {d x1, …, d xn } Question –Quels sont les paramètres a, b les plus probables ?

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — Tel monsieur Jourdain…

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — Tel monsieur Jourdain…

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Moindre carrés de l’erreur Comme –un Réseau de Neurones & Backpropagation (Mitchell 95, p167) –Une régression linéaire –… 63

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — Least square fitting sur Mathworld

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — Pour aller plus loin… Inférence dans les cas non-linéaires Moindres carrés Bayésien Espace de modèles –  = {3x+2, 4x 3 -2x 2 +4} Priors hiérarchiques –P(  |  ) Rasoir d’Occam automatique…

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Plan Modélisation : choix des variables Comparaison et sélection de modèles –Cadre général : fit, complexité, capacité de généralisation –Méthodes de validation croisée –Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles –Sélection probabiliste vs. Bayésienne –Tel monsieur Jourdain… un exemple –Apparté : vocabulaire –Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS –Sélection bayésienne de modèles Questions ouvertes 66

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Odds, posterior odds, evidence Un modèle à 2 cas : –Une hypothèse H, et 67

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Odds, posterior odds, evidence Odds, log odds (stats) Posterior odds Odds en bijection avec p 68

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Evidence Evidence en bijection avec p 69 Odds, posterior odds, evidence

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Odds, posterior odds, evidence 70

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Plan Modélisation : choix des variables Comparaison et sélection de modèles –Cadre général : fit, complexité, capacité de généralisation –Méthodes de validation croisée –Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles –Sélection probabiliste vs. Bayésienne –Tel monsieur Jourdain… un exemple –Apparté : vocabulaire –Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS –Sélection bayésienne de modèles Questions ouvertes 71

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Identification de paramètres vs Sélection de modèles Identification de paramètres  learning –P(θ | Δ) –P(θ | Δ M) Sélection de modèle –P(M θ | Δ) –P(M | Δ) 72

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Comparaison de modèles Basés sur la vraisemblance –AIC Akaike Information Criterion –BIC Bayesian Information Criterion –MDL Minimum Description Length –BMS Bayesian Model Selection 73

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 AIC avec k le nombre de paramètres Modèle M qui minimise la mesure AIC Fonctionnelle de Tikhonov –AIC = lack of fit + complexity Dérive de l’approximation pour de larges ensembles de données de la KL divergence 74

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 BIC avec –k le nombre de paramètres –n le nombre de données Dérive de l’approximation pour de larges ensembles de données de la Bayesian Model Selection 75

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 MDL avec –k le nombre de paramètres –n le nombre de données –I(θ) la matrice d’information de Fisher Matrice des espérances des log des dérivées partielles de la vraisemblance selon les dimensions –|.| le déterminant de la matrice 76

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 MDL Mesure de complexité qui prend en compte la forme fonctionnelle Provient de la théorie de l’information –Compression des données Δ par modèle + déviation 77

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 BMS Vraisemblance –P(Δ | θ M) Vraisemblance marginale –P(Δ | M) = Σ θ P(Δ | θ M) P(θ | M) 78

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Bayesian model selection Attention –BMS Bayesian model selection –BMS Bootstrap model selection 79

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Plan Modélisation : choix des variables Comparaison et sélection de modèles –Cadre général : fit, complexité, capacité de généralisation –Méthodes de validation croisée –Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles –Sélection probabiliste vs. Bayésienne –Tel monsieur Jourdain… un exemple –Apparté : vocabulaire –Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS –Sélection bayésienne de modèles Questions ouvertes 80

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 « vraie » Bayesian model selection Prior sur M uniforme ou pas Prior sur les paramètres θ uniformes ou pas 81

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Bayesian model selection Intégrale sur l’espace des paramètres –MAP si on la fait –méthodes de Monte-Carlo (voire, méthode de Gibbs (Mitchell 95)) si on tire aléatoirement dans θ pour approximer Gibbs sampling Metropolis-Hastings Random walk methods –Approximation du log vraisemblance autour de BMSL Bayesian Model Selection Laplace approximation 82

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Bayes Factor Extension du odds Ratio de vraisemblances marginales si prior uniforme sur M –P(M 1 ) = P(M 2 ) 83

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Bayesian Model Selection –n’a pas la forme d’une fonctionnelle de Tikhonov –et pourtant, mesure la complexité des M 84

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 BMS et mesure de complexité « Occam automatique » : intuition Si et P(Δ | θ) concentré autour de –Alors P(θ 2 | Δ) pénalisé par la normalisation sur Θ 2 (espace plus grand) 85

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Rasoir d’Occam automatique 86 MacKay, 03

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Plan Modélisation : choix des variables Comparaison et sélection de modèles –Cadre général : fit, complexité, capacité de généralisation –Méthodes de validation croisée –Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles –Sélection probabiliste vs. Bayésienne –Tel monsieur Jourdain… un exemple –Apparté : vocabulaire –Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS –Sélection bayésienne de modèles 3 Questions ouvertes 87

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Distinguabilité des modèles Sélectionner un modèle, ok Boucle expérimentale –où prendre la prochaine donnée expérimentale ? –Notion d’expérience cruciale (discriminante) Distinguer les modèles 88 modélisation data set set of models set of parameters ?

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Distinguabilité des modèles Modèle de distinguabilité –Extension du méta-modèle de fit –P(Δ Θ M) = P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M) 89

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Distinguabilité des modèles 90

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Question ouverte Deux problèmes inverses –Perception Phénomène = f -1 (stimuli) –Modélisation Modèle = f -1 (observations) Doit-on conclure que le cerveau construit des modèles comme un scientifique le fait ? Le cerveau est-il bayésien ? 91

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Question ouverte Pourquoi 42 ? 92

Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Merci de votre attention ! Questions ?