Comparaison et sélection Bayésienne de modèles

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Licence pro MPCQ : Cours
Présentation de la circonscription Année 2011/2012 Jeudi 24 novembre 2011.
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
7 juin 2012 DGAL.
Les numéros 70 –
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
Dpt. Télécommunications, Services & Usages Théorie de l information H. Benoit-Cattin Introduction 2. Sources discrètes & Entropie 3. Canaux discrets.
Introduction à la logique
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Données statistiques sur le droit doption au 31/01 8 février 2012.
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Enquête sur le Rapport de la Commission Bouchard-Taylor Jack Jedwab Directeur général Association détudes canadiennes 11 juin 2008.
Révision (p. 130, texte) Nombres (1-100).
La législation formation, les aides des pouvoirs publics
1 7 Langues niveaux débutant à avancé. 2 Allemand.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
La méthodologie………………………………………………………….. p3 Les résultats
Structure(djs)TéléphoneFax ADRA R049,96,03,21 CHLEF027,77,22,66 /77,49, LAGHOUAT029,90,41,08029,90,42,47 OUM EL BOUAGHI032,42,16,26032,42,45,32.
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
Cours 5 Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 18/01/
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
L’indicateur de développement humain
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Titre : Implémentation des éléments finis sous Matlab
Les nombres.
Les quartiers Villeray – La Petite-Patrie et les voisinages
Conseil Administration AFRAC – 2 décembre Toulouse 1 Fermes de références Palmipèdes à foie gras Synthèse régionale – Midi Pyrénées Exercice
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
CLL11 : chlorambucil (CLB) versus CLB + rituximab (R)
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
Jean-Marc Léger Président Léger Marketing Léger Marketing Les élections présidentielles américaines.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Influenza: le modèle épidémiologique belge 29 Mai 2009
Les Nombres 0 – 100 en français.
Aire d’une figure par encadrement
Écart moyen et écart type
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Nom:____________ Prénom: ___________
Annexe Résultats provinciaux comparés à la moyenne canadienne
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Comparaison et sélection Bayésienne de modèles Julien Diard Laboratoire.
Transcription de la présentation:

Comparaison et sélection Bayésienne de modèles Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 24/02/2009 http://julien.diard.free.fr Julien.Diard@upmf-grenoble.fr

Correctif Ernst & Banks

Cas mono-modal

Integration visuo-haptique 0% 67% 133% 200%

Plan Modélisation : choix des variables Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

Plan Modélisation : choix des variables Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

Importance des variables cachées

Modélisation d’une série temporelle

P(y)

Variable cachée V1 = {Bleu, Rouge} V1=R V1=B 10

P(y | [V1=R]) P(y | [V1=B]) 11

V2 = {Bleu, Rouge} [V1=R] [V1=B] P(y | [V1=R] [V2=R]) P(y | [V1=R] [V2=B]) [V1=R] P(y | [V1=B] [V2=R]) P(y | [V1=B] [V2=B]) [V1=B] 12

Digression : entropie Déf : Exemple : [Shannon, 1948] 13

Exemple 2 : P(X), X = {-1, 0, 1} 14

Variables cachées, connaissance et entropie Théorème : Les variables cachées apportent de l’information P(y) P(y | [V1=B] [V2=B]) 15

Prédiction de la prochaine valeur ? P(y) P(y | [V1=B] [V2=B]) 16

Pour 2007, [V1=B] et [V2=B] 17

Plan Modélisation : choix des variables Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

Sources

Devinettes Quel est le suivant ? {1, 3, 5, 7, 9, 11, ?} {1, 1, 2, 3, 5, 8, 13, ?} {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}

Réponses {1, 3, 5, 7, 9, 11, ?}  42 {1, 1, 2, 3, 5, 8, 13, ?}  42 {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}  42

Devinette n° 2 Combien de méthodes pour définir une relation mathématique ?

Combien de méthodes pour définir une relation mathématique ? Par fonction analytique f E  F x | f(x) Par extension Ensemble de points (pas pratique pour un ensemble infini)

Quelle méthode pour la devinette ? Passage de points à une fonction Utilisation de la fonction pour prédire le point suivant Modélisation Passage de points à un modèle Utilisation du modèle pour prédire le point suivant

Modélisation Définition d’une classe de modèles Sélection du modèle Qui maximise une mesure donnée Méthode très générale ! Machine learning Réseau de neurone Algorithmes génétiques Apprentissage bayésien Curve fitting Optimisation

Mesures de qualité de modèles Falsifiability Existe-t-il des observations incompatibles ? Explanatory adequacy Make sense of the data but also established findings Interpretability Réifiabilité : les paramètres sont liés à d’autres processus Faithfulness La qualité du modèle vient de sa structure, pas de propriétés du calcul, de la simulation Goodness of fit Complexity (or simplicity) Generalizability (Léna Soler, Introduction à l’épistémologie, Ellipses, 2000) (Myung 03)

Fit vs complexity Fit to regularity Fit to experimental noise Intéressant à modéliser Fit to experimental noise Pas intéressant

Théorème Par n points passe un unique polynôme de degré n-1 n points (ou contraintes) Polynôme degré n-1 a n paramètres f(x) = ax2 + bx + c Par deux points passe une unique droite Par trois points passe une unique parabole

Théorème Par n points passe un unique polynôme de degré n-1 Idem développement limité de Taylor Idem Transformée de Fourier avec assez de paramètres, on approxime tout

Fit vs complexity

Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle M1 : y = sin(cos(ax))aexp(-bx)/xb M2 : y = axb M3 : y = ax + b a=12 b=1

Fonctionnelle de Tikhonov Mesure à minimiser R(M, Δ) = GM(Δ) + λ H(M) GM(Δ) mesure de fit H(M) mesure de complexité (indépendante de Δ) λ : poids relatif Tradeoff a résoudre : complexity regularization (idem en machine learning)

Generalizability

Mesure de generalisation Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT Mesure de divergence entre distribution de probabilité D D(f,g) > D(f,f)=0 si f ≠ g

Mesure de generalisation Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT MT est évidemment inconnu

Plan Modélisation : choix des variables Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

Cross-validation (CV) Estimer la généralisation du modèle sans connaître le vrai modèle Partitionner les données Δ Identification de paramètres sur la partie calibration Estimation de la capacité de généralisation sur la partie validation

Méthodes de CV Split-sample, hold-out method Split-half cross-validation Coupe en deux Δ = Δ1, Δ2 Estime les paramètres sur Δ1 Calcule l’erreur de prédiction sur Δ2  e1 Intervertir Δ1, Δ2, recommencer  e2 Validation croisée Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2

Méthodes de CV Leave-one-out cross-validation Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction Répéter n fois Erreur de prédiction moyenne sur les n étapes

Méthodes de CV K-fold cross-validation K blocs de taille n/K Données pour l’identification : K-1 blocs (taille n-n/K) Données pour la prédiction : 1 bloc (taille n/K) Idem leave-n/K-out Choix de K change le résultat

Méthode de CV Bootstrapping Tirage avec replacement  subsamples au lieu de subsets des données .632+ bootstrap method 63,2 % de Δ pour l’identification

Critique de la CV Large training set  overfitting Small training set  underfitting Trouver le bon découpage même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov Rien résolu (mais facile à coder)

Plan Modélisation : choix des variables Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

Mesures de distances entre distributions de probabilités Kullback-Leibler Distance / divergence de Kullback-Leibler KL divergence Information gain Relative entropy Cross entropy Mutual information

KL divergence Pas une mesure de distance D(p,q) ≠ D(q,p) D(p,q) > 0 pour tout p,q D(p,q) = 0 ssi pk = qk pour tout k

Cross entropy Entropie H(p), cross-entropie H(p,q) Relation avec la KL divergence

Mutual information mesurée en bits I(X,Y) = I(Y,X) I(X,Y) ≥ 0

Plan Modélisation : choix des variables Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

En modélisation probabiliste Un modèle Point expérimental δ = {x,y} P(δ) = P(y | x) P(x) P(δ | θ1) = P(y | x θ1) P(x | θ1) P(δ | θ1 m1) = P(y | x θ1 m1) P(x | θ1 m1)

En modélisation probabiliste Plusieurs modèles Espace de paramètres Θ = {θ1, θ2, …} Classe des modèles M = {m1, m2, …} Un modèle : P(y | x [Θ = θ1] [M = m1]) Méta-modèle, modèle hiérarchique P(Δ Θ M) = P(δi Θ M) = P(x y Θ M) = P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M)

Mesure de comparaison des modèles Probabilité d’un modèle m1, au vu de données expérimentales Δ P(Δ Θ M) = P(δi Θ M) = P(x y Θ M) = P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M) = P(δi | Θ M) P(Θ | M) P(M)

Quel est le modèle le plus probable, au vu des données ? Soient Un seul modèle M D = {d1, …, dn}, un ensemble de données expérimentales  un ensemble de paramètres de M Quel est le modèle le plus probable, au vu des données ? (Règle de Bayes) (Hyp i.i.d.)

Si P() = uniforme Si P()  uniforme Modèle = prior  vraisemblance Posterior Prior Vraisemblance Si P() = uniforme Modèle de maximum de vraisemblance Maximum Likelihood (MLE) Si P()  uniforme Modèle = prior  vraisemblance Modèle de maximum a posteriori (MAP) Modèle bayésien

Goodness of fit en probabilités Maximiser la vraisemblance P(Δ | Θ M) P(Δ | Θ M) = Πi P(δi | Θ M) max P(Δ | Θ M) = max log P(Δ | Θ M) = max log Πi P(δi | Θ M) = max Σi log P(δi | Θ M)

Plan Modélisation : choix des variables Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

Tel monsieur Jourdain… Un phénomène génère des couples x,y Un modèle prédit y = F(x), F linéaire, F = ax + b autorise du « bruit » dans les mesures On observe D = {dx1, …, dxn} Question Quels sont les paramètres a, b les plus probables ?

Tel monsieur Jourdain…

Tel monsieur Jourdain…

Moindre carrés de l’erreur Comme un Réseau de Neurones & Backpropagation (Mitchell 95, p167) Une régression linéaire …

Least square fitting sur Mathworld http://mathworld.wolfram.com

Pour aller plus loin… Inférence dans les cas non-linéaires Moindres carrés Bayésien Espace de modèles  = {3x+2, 4x3-2x2+4} Priors hiérarchiques P( | ) Rasoir d’Occam automatique…

Plan Modélisation : choix des variables Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

Odds, posterior odds, evidence Une hypothèse H (modèle), et Odds , log odds (stats)

Odds, posterior odds, evidence

Plan Modélisation : choix des variables Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

Identification de paramètres vs Sélection de modèles P(θ | Δ M)  learning Sélection de modèle P(M θ | Δ) P(M | Δ)

Comparaison de modèles Basés sur la vraisemblance AIC Akaike Information Criterion BIC Bayesian Information Criterion MDL Minimum Description Length BMS Bayesian Model Selection

AIC avec k le nombre de paramètres Modèle M qui minimise la mesure AIC Fonctionnelle de Tikhonov AIC = lack of fit + complexity Dérive de l’approximation pour de larges ensembles de données de la KL divergence

BIC avec k le nombre de paramètres n le nombre de données Dérive de l’approximation pour de larges ensembles de données de la Bayesian Model Selection

MDL avec k le nombre de paramètres n le nombre de données I(θ) la matrice d’information de Fisher |.| le déterminant de la matrice

MDL Mesure de complexité qui prend en compte la forme fonctionnelle Provient de la théorie de l’information Compression des données Δ par modèle + déviation

BMS Vraisemblance Vraisemblance marginale P(Δ | θ M) P(Δ | M) = Σθ P(Δ | θ M) P(θ | M)

Bayesian model selection Attention BMS Bayesian model selection BMS Bootstrap model selection

Plan Modélisation : choix des variables Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

« vraie » Bayesian model selection Prior sur M uniforme ou pas Prior sur les paramètres θ uniformes ou pas

Bayesian model selection Intégrale sur l’espace des paramètres MAP si on la fait méthodes de Monte-Carlo (voire, méthode de Gibbs (Mitchell 95)) si on tire aléatoirement dans θ pour approximer Gibbs sampling Metropolis-Hastings Random walk methods Approximation du log vraisemblance autour de BMSL Bayesian Model Selection Laplace approximation

Bayes Factor Extension du odds Ratio de vraisemblances marginales si prior uniforme sur M P(M1) = P(M2)

Bayesian Model Selection n’a pas la forme d’une fonctionnelle de Tikhonov et pourtant, mesure la complexité des M

BMS et mesure de complexité « Occam automatique » : intuition Si et P(Δ | θ) concentré autour de Alors P(θ2 | Δ) pénalisé par la normalisation sur Θ2 (espace plus grand)

Plan Modélisation : choix des variables Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes

Distinguabilité des modèles Sélectionner un modèle, ok Boucle expérimentale : où prendre la prochaine donnée expérimentale ? Notion philosophique d’expérience cruciale (discriminante) Distinguer les modèles

Distinguabilité des modèles Modèle de distinguabilité en PBR Extension du méta-modèle de fit

Question ouverte Deux problèmes inverses Perception Phénomène = f -1 (stimuli) Modélisation Modèle = f -1 (observations) Doit-on conclure que le cerveau construit des modèles comme un scientifique le fait ? Le cerveau est-il bayésien ?

Question ouverte Pourquoi 42 ?

Merci de votre attention ! Questions ?