Cours 5 Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 18/01/2012 http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Centre d'Enseignement et de Recherche en Environnement Atmosphérique Classification de situations pour l'étude de la pollution chronique Stéphanie Lacour.
Introduction à l’analyse
Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Reporting de la Cellule Nationale Droit dOption Situation au 31 décembre 2011.
Licence pro MPCQ : Cours
Présentation de la circonscription Année 2011/2012 Jeudi 24 novembre 2011.
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
7 juin 2012 DGAL.
Les numéros 70 –
Les numéros
Xavier Mouranche Registre e-MUST Evaluation en Médecine dUrgence des Stratégies Thérapeutiques de lInfarctus du Myocarde.
Dpt. Télécommunications, Services & Usages Théorie de l information H. Benoit-Cattin Introduction 2. Sources discrètes & Entropie 3. Canaux discrets.
Introduction à la logique
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Données statistiques sur le droit doption au 31/01 8 février 2012.
Correspondances en Onco-Urologie - Vol. III - n° 3 – juillet-août-septembre VESSIE Daprès James ND et al., N Engl J Med 2012;366:16:
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Révision (p. 130, texte) Nombres (1-100).
La législation formation, les aides des pouvoirs publics
Structure(djs)TéléphoneFax ADRA R049,96,03,21 CHLEF027,77,22,66 /77,49, LAGHOUAT029,90,41,08029,90,42,47 OUM EL BOUAGHI032,42,16,26032,42,45,32.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Cours de physique générale I Ph 11
Introduction à la modélisation bayésienne
L’indicateur de développement humain
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Et la disparition de notre
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Titre : Implémentation des éléments finis sous Matlab
Les nombres.
Fierté envers les symboles et institutions canadiens Jack Jedwab Association détudes canadiennes 26 novembre 2012.
Conseil Administration AFRAC – 2 décembre Toulouse 1 Fermes de références Palmipèdes à foie gras Synthèse régionale – Midi Pyrénées Exercice
LES NOMBRES PREMIERS ET COMPOSÉS
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Les Monnaies et billets du FRANC Les Monnaies Euro.
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Les maths en francais 7ième année.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Jean-Marc Léger Président Léger Marketing Léger Marketing Les élections présidentielles américaines.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Influenza: le modèle épidémiologique belge 29 Mai 2009
Les Nombres 0 – 100 en français.
Comparaison et sélection Bayésienne de modèles
Aire d’une figure par encadrement
Écart moyen et écart type
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Annexe Résultats provinciaux comparés à la moyenne canadienne
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
IMPRESS : y a-t-il un bénéfice à poursuivre le géfitinib en association à la chimiothérapie lors de la résistance acquise ? Essai randomisé Patients Cisplatine.
Bienvenue.
Julien Diard — LPNC-CNRS Cours M2R Psychologie Cognitive — UE18S3 — 2010 Introduction à la modélisation bayésienne Julien Diard Laboratoire de Psychologie.
Julien Diard — LPNC-CNRS Cours M2R Sciences Cognitives, « Cognition bayésienne » — 2009 Comparaison et sélection Bayésienne de modèles Julien Diard Laboratoire.
Introduction à la modélisation bayésienne
Modélisation bayésienne de la perception et de l’action
Julien Diard — LPNC-CNRS Cours M2R Psychologie Cognitive — UE18S3 — 2009 Introduction à la modélisation bayésienne Julien Diard Laboratoire de Psychologie.
Transcription de la présentation:

Cours 5 Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 18/01/2012 http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr

Plan des cours Introduction à la Programmation Bayésienne : incomplétude, incertitude Programmation bayésienne : exemple détaillé, Classes de modèles probabilistes Distributions usuelles, Programmation bayésienne des robots Modélisation bayésienne de la perception et de l’action Comparaison bayésienne de modèles Compléments : inférence, apprentissage, principe d’entropie

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Inférence exacte Inférence approximée sommation, propagation des incertitudes Inférence approximée décisions intermédiaires (tirage de points), propagation d’une partie des incertitudes

Modélisation de la perception stimulus Perception Un problème inverse (Poggio, 1984) Modèle bayésien Inversion + hypothèse d’indépendance conditionnelle sensations

Humans integrate visual and haptic information in a statistically optimal fashion Mécanisme d’integration visuo-haptique par fusion de gaussiennes Utilisé par les humains

Causal inference (Körding et al., 07; Sato et al., 07) Y a-t-il une source unique, ou deux sources distinctes ?

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Sources

Devinette n° 1 Quel est le suivant ? {1, 3, 5, 7, 9, 11, ?} {1, 1, 2, 3, 5, 8, 13, ?} {0, 4, 7, 6, 8, 2, 5, 8, 9, ?}

Réponses {1, 3, 5, 7, 9, 11, ?}  42 {1, 1, 2, 3, 5, 8, 13, ?}  42 {0, 4, 7, 6, 8, 2, 5, 8, 9, ?}  42

Devinette n° 2 Combien de méthodes pour définir une relation mathématique ?

Combien de méthodes pour définir une relation mathématique ? Par fonction analytique f E  F x | f(x) Par extension Ensemble de points (pas pratique pour un ensemble infini)

Quelle méthode pour la devinette ? Passage de points à une fonction Utilisation de la fonction pour prédire le point suivant ≅ Modélisation

Modélisation : méthode data set set of models set of parameters Définir une classe de modèles M Définir une mesure de « qualité » Sélectionner le modèle dans M qui maximise la mesure

Modélisation Méthode très générale ! Machine learning data set set of models set of parameters Méthode très générale ! Machine learning Réseau de neurone Algorithmes génétiques Apprentissage bayésien Curve fitting Optimisation Regression

Précaution Toute l’activité scientifique n’est pas que la modélisation Modèle vs. Théorie Modèle vs. Expérience

Mesures de qualité de modèles Falsifiability (réfutabilité, pas falsifiabilité !) Existe-t-il des observations incompatibles ? Explanatory adequacy Make sense of the data but also of established findings Interpretability Réifiabilité : les paramètres sont liés à d’autres processus Faithfulness La qualité du modèle vient de sa structure, pas de propriétés du calcul, ni de la simulation Goodness of fit Complexity (or simplicity) Generalizability (Karl Popper, La connaissance objective, 1985) (Léna Soler, Introduction à l’épistémologie, 2000) (Myung, 2003)

Mesures de qualité de fit Residual Pourcentage de la variance Percent variance accounted for PVAF Root mean square deviation RMSD = root mean square error RMSE

Mesures de qualité de fit Correlation coefficient R2 aka Pearson’s sample correlation coefficient Simple correlation coefficient Cross-correlation coefficient Product-moment coefficient Formes multidimensionnelles Matricielles Multiple Correlation Coefficient R

Correlation coefficient

Correlation coefficient Explorer les données !

Fit vs complexity Fit to regularity Fit to experimental noise Intéressant à modéliser Fit to experimental noise Pas intéressant

Théorème Par n points passe un unique polynôme de degré n-1 n points (ou contraintes) Polynôme degré n-1 a n paramètres f(x) = ax2 + bx + c Par deux points passe une unique droite Par trois points passe une unique parabole

Théorème Par n points passe un unique polynôme de degré n-1 Idem développement limité de Taylor Transformée de Fourier Somme de noyaux Gaussiens  avec assez de paramètres, on approxime tout

Fit vs complexity underfitting « sweet spot » overfitting

Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle M1 : y = sin(cos(ax))aexp(-bx)/xb M2 : y = axb M3 : y = ax + b a=12 b=1

Fonctionnelle de Tikhonov Mesure à minimiser R(M, Δ) = GM(Δ) + λ H(M) GM(Δ) mesure de fit H(M) mesure de complexité indépendante de Δ λ : poids relatif Compromis à résoudre : complexity regularization (central en machine learning)

Generalizability underfitting « sweet spot » overfitting Fit sur les points observés Fit sur les points pas encore observés underfitting « sweet spot » overfitting

Mesure de generalisation Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT Mesure de divergence entre distribution de probabilité D D(f,g) > D(f,f)=0 si f ≠ g

Mesure de generalisation Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT MT est évidemment inconnu

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Cross-validation (CV) Estimer la généralisation du modèle sans connaître le vrai modèle Partitionner les données Δ Identification de paramètres sur la partie calibration Estimation de la capacité de généralisation sur la partie validation

Méthodes de CV Split-sample, hold-out method Split-half cross-validation Coupe en deux Δ = Δ1, Δ2 Estime les paramètres sur Δ1 Calcule l’erreur de prédiction sur Δ2  e1 Intervertir Δ1, Δ2, recommencer  e2 Validation croisée Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2

Méthodes de CV Leave-one-out cross-validation Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction Répéter n fois Erreur de prédiction moyenne sur les n étapes

Méthodes de CV K-fold cross-validation K blocs de taille n/K Données pour l’identification : K-1 blocs (taille n-n/K) Données pour la prédiction : 1 bloc (taille n/K) Idem leave-n/K-out Choix de K change le résultat

Méthode de CV Bootstrapping Tirage avec replacement  subsamples au lieu de subsets des données .632+ bootstrap method 63,2 % de Δ pour l’identification

Critique de la CV Large training set  overfitting Small training set  underfitting Trouver le bon découpage même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov Rien résolu (mais facile à coder)

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Mesures de distances entre distributions de probabilités Déf : Une métrique est une fonction g non-négative telle que Inégalité triangulaire g(x,y)+g(y,z) ≥ g(x,z) Symétrique g(x,y) = g(y,x) g(x,x) = 0 g(x,y) = 0 => x = y

Mesures de distances entre distributions de probabilités Kullback-Leibler Distance / divergence de Kullback-Leibler KL divergence Information gain Relative entropy Cross entropy Mutual information

KL divergence Pas une mesure de distance D(p,q) ≠ D(q,p) se symétrise Ds(p,q)=Ds(q,p)= (D(p,q)+D(q,p)) /2 D(p,q) > 0 pour tout p,q D(p,q) = 0 ssi pk = qk pour tout k

Cross entropy Entropie H(p), cross-entropie H(p,q) Relation avec la KL divergence

Mutual information mesurée en bits I(X,Y) = I(Y,X) I(X,Y) ≥ 0

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Notation probabiliste Soient Θ = {θ1, θ2, …} paramètres des modèles Δ = {δ1, δ2, …, δn} données expérimentales δi = {x, y} une donnée x condition : var indépendante contrôlée VI y observation pour cette condition : var dépendante VD Un modèle

En modélisation probabiliste Plusieurs modèles Espace de paramètres Θ = {θ1, θ2, …} Classe des modèles M = {m1, m2, …} Un modèle : P(y | x [Θ = θ1] [M = m1]) Méta-modèle, modèle hiérarchique

Méta-modèle

Méta-modèle Version simplifiée : une seule classe de modèle \begin{eqnarray*}P(\Delta~\Theta) & = & P(\delta_0\ldots\delta_N~\Theta) \\& = & \prod_i P(\delta_i~\Theta) \mbox{~~~~~~~~~~~~~~~~~~~(hyp i.i.d.)} \\& = & \prod_i P(\delta_i~|~\Theta) P(\Theta) \\& = & \prod_i P(x_i~y_i~|~\Theta) P(\Theta) \\& = & \prod_i P(y_i~|~x_i~\Theta) P(x_i) P(\Theta) \\& = & \prod_i P(y_i~|~x_i~\Theta) P(\Theta) \mbox{~~~~~($P(x)$ uniforme)}\end{eqnarray*}

Mesure de comparaison des modèles Calculer la probabilité d’un modèle m1, au vu de données expérimentales Δ

Si P() = uniforme Si P()  uniforme Modèle = prior  vraisemblance Posterior Prior Vraisemblance Si P() = uniforme Modèle de maximum de vraisemblance Maximum Likelihood (MLE) Si P()  uniforme Modèle = prior  vraisemblance Modèle de maximum a posteriori (MAP) Modèle bayésien

Goodness of fit en probabilités Maximiser la vraisemblance

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Tel monsieur Jourdain… Un phénomène génère des couples di = x,y Un modèle prédit y = F(x), F linéaire, F = ax + b autorise du « bruit » dans les mesures On observe D = {dx1, …, dxn} Question Quels sont les paramètres a, b les plus probables ?

Tel monsieur Jourdain…

Tel monsieur Jourdain…

Moindre carrés de l’erreur Comme un Réseau de Neurones & Backpropagation (Mitchell 95, p167) Une régression linéaire residual …

Least square fitting sur Mathworld http://mathworld.wolfram.com

Pour aller plus loin… Inférence dans les cas non-linéaires Moindres carrés Bayésien Espace de modèles  = {3x+2, 4x3-2x2+4} Priors hiérarchiques P( | ) Rasoir d’Occam automatique…

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Odds, posterior odds, evidence Un modèle à 2 cas : Une hypothèse H, et

Odds, posterior odds, evidence Odds , log odds (stats) Posterior odds Odds en bijection avec p

Odds, posterior odds, evidence Evidence (en decibels db) Evidence en bijection avec p

Odds, posterior odds, evidence

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Identification de paramètres vs Sélection de modèles Identification de paramètres  learning Sélection de modèle

Comparaison de modèles Basés sur la vraisemblance AIC Akaike Information Criterion BIC Bayesian Information Criterion MDL Minimum Description Length BMS Bayesian Model Selection

AIC avec k le nombre de paramètres Modèle M qui minimise la mesure AIC Fonctionnelle de Tikhonov AIC = lack of fit + complexity Dérive de l’approximation pour de larges ensembles de données de la KL divergence

BIC avec k le nombre de paramètres n le nombre de données Dérive de l’approximation pour de larges ensembles de données de la Bayesian Model Selection

MDL avec k le nombre de paramètres n le nombre de données I(θ) la matrice d’information de Fisher Matrice des espérances des log des dérivées partielles de la vraisemblance selon les dimensions |.| le déterminant de la matrice

MDL Mesure de complexité qui prend en compte la forme fonctionnelle Provient de la théorie de l’information Compression des données Δ par modèle + déviation

BMS Vraisemblance Vraisemblance marginale

Bayesian model selection Attention BMS Bayesian model selection BMS Bootstrap model selection

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

« vraie » Bayesian model selection Prior sur M uniforme ou pas Prior sur les paramètres θ uniformes ou pas

Bayesian model selection Intégrale sur l’espace des paramètres MAP si on la fait méthodes de Monte-Carlo (voire, méthode de Gibbs (Mitchell 95)) si on tire aléatoirement dans θ pour approximer Gibbs sampling Metropolis-Hastings Random walk methods Approximation du log vraisemblance autour de BMSL Bayesian Model Selection Laplace approximation

Bayes Factor Extension du odds Ratio de vraisemblances marginales si prior uniforme sur M P(M1) = P(M2)

Bayesian Model Selection n’a pas la forme d’une fonctionnelle de Tikhonov et pourtant, mesure la complexité des M

BMS et mesure de complexité « Occam automatique » : intuition Si et P(Δ | θ) concentré autour de Alors P(θ2 | Δ) pénalisé par la normalisation sur Θ2 (espace plus grand)

Rasoir d’Occam automatique MacKay, 03

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

? Question ouverte 1  Distinguabilité des modèles data set Sélectionner un modèle, ok Boucle expérimentale où prendre la prochaine donnée expérimentale ? Notion d’expérience cruciale (discriminante) Distinguer les modèles  Distinguabilité des modèles Design optimization Active learning (active perception) Optimal experimental design Bayesian model distinguishability modélisation data set set of models set of parameters ?

Question ouverte 2 Deux problèmes inverses Perception Phénomène = f -1 (stimuli) Modélisation Modèle = f -1 (observations) Doit-on conclure que le cerveau construit des modèles comme un scientifique le fait ? Le cerveau est-il bayésien ?

Question ouverte 3 Pourquoi 42 ?

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Modélisation du contrôle Mouvements de pointage, volontaire, chez l’humain Etude des régularités Lois du mouvement Isochronie, loi de Fitts, loi de la puissance 2/3 Hypothèses sur les mécanismes Modèles (neuro)cognitifs

Modèles de planification de mouvements Sélection d’une trajectoire selon un coût

Quelle grandeur manipulée par le système de contrôle ? + free energy principle (Friston 10) + inactivation principle (Berret 08) + …

Minimum variance Bruit dépendant du signal (signal dependent noise SDN)

Bayesian Decision Theory Modèle probabiliste + modèle de coût (reward, cost, loss function) Bayes theorem Prior Bayesian decision theory X Posterior observation di Likelihood X output Cost function

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Modélisation bayésienne d’une boucle sensorimotrice : application à l’écriture

Plan Résumé + questions ! Comparaison et sélection de modèles Cadre général : fit, complexité, capacité de généralisation Méthodes de validation croisée Apparté : mesures de distance entre distribution de probabilités Sélection bayésienne de modèles Sélection probabiliste vs. Bayésienne Tel monsieur Jourdain… un exemple Apparté : vocabulaire Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS Questions ouvertes Modélisation de la perception et de l’action Exemple : boucle perception et action de la lecture et l’écriture Modélisation : choix des variables

Importance des variables cachées

Modélisation d’une série temporelle

P(y)

Variable cachée V1 = {Bleu, Rouge} V1=R V1=B

P(y | [V1=R]) P(y | [V1=B])

V2 = {Bleu, Rouge} [V1=R] [V1=B] P(y | [V1=R] [V2=R]) P(y | [V1=R] [V2=B]) [V1=R] P(y | [V1=B] [V2=R]) P(y | [V1=B] [V2=B]) [V1=B]

Digression : entropie Déf : Exemple : [Shannon, 1948]

Exemple 2 : P(X), X = {-1, 0, 1}

Variables cachées, connaissance et entropie Théorème : Les variables cachées apportent de l’information P(y) P(y | [V1=B] [V2=B])

Prédiction de la prochaine valeur ? P(y) P(y | [V1=B] [V2=B])

Pour 2007, [V1=B] et [V2=B]

Merci de votre attention ! Questions ?

Distinguabilité des modèles Modèle de distinguabilité Extension du méta-modèle de fit P(Δ Θ M) = P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M)

Distinguabilité des modèles