Modélisation Bayésienne par chaines de Markov Monte Carlo

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

La théorie du monde est petit
Probabilités et statistiques au lycée
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Champs de Markov en Vision par Ordinateur
RECONNAISSANCE DE FORMES
Inférence statistique
Inférence statistique
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Échantillonnage-Estimation
Moyenne, écart type et incertitude de mesure.
Les tests d’hypothèses
Probabilités au collège
Résumé cours précédent
DEA instrumentation et commande
Le filtrage au cours des âges Du filtre de Kalman au filtrage particulaire André Monin.
Autres LOIS de PROBABILITES
Exemple Dans une ville, 55% des travailleurs ont un revenu supérieur à $. Si un individu de cette ville possède un revenu supérieur à $, la.
Septième étape : travailler avec des graphes probabilistes
Application des algorithmes génétiques
Les lois des probabilités
Décodage des informations
1 - Construction d'un abaque Exemple
Méthode des k plus proches voisins
Régression linéaire simple
III – Convergence Asymptotique
Comprendre la variation dans les données: Notions de base
Les probabilités.
II- L’algorithme du recuit simulé (pseudo-code)
La distribution normale
Algorithmes probabilistes
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Contrôle « rapide » Indiquer votre série GAUCHE ou DROITE
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
Distribution d’échantillonnage
Théorie de l’échantillonnage (STT-6005)
Filtrage de Kalman et aperçu probabiliste
Régression linéaire (STT-2400)
Réseaux bayésiens: Inférence
Probabilités et variables aléatoires
1 - Programme de Seconde (juin 2009) Statistique et probabilités
10 février 2006GDR ISIS Journée Localisation et Navigation Projet EGNOS-BUS (Eurêka) André Monin, Wael Suleiman LAAS-CNRS.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Théorème de la limite centrale l’inférence statistique
STATISTIQUES – PROBABILITÉS
Sureté de fonctionnement dans les WNCS
TNS et Analyse Spectrale
Équilibre de satisfaction
Étude de l’écoulement moyen
Thème: statistiques et probabilités Séquence 6: Probabilités (Partie 1) Capacités : Déterminer la probabilité d’événements dans des situations d’équiprobabilité.
Méthode des moindres carrés (1)
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Rappel de statistiques
Intervalles de fluctuation et de confiance. Dans une population, la proportion d’individus ayant un caractère donné est notée p Population.

Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
François Couchot, CPE-Lyon, 17 mai Masse des Neutrinos et CMB Extraits de la thèse d’Alexandre Bourrachot (sept. 2004) Problématique de la vraisemblance.
Recuit simulé Une métaheuristique venue de la métallurgie.
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
ECHANTILLONAGE ET ESTIMATION
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Présentation sur l’état d’avancement du projet Poorfish en Mauritanie Barcelona, Aril 2007 Par Brahim Ould Mouhamed Tfeil et Khallahi Brahim.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Modélisation Bayésienne par chaines de Markov Monte Carlo I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo Théorie des chaines de Markov Algorithme de Metropolis III. Application: reconstruction phylogénétique IV. Recherche de motifs dans les séquences régulatrices par Echantillonnage de Gibbs

I. Lois des probabilités Interprétation classique : Fréquence de phénomènes "aléatoires" (probabilité de tirer un 6 lors d´un lancer de dés) Interprétation Bayésienne : Degré d´incertitude sur la véracité d´une assertion (dépend du contexte, en particulier, de l´information disponible) (probabilité que les hommes soient plus proches des chympanzés que du gorille, connaissant la séquence de leurs génomes respectifs) Raisonner en présence d´incertitude Apprendre par l´expérience et l´observation

Lois des probabilités domaine commutativité loi du produit loi de la somme ou: ensemble exhaustif de propositions mutuellement exclusives :

Problème: 11 machines, dont 1 défectueuse. Produisent des robinets, qui sont conditionnés par caisses de 600. Machines normales produisent en moyenne une proportion de: 5/6 robinets corrects 1/6 robinets défectueux Machine défectueuse: 2/3 robinets corrects 1/3 robinets défectueux On prend une caisse au hasard, et on tire n=1, 2… robinets, pour les tester En déduire la probabilité que la caisse provienne de la machine défectueuse.

? A : la caisse provient de la machine défectueuse B : la caisse provient d´une machine normale I0 : notre information a priori (avant toute observation) ? "Probabilité inverse"

Théorème de Bayes

Simu sous une bonne machine Simu sous une Machine défectueuse

Théorème de Bayes Séquence de tirages successifs : Probabilité Nd robinets défecteux Nb robinets ok Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation

Sd : séquence de robinets tous défectueux.

Sd : séquence de robinets tous défectueux. Séquences simulées sous le modèle I0

Théorème de Bayes Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données

Théorème de Bayes Modèle paramétré par Données Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données

Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.

Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque (inconnue) A priori, peut prendre n´importe quelle valeur entre 0 et 1 distribution a priori uniforme sur [0,1] Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois. Estimer , sachant la séquence S

10 piles 5 faces 0.66

II. Monte Carlo: Marche aléatoire 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser et faire rebondir sur les bords de l´intervalle [0,1] 4. recommencer à l´étape 2. 1

Marche aléatoire biaisée 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser (en faisant rebondir sur les bords de l´intervalle [0,1]) 4. calculer 5. accepter avec une probabilité p=Min(1,a) si accepté : si refusé : 6. recommencer à partir de 2.

Echantillonnage de la distribution de probabilité a posteriori Espérance a posteriori :

Chaines de Markov Suite de variables aléatoires à valeurs dans un espace X (dans le cas précédent, l´intervalle [0,1]) Processus sans mémoire Une chaine de Markov est entièrement définie par : son noyau de transition défini sur X2 la distribution marginale de l´état initial Distribution marginale de l´état n+1 : Distribution stationnaire ("point fixe"):

Distributions stationnaires et bilan détaillé Chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial Distribution stationnaire ("point fixe"): Bilan détaillé : Implique que est une distribution stationnaire

Chaines de Markov ergodiques Une chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial est ergodique si, elle possède une distribution stationnaire telle que , tend vers Cette distribution stationnaire est alors évidemment unique

Algorithme de Métropolis On veut échantillonner une distribution non normalisée, définie sur l´espace X : facteur de normalisation (inconnu) notre distribution de probabilité cible On dispose d´une chaine de Markov ergodique, de noyau symétrique: On construit la chaine de noyau Alors, cette chaine est ergodique, de distribution stationnaire

Métropolis et inférence Bayésienne Modèle M, paramétré par Probabilité a priori Probabilité a posteriori Vraisemblance Facteur de normalisation Chaine de Markov espace d´états Chaine ayant la probabilité a posteriori comme dist. stationnaire Obtention d´un échantillon (10 000 points) Moyennes sur l´échantillon: espérances a posteriori

III. Modèles stochastiques d´évolution moléculaire Chick A C C G A G A T A G Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T A C Snail A G G C A C A T A Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T ? Arbre phylogénétique Séquences alignées Paramètre : (topologie + longueurs de branches) Données : (séquences alignées) Modèle :

Modèles stochastiques d´évolution 2. Probabilité qu´il n´y ait eu aucune substitution sur cette branche : 3. Si substitution, alors tirer un nouvel état avec probabilités 1/4, 1/4, 1/4, 1/4 C A 1. Tirer une lettre parmi {A,C,G,T} (avec probabilités 1/4, 1/4, 1/4, 1/4)

Colonne Ci G C A A ?

G C A A

G C A A

G C A A

G C A A

? G C A A

G C A A

G C A A

Algorithme du "pruning" Vraisemblance : Complexité: NPK2 Ci N sites Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : N sites P taxons K=4 caractères Complexité: NPK2

Modèles stochastiques Bayésiens Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : Prior : Uniforme Théorème de Bayes : Distribution a posteriori

Echantillonnage par Métropolis 1. Proposer une modif selon un noyau symétrique 2. Accepter avec probabilité 3. Reprendre en 1

"Node-sliding" T2 T1 T3 T4

Monte Carlo Markov chain (MCMC) E =-ln L For any topology T : burn in (discarded) sample 45 Chick 67 Man 78 Cat Fish ~ 90 Snail Fly 87 Hydra Polyp posterior consensus

Modèles sites rapides/sites lents Chick A C C G A T A C Man A G C G A T C T Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C

Modèles sites rapides/sites lents Chick A C C G A T A C C T Man A G C G A T C T Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T C Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 1 substitution Chick A C C G A T A C C T Man A G C G A T C T Cat A G G G A T A T C T Fish A G G G A T A C Snail A G G C A C A T C C T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 3 substitutions

Modèles sites rapides/sites lents , Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T

Modèles sites rapides/sites lents , Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T

Rééchantillonner les vitesses en chaque site Prendre chaque site un par un Pour le site i : Proposer et faire rebondir sur la limite Calculer Accepter le changement avec une probabilité

Echantillonnage alterné i.i.d. Échantillon: ~ Vitesse moyenne a posteriori en chaque site Consensus moyen a posteriori

Modèles d´évolution moléculaire Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Problème Phylogénétique Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Problème fonctionnel

IV. Détection de modules fonctionnels dans les séquences début de la transcription sites de fixation de facteurs de transcription +1 AAAGACATGCATACAGCCCGACACTAGCACCATCAGCAG ARNm protéine

0.5 0.4 0.1 0.2 0.7 Motif Longueur Matrice Mot A C G T AAAGACATGCAAACATCCCGACACTAGCACCATCAGCAG 0.5 x 0.4 x 0.7 x 0.5 x 0.5

background A 0.5 0.4 0.1 0.2 0.7 0.3 0.4 0.1 0.5 0.2 0.7 0.3 0.2 C G T Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG

Annotation A de la séquence S: Modèle d´annotation M Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG Distribution a priori sur l´ensemble des annotations possibles probabilité a priori d´apparition du motif i tous les positionnements non-chevauchants équiprobables a priori Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation

Echantillonnage de Gibbs ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG

Apprentissage automatique du dictionnaire de motifs Modèle d´annotation M Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG Distribution a priori sur l´ensemble des annotations possibles probabilité a priori d´apparition du motif i tous les positionnements non-chevauchants équiprobables a priori Les coefficients des matrices sont également inconnus: distribution a priori sur toutes leurs valeurs possibles échantillonnage conjoint

0.2 0.4 0.3 0.5 0.1 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCAGGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.2 0.4 0.3 0.5 0.1 A C G T

0.2 0.4 0.3 0.5 0.1 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.2 0.4 0.3 0.5 0.1 A C G T

0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T

0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T

0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T

Thompson et al, Genome Research, 2004

Thompson et al, Genome Research, 2004