Modélisation Bayésienne par chaines de Markov Monte Carlo

Name: Modélisation Bayésienne par chaines de Markov Monte Carlo
Uploaded: 2017-10-18T23:07:19+00:00
Duration: PTM24S23
Channel: Béatrice Bureau
Description: Modélisation Bayésienne par chaines de Markov Monte Carlo

Modélisation Bayésienne par chaines de Markov Monte Carlo
I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo Théorie des chaines de Markov Algorithme de Metropolis III. Application: reconstruction phylogénétique IV. Recherche de motifs dans les séquences régulatrices par Echantillonnage de Gibbs

I. Lois des probabilités
Interprétation classique : Fréquence de phénomènes "aléatoires" (probabilité de tirer un 6 lors dún lancer de dés) Interprétation Bayésienne : Degré díncertitude sur la véracité dúne assertion (dépend du contexte, en particulier, de línformation disponible) (probabilité que les hommes soient plus proches des chympanzés que du gorille, connaissant la séquence de leurs génomes respectifs) Raisonner en présence díncertitude Apprendre par léxpérience et lóbservation

Lois des probabilités domaine commutativité loi du produit
loi de la somme ou: ensemble exhaustif de propositions mutuellement exclusives :

Problème: 11 machines, dont 1 défectueuse.
Produisent des robinets, qui sont conditionnés par caisses de 600. Machines normales produisent en moyenne une proportion de: 5/6 robinets corrects 1/6 robinets défectueux Machine défectueuse: 2/3 robinets corrects 1/3 robinets défectueux On prend une caisse au hasard, et on tire n=1, 2… robinets, pour les tester En déduire la probabilité que la caisse provienne de la machine défectueuse.

? A : la caisse provient de la machine défectueuse
B : la caisse provient d´une machine normale I0 : notre information a priori (avant toute observation) ? "Probabilité inverse"

Théorème de Bayes

Simu sous une bonne machine Simu sous une Machine défectueuse

Théorème de Bayes Séquence de tirages successifs : Probabilité
Nd robinets défecteux Nb robinets ok Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation

Sd : séquence de robinets
tous défectueux.

Sd : séquence de robinets tous défectueux.
Séquences simulées sous le modèle I0

Théorème de Bayes Probabilité a posteriori Probabilité a priori
Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données

Théorème de Bayes Modèle paramétré par Données Probabilité
a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données

Tirage à pile ou face avec une pièce biaisée.
: probabilité de tirer pile lors d´un tirage quelconque Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.

Tirage à pile ou face avec une pièce biaisée.
: probabilité de tirer pile lors d´un tirage quelconque (inconnue) A priori, peut prendre n´importe quelle valeur entre 0 et 1 distribution a priori uniforme sur [0,1] Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois. Estimer , sachant la séquence S

10 piles 5 faces 0.66

II. Monte Carlo: Marche aléatoire
1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser et faire rebondir sur les bords de l´intervalle [0,1] 4. recommencer à l´étape 2. 1

Marche aléatoire biaisée
1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser (en faisant rebondir sur les bords de l´intervalle [0,1]) 4. calculer 5. accepter avec une probabilité p=Min(1,a) si accepté : si refusé : 6. recommencer à partir de 2.

Echantillonnage de la distribution de probabilité a posteriori
Espérance a posteriori :

Chaines de Markov Suite de variables aléatoires
à valeurs dans un espace X (dans le cas précédent, l´intervalle [0,1]) Processus sans mémoire Une chaine de Markov est entièrement définie par : son noyau de transition défini sur X2 la distribution marginale de l´état initial Distribution marginale de l´état n+1 : Distribution stationnaire ("point fixe"):

Distributions stationnaires et bilan détaillé
Chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial Distribution stationnaire ("point fixe"): Bilan détaillé : Implique que est une distribution stationnaire

Chaines de Markov ergodiques
Une chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial est ergodique si, elle possède une distribution stationnaire telle que , tend vers Cette distribution stationnaire est alors évidemment unique

Algorithme de Métropolis
On veut échantillonner une distribution non normalisée, définie sur l´espace X : facteur de normalisation (inconnu) notre distribution de probabilité cible On dispose d´une chaine de Markov ergodique, de noyau symétrique: On construit la chaine de noyau Alors, cette chaine est ergodique, de distribution stationnaire

Métropolis et inférence Bayésienne
Modèle M, paramétré par Probabilité a priori Probabilité a posteriori Vraisemblance Facteur de normalisation Chaine de Markov espace d´états Chaine ayant la probabilité a posteriori comme dist. stationnaire Obtention d´un échantillon ( points) Moyennes sur l´échantillon: espérances a posteriori

III. Modèles stochastiques d´évolution moléculaire
Chick A C C G A G A T A G Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T A C Snail A G G C A C A T A Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T ? Arbre phylogénétique Séquences alignées Paramètre : (topologie + longueurs de branches) Données : (séquences alignées) Modèle :

Modèles stochastiques d´évolution
2. Probabilité qu´il n´y ait eu aucune substitution sur cette branche : 3. Si substitution, alors tirer un nouvel état avec probabilités 1/4, 1/4, 1/4, 1/4 C A 1. Tirer une lettre parmi {A,C,G,T} (avec probabilités 1/4, 1/4, 1/4, 1/4)

Colonne Ci G C A A ?

G C A A

? G C A A

G C A A

Algorithme du "pruning" Vraisemblance : Complexité: NPK2 Ci N sites
Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : N sites P taxons K=4 caractères Complexité: NPK2

Modèles stochastiques
Bayésiens Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : Prior : Uniforme Théorème de Bayes : Distribution a posteriori

Echantillonnage par Métropolis
1. Proposer une modif selon un noyau symétrique 2. Accepter avec probabilité 3. Reprendre en 1

"Node-sliding" T2 T1 T3 T4

Monte Carlo Markov chain (MCMC)
E =-ln L For any topology T : burn in (discarded) sample 45 Chick 67 Man 78 Cat Fish ~ 90 Snail Fly 87 Hydra Polyp posterior consensus

Modèles sites rapides/sites lents
Chick A C C G A T A C Man A G C G A T C T Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C

Chick A C C G A T A C C T Man A G C G A T C T Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T C Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 1 substitution Chick A C C G A T A C C T Man A G C G A T C T Cat A G G G A T A T C T Fish A G G G A T A C Snail A G G C A C A T C C T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 3 substitutions

, Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T

Rééchantillonner les vitesses
en chaque site Prendre chaque site un par un Pour le site i : Proposer et faire rebondir sur la limite Calculer Accepter le changement avec une probabilité

Echantillonnage alterné
i.i.d. Échantillon: ~ Vitesse moyenne a posteriori en chaque site Consensus moyen a posteriori

Modèles d´évolution moléculaire
Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Problème Phylogénétique Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Problème fonctionnel

IV. Détection de modules fonctionnels
dans les séquences début de la transcription sites de fixation de facteurs de transcription +1 AAAGACATGCATACAGCCCGACACTAGCACCATCAGCAG ARNm protéine

0.5 0.4 0.1 0.2 0.7 Motif Longueur Matrice Mot A C G T
AAAGACATGCAAACATCCCGACACTAGCACCATCAGCAG 0.5 x 0.4 x 0.7 x 0.5 x 0.5

background A 0.5 0.4 0.1 0.2 0.7 0.3 0.4 0.1 0.5 0.2 0.7 0.3 0.2 C G T Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG

Annotation A de la séquence S:
Modèle dánnotation M Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG Distribution a priori sur lénsemble des annotations possibles probabilité a priori dápparition du motif i tous les positionnements non-chevauchants équiprobables a priori Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation

Echantillonnage de Gibbs
ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG

Apprentissage automatique du dictionnaire de motifs
Modèle dánnotation M Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG Distribution a priori sur lénsemble des annotations possibles probabilité a priori dápparition du motif i tous les positionnements non-chevauchants équiprobables a priori Les coefficients des matrices sont également inconnus: distribution a priori sur toutes leurs valeurs possibles échantillonnage conjoint

0.2 0.4 0.3 0.5 0.1 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCAGGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.2 0.4 0.3 0.5 0.1 A C G T

0.2 0.4 0.3 0.5 0.1 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.2 0.4 0.3 0.5 0.1 A C G T

0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T

Thompson et al, Genome Research, 2004

Modélisation Bayésienne par chaines de Markov Monte Carlo

Présentations similaires

Présentation au sujet: "Modélisation Bayésienne par chaines de Markov Monte Carlo"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Modélisation Bayésienne par chaines de Markov Monte Carlo

Présentations similaires

Présentation au sujet: "Modélisation Bayésienne par chaines de Markov Monte Carlo"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back