Télécharger la présentation
Publié parBéatrice Bureau Modifié depuis plus de 10 années
1
Modélisation Bayésienne par chaines de Markov Monte Carlo
I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo Théorie des chaines de Markov Algorithme de Metropolis III. Application: reconstruction phylogénétique IV. Recherche de motifs dans les séquences régulatrices par Echantillonnage de Gibbs
2
I. Lois des probabilités
Interprétation classique : Fréquence de phénomènes "aléatoires" (probabilité de tirer un 6 lors d´un lancer de dés) Interprétation Bayésienne : Degré d´incertitude sur la véracité d´une assertion (dépend du contexte, en particulier, de l´information disponible) (probabilité que les hommes soient plus proches des chympanzés que du gorille, connaissant la séquence de leurs génomes respectifs) Raisonner en présence d´incertitude Apprendre par l´expérience et l´observation
3
Lois des probabilités domaine commutativité loi du produit
loi de la somme ou: ensemble exhaustif de propositions mutuellement exclusives :
4
Problème: 11 machines, dont 1 défectueuse.
Produisent des robinets, qui sont conditionnés par caisses de 600. Machines normales produisent en moyenne une proportion de: 5/6 robinets corrects 1/6 robinets défectueux Machine défectueuse: 2/3 robinets corrects 1/3 robinets défectueux On prend une caisse au hasard, et on tire n=1, 2… robinets, pour les tester En déduire la probabilité que la caisse provienne de la machine défectueuse.
5
? A : la caisse provient de la machine défectueuse
B : la caisse provient d´une machine normale I0 : notre information a priori (avant toute observation) ? "Probabilité inverse"
6
Théorème de Bayes
10
Simu sous une bonne machine Simu sous une Machine défectueuse
11
Théorème de Bayes Séquence de tirages successifs : Probabilité
Nd robinets défecteux Nb robinets ok Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation
12
Sd : séquence de robinets
tous défectueux.
13
Sd : séquence de robinets tous défectueux.
Séquences simulées sous le modèle I0
14
Théorème de Bayes Probabilité a posteriori Probabilité a priori
Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données
15
Théorème de Bayes Modèle paramétré par Données Probabilité
a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données
17
Tirage à pile ou face avec une pièce biaisée.
: probabilité de tirer pile lors d´un tirage quelconque Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.
18
Tirage à pile ou face avec une pièce biaisée.
: probabilité de tirer pile lors d´un tirage quelconque (inconnue) A priori, peut prendre n´importe quelle valeur entre 0 et 1 distribution a priori uniforme sur [0,1] Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois. Estimer , sachant la séquence S
20
10 piles 5 faces 0.66
21
II. Monte Carlo: Marche aléatoire
1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser et faire rebondir sur les bords de l´intervalle [0,1] 4. recommencer à l´étape 2. 1
22
Marche aléatoire biaisée
1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser (en faisant rebondir sur les bords de l´intervalle [0,1]) 4. calculer 5. accepter avec une probabilité p=Min(1,a) si accepté : si refusé : 6. recommencer à partir de 2.
23
Echantillonnage de la distribution de probabilité a posteriori
Espérance a posteriori :
24
Chaines de Markov Suite de variables aléatoires
à valeurs dans un espace X (dans le cas précédent, l´intervalle [0,1]) Processus sans mémoire Une chaine de Markov est entièrement définie par : son noyau de transition défini sur X2 la distribution marginale de l´état initial Distribution marginale de l´état n+1 : Distribution stationnaire ("point fixe"):
25
Distributions stationnaires et bilan détaillé
Chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial Distribution stationnaire ("point fixe"): Bilan détaillé : Implique que est une distribution stationnaire
26
Chaines de Markov ergodiques
Une chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial est ergodique si, elle possède une distribution stationnaire telle que , tend vers Cette distribution stationnaire est alors évidemment unique
27
Algorithme de Métropolis
On veut échantillonner une distribution non normalisée, définie sur l´espace X : facteur de normalisation (inconnu) notre distribution de probabilité cible On dispose d´une chaine de Markov ergodique, de noyau symétrique: On construit la chaine de noyau Alors, cette chaine est ergodique, de distribution stationnaire
28
Métropolis et inférence Bayésienne
Modèle M, paramétré par Probabilité a priori Probabilité a posteriori Vraisemblance Facteur de normalisation Chaine de Markov espace d´états Chaine ayant la probabilité a posteriori comme dist. stationnaire Obtention d´un échantillon ( points) Moyennes sur l´échantillon: espérances a posteriori
29
III. Modèles stochastiques d´évolution moléculaire
Chick A C C G A G A T A G Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T A C Snail A G G C A C A T A Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T ? Arbre phylogénétique Séquences alignées Paramètre : (topologie + longueurs de branches) Données : (séquences alignées) Modèle :
30
Modèles stochastiques d´évolution
2. Probabilité qu´il n´y ait eu aucune substitution sur cette branche : 3. Si substitution, alors tirer un nouvel état avec probabilités 1/4, 1/4, 1/4, 1/4 C A 1. Tirer une lettre parmi {A,C,G,T} (avec probabilités 1/4, 1/4, 1/4, 1/4)
31
Colonne Ci G C A A ?
32
G C A A
33
G C A A
34
G C A A
35
G C A A
36
? G C A A
37
G C A A
38
G C A A
39
Algorithme du "pruning" Vraisemblance : Complexité: NPK2 Ci N sites
Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : N sites P taxons K=4 caractères Complexité: NPK2
40
Modèles stochastiques
Bayésiens Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : Prior : Uniforme Théorème de Bayes : Distribution a posteriori
41
Echantillonnage par Métropolis
1. Proposer une modif selon un noyau symétrique 2. Accepter avec probabilité 3. Reprendre en 1
42
"Node-sliding" T2 T1 T3 T4
43
Monte Carlo Markov chain (MCMC)
E =-ln L For any topology T : burn in (discarded) sample 45 Chick 67 Man 78 Cat Fish ~ 90 Snail Fly 87 Hydra Polyp posterior consensus
44
Modèles sites rapides/sites lents
Chick A C C G A T A C Man A G C G A T C T Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C
45
Modèles sites rapides/sites lents
Chick A C C G A T A C C T Man A G C G A T C T Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T C Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 1 substitution Chick A C C G A T A C C T Man A G C G A T C T Cat A G G G A T A T C T Fish A G G G A T A C Snail A G G C A C A T C C T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 3 substitutions
46
Modèles sites rapides/sites lents
, Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T
47
Modèles sites rapides/sites lents
, Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T
48
Rééchantillonner les vitesses
en chaque site Prendre chaque site un par un Pour le site i : Proposer et faire rebondir sur la limite Calculer Accepter le changement avec une probabilité
49
Echantillonnage alterné
i.i.d. Échantillon: ~ Vitesse moyenne a posteriori en chaque site Consensus moyen a posteriori
50
Modèles d´évolution moléculaire
Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Problème Phylogénétique Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Problème fonctionnel
52
IV. Détection de modules fonctionnels
dans les séquences début de la transcription sites de fixation de facteurs de transcription +1 AAAGACATGCATACAGCCCGACACTAGCACCATCAGCAG ARNm protéine
53
0.5 0.4 0.1 0.2 0.7 Motif Longueur Matrice Mot A C G T
AAAGACATGCAAACATCCCGACACTAGCACCATCAGCAG 0.5 x 0.4 x 0.7 x 0.5 x 0.5
54
background A 0.5 0.4 0.1 0.2 0.7 0.3 0.4 0.1 0.5 0.2 0.7 0.3 0.2 C G T Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG
55
Annotation A de la séquence S:
Modèle d´annotation M Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG Distribution a priori sur l´ensemble des annotations possibles probabilité a priori d´apparition du motif i tous les positionnements non-chevauchants équiprobables a priori Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation
56
Echantillonnage de Gibbs
ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG
57
Apprentissage automatique du dictionnaire de motifs
Modèle d´annotation M Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG Distribution a priori sur l´ensemble des annotations possibles probabilité a priori d´apparition du motif i tous les positionnements non-chevauchants équiprobables a priori Les coefficients des matrices sont également inconnus: distribution a priori sur toutes leurs valeurs possibles échantillonnage conjoint
58
0.2 0.4 0.3 0.5 0.1 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCAGGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.2 0.4 0.3 0.5 0.1 A C G T
59
0.2 0.4 0.3 0.5 0.1 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.2 0.4 0.3 0.5 0.1 A C G T
60
0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T
61
0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T
62
0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T
63
Thompson et al, Genome Research, 2004
64
Thompson et al, Genome Research, 2004
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.