La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Modélisation Bayésienne par chaines de Markov Monte Carlo

Présentations similaires


Présentation au sujet: "Modélisation Bayésienne par chaines de Markov Monte Carlo"— Transcription de la présentation:

1 Modélisation Bayésienne par chaines de Markov Monte Carlo
I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo Théorie des chaines de Markov Algorithme de Metropolis III. Application: reconstruction phylogénétique IV. Recherche de motifs dans les séquences régulatrices par Echantillonnage de Gibbs

2 I. Lois des probabilités
Interprétation classique : Fréquence de phénomènes "aléatoires" (probabilité de tirer un 6 lors d´un lancer de dés) Interprétation Bayésienne : Degré d´incertitude sur la véracité d´une assertion (dépend du contexte, en particulier, de l´information disponible) (probabilité que les hommes soient plus proches des chympanzés que du gorille, connaissant la séquence de leurs génomes respectifs) Raisonner en présence d´incertitude Apprendre par l´expérience et l´observation

3 Lois des probabilités domaine commutativité loi du produit
loi de la somme ou: ensemble exhaustif de propositions mutuellement exclusives :

4 Problème: 11 machines, dont 1 défectueuse.
Produisent des robinets, qui sont conditionnés par caisses de 600. Machines normales produisent en moyenne une proportion de: 5/6 robinets corrects 1/6 robinets défectueux Machine défectueuse: 2/3 robinets corrects 1/3 robinets défectueux On prend une caisse au hasard, et on tire n=1, 2… robinets, pour les tester En déduire la probabilité que la caisse provienne de la machine défectueuse.

5 ? A : la caisse provient de la machine défectueuse
B : la caisse provient d´une machine normale I0 : notre information a priori (avant toute observation) ? "Probabilité inverse"

6 Théorème de Bayes

7

8

9

10 Simu sous une bonne machine Simu sous une Machine défectueuse

11 Théorème de Bayes Séquence de tirages successifs : Probabilité
Nd robinets défecteux Nb robinets ok Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation

12 Sd : séquence de robinets
tous défectueux.

13 Sd : séquence de robinets tous défectueux.
Séquences simulées sous le modèle I0

14 Théorème de Bayes Probabilité a posteriori Probabilité a priori
Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données

15 Théorème de Bayes Modèle paramétré par Données Probabilité
a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données

16

17 Tirage à pile ou face avec une pièce biaisée.
: probabilité de tirer pile lors d´un tirage quelconque Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.

18 Tirage à pile ou face avec une pièce biaisée.
: probabilité de tirer pile lors d´un tirage quelconque (inconnue) A priori, peut prendre n´importe quelle valeur entre 0 et 1 distribution a priori uniforme sur [0,1] Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois. Estimer , sachant la séquence S

19

20 10 piles 5 faces 0.66

21 II. Monte Carlo: Marche aléatoire
1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser et faire rebondir sur les bords de l´intervalle [0,1] 4. recommencer à l´étape 2. 1

22 Marche aléatoire biaisée
1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser (en faisant rebondir sur les bords de l´intervalle [0,1]) 4. calculer 5. accepter avec une probabilité p=Min(1,a) si accepté : si refusé : 6. recommencer à partir de 2.

23 Echantillonnage de la distribution de probabilité a posteriori
Espérance a posteriori :

24 Chaines de Markov Suite de variables aléatoires
à valeurs dans un espace X (dans le cas précédent, l´intervalle [0,1]) Processus sans mémoire Une chaine de Markov est entièrement définie par : son noyau de transition défini sur X2 la distribution marginale de l´état initial Distribution marginale de l´état n+1 : Distribution stationnaire ("point fixe"):

25 Distributions stationnaires et bilan détaillé
Chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial Distribution stationnaire ("point fixe"): Bilan détaillé : Implique que est une distribution stationnaire

26 Chaines de Markov ergodiques
Une chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial est ergodique si, elle possède une distribution stationnaire telle que , tend vers Cette distribution stationnaire est alors évidemment unique

27 Algorithme de Métropolis
On veut échantillonner une distribution non normalisée, définie sur l´espace X : facteur de normalisation (inconnu) notre distribution de probabilité cible On dispose d´une chaine de Markov ergodique, de noyau symétrique: On construit la chaine de noyau Alors, cette chaine est ergodique, de distribution stationnaire

28 Métropolis et inférence Bayésienne
Modèle M, paramétré par Probabilité a priori Probabilité a posteriori Vraisemblance Facteur de normalisation Chaine de Markov espace d´états Chaine ayant la probabilité a posteriori comme dist. stationnaire Obtention d´un échantillon ( points) Moyennes sur l´échantillon: espérances a posteriori

29 III. Modèles stochastiques d´évolution moléculaire
Chick A C C G A G A T A G Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T A C Snail A G G C A C A T A Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T ? Arbre phylogénétique Séquences alignées Paramètre : (topologie + longueurs de branches) Données : (séquences alignées) Modèle :

30 Modèles stochastiques d´évolution
2. Probabilité qu´il n´y ait eu aucune substitution sur cette branche : 3. Si substitution, alors tirer un nouvel état avec probabilités 1/4, 1/4, 1/4, 1/4 C A 1. Tirer une lettre parmi {A,C,G,T} (avec probabilités 1/4, 1/4, 1/4, 1/4)

31 Colonne Ci G C A A ?

32 G C A A

33 G C A A

34 G C A A

35 G C A A

36 ? G C A A

37 G C A A

38 G C A A

39 Algorithme du "pruning" Vraisemblance : Complexité: NPK2 Ci N sites
Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : N sites P taxons K=4 caractères Complexité: NPK2

40 Modèles stochastiques
Bayésiens Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : Prior : Uniforme Théorème de Bayes : Distribution a posteriori

41 Echantillonnage par Métropolis
1. Proposer une modif selon un noyau symétrique 2. Accepter avec probabilité 3. Reprendre en 1

42 "Node-sliding" T2 T1 T3 T4

43 Monte Carlo Markov chain (MCMC)
E =-ln L For any topology T : burn in (discarded) sample 45 Chick 67 Man 78 Cat Fish ~ 90 Snail Fly 87 Hydra Polyp posterior consensus

44 Modèles sites rapides/sites lents
Chick A C C G A T A C Man A G C G A T C T Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C

45 Modèles sites rapides/sites lents
Chick A C C G A T A C C T Man A G C G A T C T Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T C Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 1 substitution Chick A C C G A T A C C T Man A G C G A T C T Cat A G G G A T A T C T Fish A G G G A T A C Snail A G G C A C A T C C T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 3 substitutions

46 Modèles sites rapides/sites lents
, Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T

47 Modèles sites rapides/sites lents
, Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T

48 Rééchantillonner les vitesses
en chaque site Prendre chaque site un par un Pour le site i : Proposer et faire rebondir sur la limite Calculer Accepter le changement avec une probabilité

49 Echantillonnage alterné
i.i.d. Échantillon: ~ Vitesse moyenne a posteriori en chaque site Consensus moyen a posteriori

50 Modèles d´évolution moléculaire
Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Problème Phylogénétique Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Problème fonctionnel

51

52 IV. Détection de modules fonctionnels
dans les séquences début de la transcription sites de fixation de facteurs de transcription +1 AAAGACATGCATACAGCCCGACACTAGCACCATCAGCAG ARNm protéine

53 0.5 0.4 0.1 0.2 0.7 Motif Longueur Matrice Mot A C G T
AAAGACATGCAAACATCCCGACACTAGCACCATCAGCAG 0.5 x 0.4 x 0.7 x 0.5 x 0.5

54 background A 0.5 0.4 0.1 0.2 0.7 0.3 0.4 0.1 0.5 0.2 0.7 0.3 0.2 C G T Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG

55 Annotation A de la séquence S:
Modèle d´annotation M Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG Distribution a priori sur l´ensemble des annotations possibles probabilité a priori d´apparition du motif i tous les positionnements non-chevauchants équiprobables a priori Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation

56 Echantillonnage de Gibbs
ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG

57 Apprentissage automatique du dictionnaire de motifs
Modèle d´annotation M Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG Distribution a priori sur l´ensemble des annotations possibles probabilité a priori d´apparition du motif i tous les positionnements non-chevauchants équiprobables a priori Les coefficients des matrices sont également inconnus: distribution a priori sur toutes leurs valeurs possibles échantillonnage conjoint

58 0.2 0.4 0.3 0.5 0.1 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCAGGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.2 0.4 0.3 0.5 0.1 A C G T

59 0.2 0.4 0.3 0.5 0.1 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.2 0.4 0.3 0.5 0.1 A C G T

60 0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T

61 0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T

62 0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T

63 Thompson et al, Genome Research, 2004

64 Thompson et al, Genome Research, 2004

65


Télécharger ppt "Modélisation Bayésienne par chaines de Markov Monte Carlo"

Présentations similaires


Annonces Google