La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Modélisation Bayésienne par chaines de Markov Monte Carlo I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo –Théorie des chaines de Markov.

Présentations similaires


Présentation au sujet: "Modélisation Bayésienne par chaines de Markov Monte Carlo I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo –Théorie des chaines de Markov."— Transcription de la présentation:

1 Modélisation Bayésienne par chaines de Markov Monte Carlo I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo –Théorie des chaines de Markov –Algorithme de Metropolis III. Application: reconstruction phylogénétique IV. Recherche de motifs dans les séquences régulatrices par Echantillonnage de Gibbs

2 I. Lois des probabilités Interprétation classique : Fréquence de phénomènes "aléatoires" Interprétation Bayésienne : Degré d´incertitude sur la véracité d´une assertion (dépend du contexte, en particulier, de l´information disponible) Raisonner en présence d´incertitude Apprendre par l´expérience et l´observation (probabilité de tirer un 6 lors d´un lancer de dés) (probabilité que les hommes soient plus proches des chympanzés que du gorille, connaissant la séquence de leurs génomes respectifs)

3 Lois des probabilités ensemble exhaustif de commutativité loi du produit loi de la somme propositions mutuellement exclusives : ou: domaine

4 11 machines, dont 1 défectueuse. Produisent des robinets, qui sont conditionnés par caisses de 600. Machines normales produisent en moyenne une proportion de: 5/6 robinets corrects 1/6 robinets défectueux Machine défectueuse: 2/3 robinets corrects 1/3 robinets défectueux On prend une caisse au hasard, et on tire n=1, 2… robinets, pour les tester En déduire la probabilité que la caisse provienne de la machine défectueuse. Problème:

5 A : la caisse provient de la machine défectueuse I 0 : notre information a priori (avant toute observation) B : la caisse provient d´une machine normale ? "Probabilité inverse"

6 Théorème de Bayes

7

8

9

10 Simu sous une bonne machine Simu sous une Machine défectueuse

11 Théorème de Bayes Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation Séquence de tirages successifs : Nd robinets défecteux Nb robinets ok

12 S d : séquence de robinets tous défectueux.

13 Séquences simulées sous le modèle I 0 S d : séquence de robinets tous défectueux.

14 Théorème de Bayes Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation Mesure la validité globale du modèle, face aux données

15 Théorème de Bayes Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation Mesure la validité globale du modèle, face aux données Modèle paramétré par Données

16

17 Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu N p =10 fois, face obtenu N f =5 fois.

18 Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque (inconnue) A priori, peut prendre n´importe quelle valeur entre 0 et 1 distribution a priori uniforme sur [0,1] Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu N p =10 fois, face obtenu N f =5 fois. Estimer, sachant la séquence S

19

20 10 piles 5 faces 0.66

21 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser et faire rebondir sur les bords de l´intervalle [0,1] 4. recommencer à l´étape 2. II. Monte Carlo: Marche aléatoire 0 1

22 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser (en faisant rebondir sur les bords de l´intervalle [0,1]) 4. calculer 5. accepter avec une probabilité p=Min(1,a) si accepté : si refusé : 6. recommencer à partir de 2. Marche aléatoire biaisée

23 Echantillonnage de la distribution de probabilité a posteriori Espérance a posteriori :

24 Chaines de Markov Suite de variables aléatoires à valeurs dans un espace X Processus sans mémoire défini sur X 2 Une chaine de Markov est entièrement définie par : son noyau de transition la distribution marginale de l´état initial Distribution marginale de l´état n+1 : Distribution stationnaire ("point fixe"): (dans le cas précédent, l´intervalle [0,1])

25 Distributions stationnaires et bilan détaillé Chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial Distribution stationnaire ("point fixe"): Bilan détaillé : Implique queest une distribution stationnaire

26 Chaines de Markov ergodiques Une chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial est ergodique si, elle possède une distribution stationnaire telle que tend vers, Cette distribution stationnaire est alors évidemment unique

27 Algorithme de Métropolis On dispose d´une chaine de Markov ergodique, de noyau symétrique: On veut échantillonner une distribution non normalisée, définie sur l´espace X : facteur de normalisation (inconnu) notre distribution de probabilité cible On construit la chaine de noyau Alors, cette chaine est ergodique, de distribution stationnaire

28 Métropolis et inférence Bayésienne Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation Modèle M, paramétré par Chaine de Markov espace d´états Chaine ayant la probabilité a posteriori comme dist. stationnaire Obtention d´un échantillon ( points) Moyennes sur l´échantillon: espérances a posteriori

29 III. Modèles stochastiques d´évolution moléculaire Séquences alignéesArbre phylogénétique ? (topologie + longueurs de branches) Paramètre : Données : (séquences alignées) Modèle : Chick A C C G A G A T Cat Fish Snail Fly Hydra Polyp A G C G A G C T A G G G A G A T A G G G A C A T A G G C A C A T A C G C A C A T A C C A A C A T Man A A G A C

30 1. Tirer une lettre parmi {A,C,G,T} (avec probabilités 1/4, 1/4, 1/4, 1/4) A 3. Si substitution, alors tirer un nouvel état avec probabilités 1/4, 1/4, 1/4, 1/4 C 2. Probabilité qu´il n´y ait eu aucune substitution sur cette branche : Modèles stochastiques d´évolution

31 A A C G CiCi Colonne ?

32 A A C G

33 A A C G

34 A A C G

35 A A C G

36 A A C G ?

37 A A C G

38 A A C G

39 Chick A C C G A G A T Cat Fish Snail Fly Hydra Polyp A G C G A G C T A G G G A G A T A G G G A C A T A G G C A C A T A C G C A C A T A C C A A C A T Man CiCi Vraisemblance : N sites P taxons K=4 caractères Complexité: NPK 2 Algorithme du "pruning"

40 Chick A C C G A G A T Cat Fish Snail Fly Hydra Polyp A G C G A G C T A G G G A G A T A G G G A C A T A G G C A C A T A C G C A C A T A C C A A C A T Man CiCi Modèles stochastiques Bayésiens Prior : Vraisemblance : Uniforme Théorème de Bayes : Distribution a posteriori

41 Echantillonnage par Métropolis Reprendre en 1 Accepter avec probabilité Proposer une modif selon un noyau symétrique

42 T1T1 T2T2 T3T3 T4T4 "Node-sliding"

43 E =-ln L burn in (discarded) sample Monte Carlo Markov chain (MCMC) For any topology T : ~ Chick Cat Fish Snail Fly Hydra Polyp Man posterior consensus

44 Chick Cat Fish Snail Fly Hydra Polyp A G C G A T C T A G G G A T A T A G G G A T A C A G G C A C A T A C G C A C A C A C C A A C A T A C C A A C A C Man Modèles sites rapides/sites lents A C C G A T A C

45 Chick Cat Fish Snail Fly Hydra Polyp A G C G A T C T A G G G A T A T A G G G A T A C A G G C A C A T A C G C A C A C A C C A A C A T A C C A A C A C Man Modèles sites rapides/sites lents A C C G A T A C C T C Chick Cat Fish Snail Fly Hydra Polyp A G C G A T C T A G G G A T A T A G G G A T A C A G G C A C A T A C G C A C A C A C C A A C A T A C C A A C A C Man C A C C G A T A C C T C T C T 1 substitution 3 substitutions

46 Chaque site possède une vitesse, Modèles sites rapides/sites lents (topologie + longueurs de branches + vitesse en chaque site) Paramètres : Chick A C C G A G A T Cat Fish Snail Fly Hydra Polyp A G C G A G C T A G G G A G A T A G G G A C A T A G G C A C A T A C G C A C A T A C C A A C A T Man CiCi

47 Chaque site possède une vitesse, Modèles sites rapides/sites lents (topologie + longueurs de branches + vitesse en chaque site) Paramètres : Chick A C C G A G A T Cat Fish Snail Fly Hydra Polyp A G C G A G C T A G G G A G A T A G G G A C A T A G G C A C A T A C G C A C A T A C C A A C A T Man CiCi

48 Prendre chaque site un par un Pour le site i : Proposer et faire rebondir sur la limite Calculer Accepter le changement avec une probabilité Rééchantillonner les vitesses en chaque site

49 Échantillon: ~ i.i.d. Echantillonnage alterné Consensus moyen a posteriori Vitesse moyenne a posteriori en chaque site

50 Modèles d´évolution moléculaire Chick A C C G A G A T Cat Fish Snail Fly Hydra Polyp A G C G A G C T A G G G A G A T A G G G A C A T A G G C A C A T A C G C A C A T A C C A A C A T Man A C C A A C A T Problème Phylogénétique Problème fonctionnel

51

52 IV. Détection de modules fonctionnels dans les séquences AAAGACATGCATACAGCCCGACACTAGCACCATCAGCAG ARNm protéine +1 sites de fixation de facteurs de transcription début de la transcription

53 A C G T Motif Longueur Matrice AAAGACATGCAAACATCCCGACACTAGCACCATCAGCAG 0.5 x 0.4 x 0.7 x 0.5 x 0.5 Mot

54 A C G T ATGCAAACATCCCGACACTAGCACCATCAGCAG background Annotation A de la séquence S:

55 ATGCAAACATCCCGACACTAGCACCATCAGCAG Annotation A de la séquence S: Distribution a priori sur l´ensemble des annotations possibles probabilité a priori d´apparition du motif i tous les positionnements non-chevauchants équiprobables a priori Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation Modèle d´annotation M

56 Echantillonnage de Gibbs ATGCAAACATCCCGACACTAGCACCATCAGCAG

57 Annotation A de la séquence S: Distribution a priori sur l´ensemble des annotations possibles probabilité a priori d´apparition du motif i tous les positionnements non-chevauchants équiprobables a priori Modèle d´annotation M Les coefficients des matrices sont également inconnus: distribution a priori sur toutes leurs valeurs possibles échantillonnage conjoint Apprentissage automatique du dictionnaire de motifs

58 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCAGGTCA ACCACCCCGGGCGGCACACTACGGACGAC A C G T

59 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC A C G T

60 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC A C G T

61 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC A C G T

62 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC A C G T

63 Thompson et al, Genome Research, 2004

64

65


Télécharger ppt "Modélisation Bayésienne par chaines de Markov Monte Carlo I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo –Théorie des chaines de Markov."

Présentations similaires


Annonces Google