Modélisation Bayésienne par chaines de Markov Monte Carlo I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo Théorie des chaines de Markov Algorithme de Metropolis III. Application: reconstruction phylogénétique IV. Recherche de motifs dans les séquences régulatrices par Echantillonnage de Gibbs
I. Lois des probabilités Interprétation classique : Fréquence de phénomènes "aléatoires" (probabilité de tirer un 6 lors d´un lancer de dés) Interprétation Bayésienne : Degré d´incertitude sur la véracité d´une assertion (dépend du contexte, en particulier, de l´information disponible) (probabilité que les hommes soient plus proches des chympanzés que du gorille, connaissant la séquence de leurs génomes respectifs) Raisonner en présence d´incertitude Apprendre par l´expérience et l´observation
Lois des probabilités domaine commutativité loi du produit loi de la somme ou: ensemble exhaustif de propositions mutuellement exclusives :
Problème: 11 machines, dont 1 défectueuse. Produisent des robinets, qui sont conditionnés par caisses de 600. Machines normales produisent en moyenne une proportion de: 5/6 robinets corrects 1/6 robinets défectueux Machine défectueuse: 2/3 robinets corrects 1/3 robinets défectueux On prend une caisse au hasard, et on tire n=1, 2… robinets, pour les tester En déduire la probabilité que la caisse provienne de la machine défectueuse.
? A : la caisse provient de la machine défectueuse B : la caisse provient d´une machine normale I0 : notre information a priori (avant toute observation) ? "Probabilité inverse"
Théorème de Bayes
Simu sous une bonne machine Simu sous une Machine défectueuse
Théorème de Bayes Séquence de tirages successifs : Probabilité Nd robinets défecteux Nb robinets ok Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation
Sd : séquence de robinets tous défectueux.
Sd : séquence de robinets tous défectueux. Séquences simulées sous le modèle I0
Théorème de Bayes Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données
Théorème de Bayes Modèle paramétré par Données Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation Mesure la validité globale du modèle, face aux données
Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.
Tirage à pile ou face avec une pièce biaisée. : probabilité de tirer pile lors d´un tirage quelconque (inconnue) A priori, peut prendre n´importe quelle valeur entre 0 et 1 distribution a priori uniforme sur [0,1] Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois. Estimer , sachant la séquence S
10 piles 5 faces 0.66
II. Monte Carlo: Marche aléatoire 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser et faire rebondir sur les bords de l´intervalle [0,1] 4. recommencer à l´étape 2. 1
Marche aléatoire biaisée 1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 1 3. Poser (en faisant rebondir sur les bords de l´intervalle [0,1]) 4. calculer 5. accepter avec une probabilité p=Min(1,a) si accepté : si refusé : 6. recommencer à partir de 2.
Echantillonnage de la distribution de probabilité a posteriori Espérance a posteriori :
Chaines de Markov Suite de variables aléatoires à valeurs dans un espace X (dans le cas précédent, l´intervalle [0,1]) Processus sans mémoire Une chaine de Markov est entièrement définie par : son noyau de transition défini sur X2 la distribution marginale de l´état initial Distribution marginale de l´état n+1 : Distribution stationnaire ("point fixe"):
Distributions stationnaires et bilan détaillé Chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial Distribution stationnaire ("point fixe"): Bilan détaillé : Implique que est une distribution stationnaire
Chaines de Markov ergodiques Une chaine de Markov définie par : son noyau de transition la distribution marginale de l´état initial est ergodique si, elle possède une distribution stationnaire telle que , tend vers Cette distribution stationnaire est alors évidemment unique
Algorithme de Métropolis On veut échantillonner une distribution non normalisée, définie sur l´espace X : facteur de normalisation (inconnu) notre distribution de probabilité cible On dispose d´une chaine de Markov ergodique, de noyau symétrique: On construit la chaine de noyau Alors, cette chaine est ergodique, de distribution stationnaire
Métropolis et inférence Bayésienne Modèle M, paramétré par Probabilité a priori Probabilité a posteriori Vraisemblance Facteur de normalisation Chaine de Markov espace d´états Chaine ayant la probabilité a posteriori comme dist. stationnaire Obtention d´un échantillon (10 000 points) Moyennes sur l´échantillon: espérances a posteriori
III. Modèles stochastiques d´évolution moléculaire Chick A C C G A G A T A G Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T A C Snail A G G C A C A T A Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T ? Arbre phylogénétique Séquences alignées Paramètre : (topologie + longueurs de branches) Données : (séquences alignées) Modèle :
Modèles stochastiques d´évolution 2. Probabilité qu´il n´y ait eu aucune substitution sur cette branche : 3. Si substitution, alors tirer un nouvel état avec probabilités 1/4, 1/4, 1/4, 1/4 C A 1. Tirer une lettre parmi {A,C,G,T} (avec probabilités 1/4, 1/4, 1/4, 1/4)
Colonne Ci G C A A ?
G C A A
G C A A
G C A A
G C A A
? G C A A
G C A A
G C A A
Algorithme du "pruning" Vraisemblance : Complexité: NPK2 Ci N sites Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : N sites P taxons K=4 caractères Complexité: NPK2
Modèles stochastiques Bayésiens Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Vraisemblance : Prior : Uniforme Théorème de Bayes : Distribution a posteriori
Echantillonnage par Métropolis 1. Proposer une modif selon un noyau symétrique 2. Accepter avec probabilité 3. Reprendre en 1
"Node-sliding" T2 T1 T3 T4
Monte Carlo Markov chain (MCMC) E =-ln L For any topology T : burn in (discarded) sample 45 Chick 67 Man 78 Cat Fish ~ 90 Snail Fly 87 Hydra Polyp posterior consensus
Modèles sites rapides/sites lents Chick A C C G A T A C Man A G C G A T C T Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C
Modèles sites rapides/sites lents Chick A C C G A T A C C T Man A G C G A T C T Cat A G G G A T A T Fish A G G G A T A C Snail A G G C A C A T C Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 1 substitution Chick A C C G A T A C C T Man A G C G A T C T Cat A G G G A T A T C T Fish A G G G A T A C Snail A G G C A C A T C C T Fly A C G C A C A C Hydra A C C A A C A T Polyp A C C A A C A C 3 substitutions
Modèles sites rapides/sites lents , Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T
Modèles sites rapides/sites lents , Chaque site possède une vitesse Paramètres : (topologie + longueurs de branches + vitesse en chaque site) Ci Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T
Rééchantillonner les vitesses en chaque site Prendre chaque site un par un Pour le site i : Proposer et faire rebondir sur la limite Calculer Accepter le changement avec une probabilité
Echantillonnage alterné i.i.d. Échantillon: ~ Vitesse moyenne a posteriori en chaque site Consensus moyen a posteriori
Modèles d´évolution moléculaire Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Problème Phylogénétique Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T Problème fonctionnel
IV. Détection de modules fonctionnels dans les séquences début de la transcription sites de fixation de facteurs de transcription +1 AAAGACATGCATACAGCCCGACACTAGCACCATCAGCAG ARNm protéine
0.5 0.4 0.1 0.2 0.7 Motif Longueur Matrice Mot A C G T AAAGACATGCAAACATCCCGACACTAGCACCATCAGCAG 0.5 x 0.4 x 0.7 x 0.5 x 0.5
background A 0.5 0.4 0.1 0.2 0.7 0.3 0.4 0.1 0.5 0.2 0.7 0.3 0.2 C G T Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG
Annotation A de la séquence S: Modèle d´annotation M Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG Distribution a priori sur l´ensemble des annotations possibles probabilité a priori d´apparition du motif i tous les positionnements non-chevauchants équiprobables a priori Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation
Echantillonnage de Gibbs ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGCAAACATCCCGACACTAGCACCATCAGCAG
Apprentissage automatique du dictionnaire de motifs Modèle d´annotation M Annotation A de la séquence S: ATGCAAACATCCCGACACTAGCACCATCAGCAG Distribution a priori sur l´ensemble des annotations possibles probabilité a priori d´apparition du motif i tous les positionnements non-chevauchants équiprobables a priori Les coefficients des matrices sont également inconnus: distribution a priori sur toutes leurs valeurs possibles échantillonnage conjoint
0.2 0.4 0.3 0.5 0.1 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCAGGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.2 0.4 0.3 0.5 0.1 A C G T
0.2 0.4 0.3 0.5 0.1 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.2 0.4 0.3 0.5 0.1 A C G T
0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T
0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T
0.5 0.3 0.6 0.4 0.0 0.1 0.2 ATGCAAACATCCCGACACTAGCACCATCAGCAG ATGATAGGCACACCAGGGCAGAC TGTTTGTTCTCACCATTACACCACGTCA ACCACCCCGGGCGGCACACTACGGACGAC 0.5 0.3 0.6 0.4 0.0 0.1 0.2 A C G T
Thompson et al, Genome Research, 2004
Thompson et al, Genome Research, 2004