Modélisation markovienne et phylogénie moléculaire:

Slides:



Advertisements
Présentations similaires
« Systèmes électroniques »
Advertisements

_________________________________________________________________________________________________________________________________________________________________________.
Caractériser les précipitations intenses du MRCC
RECONNAISSANCE DE FORMES
Processus de croissance dans un modèle de dynamique de population structuré en longueur Michel Bertignac et Stéphanie Mahévas Laboratoire RH, Lorient Laboratoire.
Chapitre 5. Description numérique d’une variable statistique.
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
1. L’ADN et l’information génétique
Les méthodes probabilistes en phylogénie moléculaire:
Espèce et spéciation : problématique générale
Phylogénie et distances génétique
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
3. Analyse et estimation du mouvement dans la vidéo
Colloque Traitement et Analyse de séquences : compte-rendu
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Le remplacement moléculaire
ACS et Séquences Comportementales en environnements non-markoviens
Modélisation Bayésienne par chaines de Markov Monte Carlo
Master IXXI, cours interdisciplinaire de systèmes dynamiques Emmanuel Risler, INSA de Lyon 1 - Equations différentielles sur la droite.
Sytèmes dynamiques – modélisation Emmanuel Risler 2008 – 2009 INSA de Lyon - GEN.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Expertise et formation du lméca ESIA / Université de Savoie
Modélisation markovienne en phylogénie :
Bioinformatique =?? génomique protéomique
Guy Gauthier, ing., Ph.D. Session été 2013.
Génétique adaptative des pathogènes
Bernard Rousseau Laboratoire de Chimie Physique
Application des algorithmes génétiques
Des observatoires aux satellites
Développement d’un modèle de dynamique des populations structuré en longueur – Application au merlu de l’Atlantique Nord-Est Hilaire Drouineau (EMH)‏ Directrice:
Décodage des informations
1. L’ADN et l’information génétique
Des observatoires aux satellites Le système GPS
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
La phylogénomique sans alignement de séquences
Fonctions de partition
Anthony LEVASSEUR. Formation Phylogénomique- Décembre 2006
Responsables P. Maury & R. Babilé
1. Information génétique et protéines
Introduction - Modèle Discret – Modèle Continu - Algorithmes - Conclusion
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Réseaux de neurones.
IA IPR Académie de Rennes Le dernier est-il désavantagé.
Guy Gauthier, ing., Ph.D. Session automne 2012.
1 Décisions dans lincertain Eric Sanlaville ISIMA 3 F3, master SIAD novembre 2008.
1.
Plan Buts principaux Intérêt et pertinence du projet Rappel concernant la phylogénie Travail accompli jusquà maintenant Travail restant à accomplir Difficultés.
Supervisors: Anna Kostikova, Nicolas Salamin
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
Mécanique Statistique
Réseaux de neurones et probabilités
Modélisation de la formation de bancs de poissons
Préférences et fonctions d’utilité
La Modélisation Moléculaire
La biophysique a l’UdeM Une option pour moi? Conférence JACADEGEPUDEM Lundi 1 er mars 2010 Université de Montréal.
STT-3220 Méthodes de prévision
GOL503 Spécificités sectorielles
Processus stochastiques
Calcul d ’interactions Antenne/Structure par FMM
Optimiser l’anisotropie: une approche globale pour les stratifiés
Professeur Jeremías GONZÁLEZ
Professeur Jeremías GONZÁLEZ
Exercices de DYNAMIQUE de rotation
Analyses phylogénétiques
1 Étudiants: Professeur: Salamin Nicolas Assistante: Maryam Zaheri.
Étude de l’écoulement moyen
Traitement de la turbulence
Transcription de la présentation:

Modélisation markovienne et phylogénie moléculaire: RNG Phylogénie, Marseille, Novembre 2005 Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions, Adaptation" Université Montpellier 2 galtier@univ-montp2.fr

L'APPROCHE PHYLOGENETIQUE EN EVOLUTION MOLECULAIRE seq1: AAGACATGTGGCACTGTGACTGA seq2: AGGACATGTGGCAGTGTGACTGA seq3: AGTACATGTGACAGAGTGACTGA seq4: AGCACATGTGACTGAGTGACCGA seq5: AGCACATGTGACAGAGTGACCGG seq4 seq5 seq2 seq1 seq3 - reconstruction phylogénétique: pattern vs process - décrire/comprendre les processus de l'évolution des molécules - déduire le mode d'action de la sélection naturelle à l'échelle moléculaire - interpréter les données structurales et fonctionnelles à la lumière de l'évolution  MODELISER l'évolution des séquences ADN et protéines

LES PROCESSUS MARKOVIENS - Processus: description/caractérisation du mode de changement d'un système au cours du temps - Markovien = sans mémoire : le futur ne dépend que du présent, pas du passé Quelques exemples: temps discret, états discrets: processus de branchement temps discret, états continus: marches aléatoires temps continu, états discrets: processus de Poisson temps continu, états continus: mouvements browniens En bioinformatique, on considère typiquement des processus markoviens courant le long d'une séquence (chaînes de Markov cachées) ou dans le temps (modèles évolutifs). Dans ce dernier cas, les états du système sont les 4 nucléotides / 20 amino-acides / 61 codons, et le processus est typiquement représenté par une matrice de transition en temps continu.

A C G T A C G T X a a a A C G T A C G T X a k.a a A C G T A C G T EXEMPLES DE MODELES DE SUBSTITUTION (NUCLEOTIDES) Jukes & Cantor 1969 A C G T A C G T X a a a a X a a a a X a a a a X 1 paramètre Kimura 1980 A C G T A C G T X a k.a a a X a k.a k.a a X a a k.a a X 2 paramètres taux de transition  taux de transversion Tamura 1992 A C G T A C G T X a ka a a X a ka ka a X a a ka a X 1-q 2 q 3 paramètres GC% stationnaire = q  50% protéines: matrices 20x20 (PAM, JTT, WAG, …) codons: matrices 61x61 (Goldman-Yang, …)

Pourquoi? Pour quoi faire? Comment? MODELES MARKOVIENS EN PHYLOGENIE - parce que l'évolution est très généralement sans mémoire Pourquoi? - pour simuler des données - pour reconstruire des phylogénies en tenant compte des particularités du processus réel - pour estimer des processus et apprendre des choses sur les mécanismes de l'évolution moléculaire Pour quoi faire? Comment? - approche statistique en phylogénie moléculaire

2- calculer les attendus sous le modèle L'APPROCHE STATISTIQUE EN PHYLOGENIE MOLECULAIRE 1- modéliser L'évolution d'une séquence est représentée par un processus de Markov courant le long d'un arbre. 2- calculer les attendus sous le modèle Calculer la fonction de vraisemblance, c'est-à-dire la probabilité des données sachant les paramètres du modèle. 3- ajuster le modèle aux données Maximiser la vraisemblance sur l'espace des paramètres, de manière à obtenir les estimateurs au maximum de vraisemblance des paramètres ou Calculer la probabilité postérieure des paramètres sachant les données et les a priori (approche bayésienne).

longueurs de branches: li topologie d'arbre T CALCUL DE VRAISEMBLANCE EN PHYLOGENIE MOLECULAIRE longueurs de branches: li topologie d'arbre T X0 l1 X1 l6 A C G T l2 A b a b l5 X3 X2 C b b a l7 l8 G a b b l3 l4 T b a b A C G T y1: y2: y3: données : Y matrice de substitution : M

CALCUL DES PROBABILITES DE TRANSITION Hypothèses: les sites évoluent indépendamment selon un processus Markovien commun (i.i.d.) Le processus est typiquement représenté par une matrice M=(mij), où mij est le taux instantané de changement de l'état i vers l'état j (A, C, G ou T). Dynamique instantanée: La probabilité d'être dans l'état A à l'instant t+dt est: A(t+dt) = A(t) + C(t) mCA dt + G(t) mGA dt + T(t) mTA dt - A(t) (mAC + mAG + mAT) dt (1) et de même pour les 3 autres états. Ces 4 équations différentielles s'expriment matriciellement comme: F(t+dt)=F(t)+M.F(t).dt (2) , où F(t) = (A(t), C(t), G(t), T(t))t Dynamique de long terme: La dynamique sur le long terme s'obtient en intégrant les équations différentielles (2): F(t+dt)=F(t)+M.F(t).dt  F(t)=eM.t.F(0) (3) La matrice P(t)=eMt donne les probabilités de changement sous M pendant la durée t: pij(t) est la probabilité d'être dans l'état j au temps t sachant qu'on était dans l'état i au temps 0.

longueurs de branches: li topologie d'arbre T CALCUL DE VRAISEMBLANCE EN PHYLOGENIE MOLECULAIRE longueurs de branches: li topologie d'arbre T X0 l1 X1 l6 A C G T l2 A b a b l5 X3 X2 C b b a l7 l8 G a b b l3 l4 T b a b A C G T y1: y2: y3: données : Y matrice de substitution : M L(li, M, T ) = Pr(Y | li, M, T ) = P Pr(yi | li, M , T ) i Pr(y1 | li, M, T ) = SSSS Pr(X0=x0).Pr(X1=x1| X0=x0). Pr(X2=x2|X1=x1). Pr(y11=A| X2=x2). Pr(y12=A| X2=x2). x0 x1 x2 x3 Pr(y13=C| X1=x1). Pr(X3=x3| X0=x0). Pr(y14=A| X3=x3). Pr(y15=G| X3=x3)

Analyse phylogénétique du ratio dN/dS - données: la séquence codante d'un gène échantillonnée dans diverses espèces. objectif: reconstruire l'histoire des changements synonymes et non-synonymes aux différents sites (positions) de la molécule, et dans différentes lignées. méthode: modélisation Markovienne de l'évolution des codons, et ajustement au maximum de vraisemblance. - le modèle codon de Goldman & Yang (1994 Mol Biol Evol 11:725): b .pY si les 2 codons X et Y diffèrent par une transversion synonyme b w.pY si les 2 codons X et Y diffèrent par une transversion non-synonyme mXY = a .pY si les 2 codons X et Y diffèrent par une transition synonyme a.w.pY si les 2 codons X et Y diffèrent par une transversion non-synonyme 0 si les 2 codons X et Y diffèrent par plus d'une base le paramètre d'intérêt w peut être estimé pour l'ensemble du jeu de données, ou bien séparément pour différentes lignées, ou bien séparément pour différents sites. Il est estimé (conjointement avec les autres paramètres du modèle) par la méthode du maximum de vraisemblance.

Evolution moléculaire de l'hémoglobine des plantes Pisum1 lhb Pisum3 lhb Vicia4 lhb M sat1 M sat6 M trun2 Pisum2 lhb Vicia3 lhb Vicia2 lhb M sat3 M sat4 - deux types d'hémoglobine chez les plantes M trun1 M sat7 type 2 Vicia1 lhb - type 2 impliqué dans la symbiose azotée Sesba1 lhb Sesba3 lhb W2 = 0.8 Sesba2 lhb Lotus lhb Glyc2 lhb Glyc3 lhba Glyc4 lhbI Psopho lhb Vigna1 lhb Vigna2 lhb Phase lhb Cana lhb Lupin lhb1 Lupin lhb2 W0=3.5 Casuar1 S Arab nS2 Brassi nS2 Gossyp nS2 Cicho nS Tomat nS2 Hbn2 T2.vir T.orien T.tomen type 1 T1.vir Parasponia Glyc5 nS W1 = 0.3 Casuar2 nS Gossyp nS1 Citrus nS1 Arab nS1 Tomat nS1 Hordeum Zea mays Oryza nS1 Oryza nS2 Hbn1 mos Cerato mos Physco Guldner et al 2004 J. Mol. Evol. 59:416

Sites rapides et adaptation * * Parasponia ...ALVVKAWAVMKKNSAELGLQFFLKI... Tomat_nS1 ...ALVVKSWGSMKKDAGEWGLKFFLKI... Arab_nS1 ...ALVVKSWSVMKKNSAELGLKLFIKI... Oryza_nS1 ...ALVLKSWAILKKDSANIALRFFLKI... Nenu_type1 ...ALVVKSWGVMKKDAGQLGVKFFAKI... Pisum1_lhb ...ALVNSSWELFKQN-PGYSVLFYNII... Vicia2_lhb ...ALVNSSWESFKQN-PSYSVLFYTII... M_sat6 ...ALVNSSWESFKQN-PGNSVLFYTII... M_sat4 ...ALVNSSWEAFKQNLPRYSVFFYTVI... M_trun1 ...ALVNSSYEAFKQNLSGYSVFFYTVI... Sesba3_lhb ...ALVNASYEAFKQNLPGNSVLFYSFI... Phase_lhb ...ALVNSSWEAFKGNIPQYSVVFYTSI... Glyc3_lhba ...ALVSSSFEAFKANIPQYSVVFYTSI... Cana_lhb ...SLVKSSWEAFKQNVPHHSAVFYTLI... Lupin_lhb1 ...ALVKSSFEEFNANIPKNTHRFFTLV... Casuar1_S ...ALLKQSWEVLKQNIPAHSLRLFALI... Cicho_nS ...ALVKESWEVMKQDIPALSLYLYAMI... | | | | | 10 20 30

Evolution physico-chimique: cas du MHC classe 1 chez l'Homme Le modèle "codon" est étendu pour prendre en compte les propriétés des amino-acides. Marron: dN/dS Vert: volume Bleu: polarité Orange: charge Sainudiin et al 2005 J. Mol. Evol. 60:315

Perception sensorielle Une approche génomique chez l'homme Le ratio dN/dS est calculé pour 13731 paires de gènes chez l'homme et le chimpanzé, et l'effet de différents facteurs est analysé: Fonction n p-val Immunité Perception sensorielle Gametogenèse Inhibition apoptose 417 51 40 133 <10-10 <10-3 <10-2 <5% Tissu n p-val Testicules Cerveau Thyroïde Sang 247 66 405 133 <10-3 <5% NS Les principales cibles de l'adaptation moléculaire chez l'homme sont la défense immunitaire, la perception/communication, et la compétition spermatique/conflit génomique. Nielsen et al 2005 PLoS 3:170

Une approche alternative pour détecter l'adaptation: les covarions mutation favorable fonction 1 fonction 2 covarion

Vitesse d’évolution constante entre sites Vitesse d’évolution variable entre sites Variation de vitesse site-spécifique = COVARIONS

n n M.r1 n n M M.r2 n n M.r3 A- C- G- T- A C G T A+ C+ G+ T+ A- C- G- mij: taux de substitution de i vers j M.r3 Galtier 2001 Mol. Biol. Evol.

Un test de rapport de vraisemblance pour détecter les covarions (pas de covarion) LR = 2 . [ln(L1) – ln(L0)] ~ c2 (1 ddl) r2 > r1 r1 > r2 M1 (covarion)

a b c d e f g S T M F S L P S T M F I F P S T M F T F P S T M F Y F M S T M F H F H S T M F H F T S T M F Y F P S T M F L F P S T M F F F F S T M F Y F A S T M F P F P S T M F P H L S T M F L H T S T M F W V F S T M F F T P S T M F T V F S T M F L F L A A M V L F I A T M I L F I A T N A L F I A I V S L F I S V M F L F I T T V I L F I F T T L L F I S T M F W S I S T M M W S T S T M F M N Q S T M F P H Y S T M F P H P P R I M A T E S Pupko & Galtier 2002 Proc Roy Soc London B

A U G C Détecter la coévolution entre sites a b fort signal de coévolution pas de signal de coévolution D'où l'idée de détecter la coévolution en localisant les changements sur un arbre ("substitution mapping") et en repérant les cosubstitutions.

A U G C Détecter la coévolution entre sites (2) Va Vb a b 7 5 8 4 6 estimer les vecteurs de substitution pour chaque site - calculer leur coefficient de corrélation le comparer à l'attendu sous l'hypothèse d'indépendance Méthode: 10 9 11 2 1 3 Va Vb 1 2 3 4 5 6 7 8 9 10 11 1 1

Application à l'ARN ribosomique bactérien molécule repliée, avec des appariements de type Watson-Crick et formation de tiges. les paires structurales ont été documentées par une batterie de méthodes. - les retrouve-t-on?

Application à l'ARN ribosomique bactérien Sur >2.106 paires testées, 182 sont detectées, parmi lesquelles 162 sont des paires structurales, soit 85% des paires structurales détectables. Les paires structurales non-detectées sont souvent E.coli-spécifiques. 80% des 20 paires non-structurales détectées correspondent à des interactions 3D. Dutheil et al 2005 Mol Biol Evol

Un modèle non-homogène et non-stationnaire w q q stationnaire, homogène q q q q q q 1 4 2 5 3 1 2 3 4 5 w non-stationaire, non-homogène q1 q2 q4 q7 q3 q5 q8 q6

Estimation du GC% ancestral (simulations) actual MP NHML 18% 10% 22% 14% actual MP NHML 18% 32% 19% 10% 27% 11% 22% 40% 21% 14% 30% 16% 14% 28% 15% actual MP NHML 18% 32% 10% 27% 22% 40% 14% 30% 14% 28% low GCanc (10-25%) medium sequence GC (~40%) high eqGC (90%)

Température optimale de croissance et GC% de l'ARNr chez les procaryotes LSU 80 Topt 40 SSU 80 Topt 40 50 60 70 rRNA G+C-content

56.1% La phylogénie universelle vue par l'ARNr estimated Giardia 70.4% Entamoeba 43.7% Desulfurococcus 64.2% Thermoproteus 63.5% M.jannashi 62.3% M.vannieli 57.7% Halococcus 58.9% Halobacterium 58.7% Thermus 61.3% Thermotoga 60.9% Euglena 51.7% FUNGI 48.6% PLANTA 50.4% METAZOA 52.4% EUCARYA CRENARCHAE EURYARCHAE BACTERIA LOW GC GRAM+ 54.2% PROTEOBACTERIA 54.1% HIGH GC GRAM+ 57.0% CHLOROPLASTS 52.5% 56.1% estimated ancestral GC% :

Un ancêtre non-hyperthermophile ? LSU 80 Topt 40 SSU 80 Topt 40 50 60 70 rRNA G+C-content

56.1% 57.3% Contrôle: l'échantillonnage d'espèces Eukaryote 1 70.9% Giardia 70.4% Entamoeba 43.7% Desulfurococcus 64.2% Thermoproteus 63.5% M.jannashi 62.3% M.vannieli 57.7% Halococcus 58.9% Halobacterium 58.7% Thermus 61.3% Thermotoga 60.9% Euglena 51.7% FUNGI 48.6% PLANTA 50.4% METAZOA 52.4% EUCARYA CRENARCHAE EURYARCHAE BACTERIA LOW GC GRAM+ 54.2% PROTEOBACTERIA 54.1% HIGH GC GRAM+ 57.0% CHLOROPLASTS 52.5% 56.1% Eukaryote 1 70.9% Eukaryote 2 70.9% Crenarchae 1 65.4% Crenarchae 2 65.1% Euryarchae 1 65.2% Euryarchae 2 65.0% Bacteria 1 63.2% Bacteria 2 62.3% 57.3%

Un ancêtre non-hyperthermophile ? LSU 80 Topt 40 SSU 80 Topt 40 50 60 70 rRNA G+C-content Galtier et al 1999 Science 283:220