Classification naturelle = phylogénie

Slides:



Advertisements
Présentations similaires
Théorie des graphes.
Advertisements

Cladogramme.
DESS Bioinformatique, Université Blaise Pascal, Clermont-Ferrand, Février 2004 Reconstruction phylogénétique D'après Huson et al. Édouard Barat David Salgado.
Classification et prédiction
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Apprentissage supervisé à partir de séquences
RECONNAISSANCE DE FORMES
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Algorithmes à base darbre BSP. Principe Se servir dune structure arborescente afin déliminer le traitement dune branche entière sur un test de visualisation.
Phylogénie et distances génétique
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Diversité, parentés et unité des êtres vivants
2.1 DIVERSITE DU VIVANT : Critères systématiques
Etablissement de Phylogénie
introduction Tenter de situer l’homme au sein du règne animal en
Un nouveau regard sur les données moléculaires
Optimisations des performances
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
David Rolland, formateur en mathématiques
To Tune or not to Tune? To Tune or not to Tune? A Lightweight Physical Design Alerter Costa Jean-Denis Le Yaouanc Aurélie Mécanismes de SGBD 2007.
Apprendre à partir des observations
Probabilités.
OCaml – Les arbres L3 MI.
Les structures de données arborescentes
MinMax et Alpha-Beta.
Heuristiques A. Introduction B. Recherche d ’une branche
La recherche de parenté chez les vertébrés
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Arbre Rouge Noir.
Lab3 - Phylogénie des Vertébrés
Bases de données lexicales
Gestion de Fichiers Arbres B.
Caricature IDF Dis, M'sieur le Moniteur de Biologie marine c'est quoi t'est-ce donc la classification phylogénétique ? Non ! Claude Duboc Professeur de.
La phylogénie Définition :
METHODE GLOBALE de construction d’un arbre phylogénétique
Les fichiers indexés (Les B-arbres)
Algorithme de Bellman-Ford
Gestion de Fichiers Indexes basés sur les structures d’arbres binaires et indexes à niveaux multiples.
Algorithmes d ’approximation
La Classification …des organismes .
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Gestion de Fichiers GF-12: Comment Gerer les Indexes qui ne tiennent pas en Memoire de Maniere Efficace?: I. Indexes Bases sur les Structures dArbres Binaires.
GPA750 – Gestion de Projets
Inférence de génomes ancestraux
Apprentissage par arbre de décision

Réseaux bayésiens: Inférence
Heuristiques C. Recherche de la meilleure branche . Branch And Bound
Phylogénie : quelques docs
Inférence de phylogénies
REGLAGE ECONOMIQUE DES PRODUCTIONS Le réglage tertiaire.
Arbres binaires et tables de hachage
I.A. Session 2009/2010 E.P.S.I. Bordeaux – C.S.I.I – 2 ème Année – Cours n°6.
Exploration systématique de graphes
Recherches locales et méta-heuristiques
TIPE Les dames chinoises
Recherche de motifs par projections aléatoires
Inférence phylogénétique
Introduction à la Phylogénie
Classification naturelle = phylogénie
Classification naturelle = phylogénie
L’établissement des relations phylogénétiques
Parenté entre êtres vivants actuels et fossiles
Chapitre 3 : La biodiversité, résultat et étape de l’évolution.
Tableau des attributs communs (ou matrice des caractères)
La phylogenèse Définition :
Correction détaillée de la lecture d’un arbre d’évolution.
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
ECHANTILLONAGE ET ESTIMATION
Classification évolutive Travaux pratiques et cas de la lignée verte Cours du 10/03/2016 Présentation: Hugo FONTES Conception : Hugo FONTES et Pierre CELLIER.
Transcription de la présentation:

Classification naturelle = phylogénie

Arbre = réseau connexe non cyclique Quelques définitions Arbre = réseau connexe non cyclique noeud branche Réseau connexe non cyclique Réseau non connexe non cyclique Réseau connexe cyclique

Plusieurs graphismes pour les phylogénies B C A B C D D B A A D B C C D A A B B C C D D

ARBRE NON RACINÉ et ARBRE RACINÉ 1 4 Oiseaux Placentaires Monotrèmes Marsupiaux 5 2 3 Oiseaux Monotrèmes Monotrèmes Monotrèmes Oiseaux Oiseaux Marsupiaux Marsupiaux Marsupiaux 1 2 5 Placentaires Placentaires Placentaires Marsupiaux Placentaires Placentaires Marsupiaux Monotrèmes Monotrèmes 3 4 Oiseaux Oiseaux

Racine et groupe extérieur 1 Oiseaux Placentaires Monotrèmes Marsupiaux Oiseaux Monotrèmes Marsupiaux 1 Placentaires Un groupe extérieur (outgroup) est presque toujours utilisé pour raciner les phylogénies moléculaires

Quelques exercices Crocodiles Oiseaux Dinosaures Lézards D’après l’arbre ci-dessus, quelle expression décrit correctement les relations de parenté ? Un crocodile est plus proche parent d’un lézard que d’un oiseau Un crocodile est plus proche parent d’un oiseau que d’un lézard Un crocodile est aussi proche parent d’un oiseau que d’un lézard Un crocodile est proche parent d’un lézard, mais n’est pas proche parent d’un oiseau

Quelques exercices Phoque Cheval Girafe Hippopotame Baleine D’après l’arbre ci-dessus, quelle expression décrit correctement les relations de parenté ? Un phoque est plus proche parent d’un cheval que d’une baleine Un phoque est plus proche parent d’une baleine que d’un cheval Un phoque est aussi proche parent d’un cheval que d’une baleine Un phoque est proche parent d’une baleine, mais n’est pas proche parent d’un cheval

Quelques exercices Volvox Pin Maïs Fougère Levure Homme Giardia E. coli Lequel(s) des arbres ci-dessous est faux, sachant que l’arbre ci-dessus est vrai ? Volvox Pin Homme Maïs Fougère Volvox Giardia Homme E. coli Levure Volvox Homme E. coli Pin Levure Giardia E. coli Pin Maïs Levure 1 2 3 4

Quelques exercices Lequel des quatre arbres ci-dessus décrit des relations de parenté différentes ?

Quelques exercices Lepidodendron Mousse Chêne If Psilotum Fougère Arbre Perte des feuilles Arbre Graine Vraies feuilles Dans l’arbre ci-dessus, on suppose que l’ancêtre était une herbe (et non un arbre) sans feuilles ni graines. D’après cet arbre et en supposant que tous les changements de ces caractères sont indiqués, laquelle des espèces actuelles est un arbre dépourvu de vraies feuilles ? 1) Lepidodendron 2) Mousse 3) Chêne 4) Psilotum 5) Fougère

Savoir lire et interpréter un arbre Pour en savoir plus, et avoir plus d’exercices : www.tree-thinking.org

Cas idéal AAAAAAAAAAA CAAAAAAAAAA AAAAAAAAAAC CUAAAAAAAAA CAGGAAAAAAA Espèce 1 Espèce 2 Espèce 3 Espèce 4 CAAAAAAAAAA 1 AAAAAAAAAAC 1 CUAAAAAAAAA 1 CAGGAAAAAAA 2 AAAAAAAAUGC 2 AAAAGGCUAAC 4 Espèce 1 CUAAAAAAAAA Espèce 2 CAGGAAAAAAA Espèce 3 AAAAAAAAUGC Espèce 4 AAAAGGCUAAC Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C

Avec n espèces, il y a (2n – 5)(2n – 7)…(5)(3)(1) arbres non racinés Combien existe-t-il d’arbres ? A D D 3 espèces : 1 arbre B C D E 4 espèces : 3 * 1 arbres A B C D A B C D E 5 espèces : 5 * 3 * 1 arbres 7 (2*6-5) branches 6 espèces : 7 * 5 * 3 * 1 arbres Avec n espèces, il y a (2n – 5)(2n – 7)…(5)(3)(1) arbres non racinés

Le nombre d’arbres possibles Augmentation exponentielle du nombre d’arbres possibles : problème NP-complet (Non-Polynomial)

Cas idéal Arbre #1 Arbre #2 Arbre #3 AAAAAAAAAAA CAAAAAAAAAA Espèce 1 Espèce 2 Espèce 3 Espèce 4 CAAAAAAAAAA 1 AAAAAAAAAAC 1 CUAAAAAAAAA 1 CAGGAAAAAAA 2 AAAAAAAAUGC 2 AAAAGGCUAAC 4 Espèce 1 CUAAAAAAAAA Espèce 2 CAGGAAAAAAA Espèce 3 AAAAAAAAUGC Espèce 4 AAAAGGCUAAC Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Arbre #1 Arbre #2 Arbre #3 1 2 3 4

L’information phylogénétique Site 2 Site 1 A 3 A 4 2 C 1 C A C 3 A C 2 4 A 1 changement 2 changements 1 A 2 U A 4 A 3 A Arbre #1 1 changement 1 A U 2 3 A A 4 A Arbre #2 1 changement 1 A U 2 A 3 4 A A Arbre #3 1 changement Site informatif : un site avec au moins deux nucléotides différents (états de caractère) présents au moins deux fois

Parcimonie maximale Choisir l’arbre nécessitant le plus petit nombre de substitutions (changements) Principe du “rasoir d’Occam” : la meilleure explication des données est la plus simple, celle qui nécessite le plus petit nombre d’hypothèses ad hoc Le nombre total de changements évolutifs sur une phylogénie (longueur de l’arbre) is simplement la somme du nombre de changements à chaque site Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Arbre #1 : L=1+1+1+1+1+1+1+1+1+1+1=11

Cas idéal Sites informatifs Arbre #1 Arbre #2 Arbre #3 L=11 L=13 L=13 AAAAAAAAAAA 1 1 CAAAAAAAAAA AAAAAAAAAAC 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 1 Espèce 2 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Sites informatifs Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=13 L=13

Maximum de parcimonie Deux étapes de minimisation : Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements

Un peu de vocabulaire AAAAAAAAAAA 1 1 CAAAAAAAAAA AAAAAAAAAAC 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 1 Espèce 2 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Synapomorphie : Caractéristique nouvelle et distinctive partagée par un groupe d'organismes (C à la position 1) Symplésiomorphie : similitude due au partage d’un état ancestral de caractère (A à la position 1) Autapomorphie : état dérivé non partagé (U à la position 2)

Une substitution multiple AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA CAGGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAAAAAAAGU AAAAGGCUAAC 4 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-------GU Espèce 4 AA--GGCU--C

Trop d’information tue l’information Site 2 1 A U 3 Arbre #1 A A 2 A C 4 2 changements 1 A A 2 Arbre #2 A A 3 U C 4 2 changements 1 A A 2 Arbre #3 A A 4 C U 3 2 changements Les symplésiomorphies ne sont pas informatives (groupe paraphylétique)

Une substitution multiple AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA CAGGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAAAAAAAGU AAAAGGCUAAC 4 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-------GU Espèce 4 AA--GGCU--C Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=12 L=12

Une substitution multiple : une convergence AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA CAGGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAGAAAAAGC AAAAGGCUAAC 4 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-G-----GC Espèce 4 AA--GGCU--C Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=13 L=12 1+1+1+2+1+1+1+1+0+1+1 2+1+1+1+1+1+1+1+0+1+2

Deux substitutions multiples : convergence et réversion AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA CAGGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAGAAAAAAA AAAAGGCUAAC 4 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-G------- Espèce 4 AA--GGCU--C Arbre 1 Arbre 2 Arbre 3 1 3 1 2 1 2 2 4 3 4 4 3 L=10 L=11 L=10

Trois substitutions multiples AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA GAAGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAGAAAAAAA AAAAGGCUAAC 4 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce 2 GA-G------- Espèce 3 AA-G------- Espèce 4 AA--GGCU--C Arbre 1 Arbre 2 Arbre 3 1 3 1 2 1 2 2 4 3 4 4 3 L=10 L=10 L=9

Vrai nombre de substitutions : 11 Homoplasie homoplasie : toute caractéristique présente chez deux espèces (ou plus) qui n'est pas présente chez leur ancêtre commun immédiat. Arbre 1 Arbre 2 Arbre 3 1 2 3 4 L=10 L=9 Les substitutions multiples impliquent une sous-estimation de la longueur de l’arbre Vrai nombre de substitutions : 11

Mesure de l’homoplasie Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969) Pour un site, IC = m/s m : nombre minimum de changements (= nombre d’états de caractères – 1) s : nombre de changements observés dans l’arbre le plus parcimonieux 1 A 2 C 3 C 4 C 5 A 6 T 7 T 8 T 9 C C CA CT TC 9 C 2 C 3 C 4 C 6 T 7 T 8 T 1 A 5 A s = 4 m = 2 C TA CT IC = 0.5

Mesure de l’homoplasie Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969) Pour un arbre, IC = M/S M : nombre minimum de changements pour tous les sites S : nombre total de changements dans l’arbre le plus parcimonieux Pour un site non informatif, m = s donc IC = 1 Indice de Cohérence excluant les sites non informatifs ICi ICi = Mi/Si Mi : nombre minimum de changements pour tous les sites informatifs Si : nombre total de changements dans l’arbre le plus parcimonieux pour les sites informatifs

Une substitution pour chaque union Algorithme récursif de Fitch C G A 1) Passage de bas en haut : x et y les fils du noeud n et X, Y, N les ensembles de nucléotides correpondant à ces noeuds C G A {C,G} Une substitution pour chaque union C G A {A,C} {A} {C,G} {A,C,G} C G A {A,C} {A} {C,G} C G A {A,C} {C,G}

Algorithme récursif de Fitch 2) Passage de haut en bas : C G A {A,C} {A} {C,G} {A,C,G} Choix arbitraire d’un nucléotide à la racine On assigne au fils x du noeud n : a X si a N n’importe quel nucléotide de X sinon C G A C G A C G A

Heuristiques de recherche de topologies Agglomération progressive des espèces Insertion sur toutes les branches Calcul du nombre de changements Choix de l’arbre le plus parcimonieux Nombre d’opérations : 3+5+7=15 (pour 105 arbres possibles) Pour 10 espèces : 63 versus 2 millions

Ordre d’agglomération des espèces B C D E F D F E C B A Ajouter les espèces de manière aléatoire Répéter l’opération un grand nombre de fois Choisir l’arbre le plus parcimonieux

Subtree Pruning and Regrafting (SPR) Algorithme de réarrangements Réarrangement local ou Nearest Neighbor Interchange (NNI) Y X W Z W X Y Z 2(n-3) possibilités Subtree Pruning and Regrafting (SPR) 2 1 3 4 5 6 2 1 3 4 5 6 4(n-3)(n-2) possibilités

Algorithme de réarrangements Tree Bisection and Reconnection (TBR) 2 1 3 4 5 6 Une branche est coupée 2 1 3 4 5 6 2 1 3 4 5 6 Toutes les reconnexions possibles sont testées Etc. (2n1-3)(2n2-2) possibilités/coupure

Algorithme exact du branch and bound Hendy et Penny (1982) Mathematical Biosciences, 60:133-142, 1982

Utilisation de contraintes a priori G2 G4 G3 G1 G5 G11 G9 G10 G8 G6 11 espèces : 24 106 45 espèces : 5 1064 G7

Maximum de parcimonie Deux étapes de minimisation : Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements

Robustesse des phylogénies : le test du bootstrap Tirage avec remise de n positions parmi n positions Construire l’arbre phylogénétique Répéter 1) et 2) un grand nombre de fois (1000) Analyser tous les arbres obtenus (en particulier via un arbre consensus)

L’arbre de consensus majoritaire F C A D B E F B A D C E F Etc. On calcule la fréquence d’apparition des différents groupements d’espèces E et F : 100% D, E et F : 93% A et B : 52% A et C : 48% C, E et F : 7% Construire l’arbre consensus B A C D E F 52% 93% 100%

Robustesse des phylogénies : le test du bootstrap Le tirage avec remise de positions, en respectant l’effectif original, revient à conférer un poids aléatoire aux positions Par exemple : 2 1 0 3 0 2 1 1 1 3 0 4 0 0 1 2 2 1 1 3 0 1 0 1 3 2 0 0 (à chaque tirage, un tiers des positions ne sont pas considérés) Le but du bootstrap est de “rejouer” l’évolution des sites. Il estime la robustesse d’un noeud pour un jeu de données et d’après une méthode de reconstruction Problèmes Très couteux en temps calcul Seuil de significativité (70%, 95%)

Si A est un groupe extérieur éloigné Attraction des longues branches A C A C q q p<q2 p B D B D Felsenstein, 1978 Si A est un groupe extérieur éloigné A D B C

Inconsistence de l’inférence phylogénétique Une méthode de reconstruction phylogénétique est dite inconsistente si elle converge vers un résultat faux quand il y a de plus en plus de données ATTENTION : un très bon support statistique (par ex. 100% de bootstrap) ne garantit pas que le noeud inféré est correct

Attraction des longues branches 10-2 10-6 (1-10-2) * (1-10-2) * (1-10-6) * (1-10-6) * (1-10-6) ≈ 0.98 10-2 * (1-10-2) * (1-10-6) * (1-10-6) * (1-10-6) ≈ 10-2 etc. ~10-6 ~10-4 ~2*10-8

Echantillonnage taxonomique Ajouter des espèces à l’analyse permet de mieux détecter les substitutions multiples Ajouter des espèces peut “casser les longues branches” et ainsi éviter l’artefact d’attraction des longues branches (Hendy et Penny, 1989)