Détection des transferts horizontaux de gènes : modèles et algorithmes appliqués à l’évolution des espèces et des langues Alix Boc Université du Québec à Montréal Bif7002 – Séminaire de Bioinformatique Well, this presentation is on the classification of IE languages using a phylogenetic network approach. We want to show that we can extract and show more information with this approach. This works has been done with the collaboration of the linguist Anna-Maria Di Scullio and under the supervision of Vladimir Makarenkov from the University of Quebec in Montreal BIF7002 – Séminaire de Bioinformatique Alix Boc
BIF7002 – Séminaire de Bioinformatique 2 Alix Boc Sommaire Reconstruction des arbres phylogénétiques Transferts horizontaux de gènes Détection des transferts de gènes complets Détection des transferts de gènes partiels Application en biolinguistique Travaux futurs BIF7002 – Séminaire de Bioinformatique 2 Alix Boc
Inf7212 - Introduction aux systèmes informatiques Reconstruction des arbres phylogénétiques Bif7002 - Séminaire Bioinformatique Alix Boc
L’arbre phylogénétique espèces Inf7212 - Introduction aux systèmes informatiques branches ancêtres virtuels racine Bif7002 - Séminaire Bioinformatique 4 Alix Boc
Reconstruction d’un arbre phylogénétique Alignement de séquences AAATGATCTGCGTCAATATTATAA GCCTGATCCTCACTACTGTCATCTTAA ATAGGGCCCGTATTTACCCTATAG AACTGGTCCACCCTTATACTAAAAGACGCCTCACTAGGAAGCTAA AACTGATCTGCTTCAATAATTTAA ClustalW (Higgins et al., 1994) DiAlign (Morgenstern, 1999) …. Distances Maximum de parcimonie Maximum de vraisemblance Approche Bayesienne AAATGATCTGCGTCAATATTA---------------------TAA GCCTGATCCTCACTA------------------CTGTCATCTTAA ATA---------------------GGGCCCGTATTTACCCTATAG AACTGGTCCACCCTTATACTAAAAGACGCCTCACTAGGAAGCTAA AACTGATCTGCTTCAATAATT---------------------TAA Bif7002 - Séminaire Bioinformatique 5 Alix Boc
Définitions : reconstruction d’un arbre phylogénétique Application d’un modèle d’évolution (méthodes de distances) 4 2 Uncorrected Distances Jukes Cantor Tajima-Nei Kimura 2 parameters Tamura Jin-Nei Gamma …. Application d’une méthode de reconstruction (méthodes de distances) Neighbor Joining ADDTREE Unweighted Neighbor Joining Circular order reconstruction Weighted least-squares BioNJ …. Bif7002 - Séminaire Bioinformatique 6 Alix Boc
Problématique Bif7002 - Séminaire de Bioinformatique 7 Alix Boc
BIF7002 – Séminaire de Bioinformatique 8 Alix Boc Les modèles en réseau Certains mécanismes d’évolution ne peuvent être représentés que par des modèles en réseau. 1 2 3 4 5 Le transfert horizontal de gènes (Hallett et Lagergren, 2001, Boc et Makarenkov, 2003) L’hybridation (Huson, 1998, Bryant et Moulton, 2004) L’homoplasie et la convergence de gènes (Legendre et Makarenkov, 2002) La duplication ancestrale et la perte partielle de gènes (Delwiche et Palmer, 1996) BIF7002 – Séminaire de Bioinformatique 8 Alix Boc
Le transfert horizontal de gène BIF7002 – Séminaire de Bioinformatique 9 Alix Boc
Quelques méthodes pour la detection de transferts horizontaux de gènes Hein (1993); Hein et al. (1995, 1996) Haseler et Churchill (1993) Page (1994); Page et Charleston (1998) Charleston (1998) Hallett et Lagergren (2001) Mirkin, Fenner, Galperin et Koonin (2003) V’yugin, Gelfand et Lyubetsky (2003) Boc et Makarenkov (2003); Makarenkov et al. (2006) C. Than, D. Ruths et L. Nakhleh (2008) BIF7002 – Séminaire de Bioinformatique 10 Alix Boc
Détection des transferts complets (Boc et al., 2010) BIF7002 – Séminaire de Bioinformatique Alix Boc
Détection des transferts complets Arbre d’espèces Arbre de gène (e.g., rbcL) Données : arbres phylogénétiques d’espèces et de gène sur le même ensemble d’espèces. Trouver : nombre minimal de déplacements de sous-arbres dans l’arbre d’espèces permettant de le transformer en l’arbre de gène (=> scénario de réconciliation). Contraintes : incorporer les règles d’évolution et maintenir la complexité algorithmique polynomiale (le problème SPR, subtree pruning and regrafting, a été montré NP-complet par Hein et al., 1996). BIF7002 – Séminaire de Bioinformatique 12 Alix Boc
Exemples de règles d’évolution Règles d’évolution : 2 exemples Contrainte de sous-arbres Les transferts sur la même lignée sont interdits. Le transfert entre les branches (z,w) et (x,y) de l’arbre d’espèces T sera permis si et seulement si le sous-arbre regroupant les deux sous-arbres affectés, et enraciné par la branche (z,b) dans T1, est présent dans l’arbre de gène. La contrainte de sous-arbres permet de prendre en compte automatiquement toutes les règles d’évolution. Les transferts croisés sont interdits. BIF7002 – Séminaire de Bioinformatique 13 Alix Boc
Critères d’optimisation Dissimilarité de bipartitions Moindres carrés d(i,j) - distance entre i et j dans l’arbre d’espèces. (i,j) - distance entre i et j dans l’arbre de gène. Dissimilarité de bipartitions Cette dissimilarité mesure la différence topologique entre deux tables de bipartitions décrivant deux arbres. Elle est définie comme suit : où d(a,b) est la distance de Hamming entre les vecteurs de bipartitions a et b ex: bd(T,T’)= ((2 + 1 + 2) + (2 + 1 + 1))/2 = 4.5. La distance topologique de Robinson et Foulds (1981) entre deux arbres phylogénétiques est égale au nombre minimal d’opérations élémentaires de fusion et de séparation de noeuds nécessaires pour transformer un arbre en un autre. Ex : la distance de Robinson et Foulds entre les arbres T et T1 est égale à 2. Robinson et Foulds BIF7002 – Séminaire de Bioinformatique 14 Alix Boc
BIF7002 – Séminaire de Bioinformatique Alix Boc Algorithme BIF7002 – Séminaire de Bioinformatique Alix Boc
BIF7002 – Séminaire de Bioinformatique 16 Alix Boc Algorithme Inférer les arbres d’espèces et de gène T et T’ sur le même ensemble d’espèces; Enraciner T et T’ selon des évidences biologiques ou en utilisant un outgroup ou un midpoint; Si (il existe des sous-arbres identiques avec au moins deux feuilles dans T et T’) alors Réduire la taille du problème en les réduisant à une seule espèce dans T et T’; Sélectionner le critère d’optimisation : OC = LS (moindres-carrés), RF (distance de Robinson et Foulds), QD (distance des quartets) ou BD (dissimilarité de bipartitions); Calculer la valeur initiale de OC entre T et T’; T0 = T; k = 1; Tant que (OC ≠ 0) { Trouver l’ensemble de tous les THG éligibles à l’étape k (noté E_THGk); L’ensemble E_THGk contient seulement les transferts satisfaisant la contrainte de sous-arbre; Tant que (les THG satisfaisants les conditions des Théorèmes 2 et 1 existent) Si (il existe des THG appartenant à E_THGk et satisfaisant les conditions du Théorème 2) alors Effectuer les opérations SPR correspondant à ces THG; Si (il existe des THG appartenant à E_THGk et satisfaisant les conditions du Théorème 1) alors } Effectuer toutes les opérations SPR correspondant aux THG satisfaisant la contrainte de sous-arbres; Calculer la valeur de OC pour identifier la direction de chaque THG; k = k + 1; Décrémenter la taille du problème en réduisant en une arête tous les sous-arbres identiques dans Tk et T’; Calculer la valeur de OC entre Tk et T’; Éliminer tous les transferts inutiles; BIF7002 – Séminaire de Bioinformatique 16 Alix Boc
BIF7002 – Séminaire de Bioinformatique 17 Alix Boc Algorithme : exemple L’exemple ci-dessous montre comment l’arbre d’espèces T et transformé en l’arbre de gène T1. 1 2 3 Scénario trouvé : 1 - transfert de A vers D 2 - transfert de E vers B 3 - transfert de C vers F À chaque transfert est associé : la nouvelle valeur des moindres carrés la nouvelle distance de Robinson et Foulds la nouvelle dissimilarité de bipartitions BIF7002 – Séminaire de Bioinformatique 17 Alix Boc
Validation Déterminer le pourcentage d’apparition de chaque THG pour plusieurs réplicats de l’arbre de gène. Les réplicats sont générés à partir des séquences. Le premier arbre de gène est la référence T’. NJ or PhyML HGT-Detection arbre d’espèces T La robustesse de chaque transfert est estimée par le nombre d’apparitions dans la liste de scénarios. n-1 réplicats de l’arbre de gène. n scénarios de réconciliation. BIF7002 – Séminaire de Bioinformatique 18 Alix Boc
Validation des transferts horizontaux Trois stratégies possibles : Les séquences utilisées pour construire les arbres d’espèces et de gène sont répliquées. Seules les données de séquences utilisées pour construire l’arbre de gène sont répliquées. Le bootstrap des transferts peut être calculé entre deux topologies d’arbres seulement. où NT et NT’ sont, respectivement, le nombre d’arbres d’espèces et de gène générés à partir des réplicats et Nij est le nombre de scénarios de coût minimal obtenus quand l’algorithme est appliqué à l’arbre d’espèces Ti et l’arbre de gène Tj’. BIF7002 – Séminaire de Bioinformatique 19 Alix Boc 19
Simulations Monte-Carlo Taux de détection en fonction du nombre de transferts. Comparaison de la stratégie basée sur BD avec LatTrans (Hallett et Lagergren, 2001). BIF7002 – Séminaire de Bioinformatique 20 Alix Boc 20
Exemple : évolution du gène rpl12e (Matte-Tailliez et al., 2002 ) BIF7002 – Séminaire de Bioinformatique 21 Alix Boc
Transferts horizontaux du gène rpl12e Hypothèse : des transferts du gène rpl12e seraient survenus entre les groupes des Crenarchaeota et des Thermoplasmatales (Matte-Tailliez et al., 2004). Arbre d’espèces Arbre du gène rpl12e BIF7002 – Séminaire de Bioinformatique 22 Alix Boc
Scénario de réconciliation retrouvé pour le gène rpl12e 3 74% 2 60% 4 69% 5 60% 1 55% BIF7002 – Séminaire de Bioinformatique 23 Alix Boc
Détection des transferts partiels BIF7002 – Séminaire de Bioinformatique Alix Boc
Détection des transferts partiels Transfert partiel versus transfert complet Contexte d’évolution Les bactéries et les archées peuvent évoluer dans différentes conditions en s’échangeant des parties gènes, ce qui mène à la création des gènes mosaïques. Un gène mosaïque est un allèle composé de sous-séquences provenant des espèces ou des souches différentes. Généralisation : appliqué à l’échelle d’un génome, on peut estimer le taux de transferts horizontaux (complets et partiels) entre les espèces. BIF7002 – Séminaire de Bioinformatique 25 Alix Boc
Transfert partiel : première approche Nouvelle fonction d’optimisation qui tient compte de l’existence de plusieurs chemins et du taux de gène transféré. Formule originale : Formule modifiée : où (i,j) est la distance originale entre i et j; est la taille de l’arête k du chemin (ij); est la fraction de gène transférée (0 ≤ ≤ 1); BIF7002 – Séminaire de Bioinformatique 26 Alix Boc 26
Transfert partiel : deuxième approche Algorithme Étape 1. Inférons un arbre phylogénétique T pour un esemble d’espèces X. Étape 2. Pour i variant de 1 à |l-w|, inférons l’arbre de gène T’ en utilisant les sous-séquences situées dans la fenêtre coulissante entre i et |i+w|. Appliquons HGT-Detection sur T et T’. Étape 3. Établissons une liste de transferts prédits. Les transferts entrelacés (Si,j+w .. Sj,j+w) seront considérés comme un unique transfert affectant les sites de i à |j+w|. Complexité BIF7002 – Séminaire de Bioinformatique 27 Alix Boc 27
Transfert partiel : simulations Monte-Carlo Taux de détection et taux de faux positifs en fonction du nombre de feuilles et du nombre de transferts horizontaux partiels. BIF7002 – Séminaire de Bioinformatique 28 Alix Boc 28
Exemple : Étude de l’évolution du gène rbcL (Delwiche et Palmer, 1996) BIF7002 – Séminaire de Bioinformatique Alix Boc
Exemple : Étude de l’évolution du gène rbcL (Delwiche et Palmer 1996) Les nouveaux algorithmes ont été appliqués à l’étude de l’évolution du gène rbcL initialement décrite dans Delwiche et Palmer (1996). BIF7002 – Séminaire de Bioinformatique 30 Alix Boc 30
BIF7002 – Séminaire de Bioinformatique 31 Alix Boc Résultats : étude de l’évolution du gène rbcL (Delwiche et Palmer 1996) Détection des THG complets Détection des THG partiels BIF7002 – Séminaire de Bioinformatique 31 Alix Boc 31
BIF7002 – Séminaire de Bioinformatique Alix Boc Conclusions BIF7002 – Séminaire de Bioinformatique Alix Boc
BIF7002 – Séminaire de Bioinformatique 33 Alix Boc Conclusions Dans le cadre de cette recherche doctorale nous avons apporté plusieurs contributions importantes dont : un algorithme efficace de détection des transferts horizontaux complets (HGT-Detection). une nouvelle mesure de comparaison d’arbres : la dissimilarité de bipartitions. un processus de validation des transferts horizontaux. deux algorithmes de détection des transferts partiels et d’indentification des gènes mosaïques. L’étude de l’évolution des langues IE a montré que notre méthode peut être utile dans plusieurs domaines scientifiques. Les méthodes relatives à la détection des transferts horizontaux de gènes sont librement accessibles à l’adresse URL suivante : www.trex.uqam.ca. These are the preliminaries conclusion for this work : First, we found that 35.7 % of words are affected by borrowing from the other groups. Second, we didn’t show the results for lexical and functional categories because they are very similar. Third, we found that the cluster combining Indic and Iranian groups and Celtic-Italic-French/Iberian-Westgermanic-Northgermanic groups have much closer relationships that it’s presented in the IE tree. This may be the evidence of a much closer common ancestor between these 2 clusters or of an intensive migration between the ancestors of the involved nations. This information is very interesting and can help bring to ligth the possible theories of IE languages origin such as the Kurgan expansion or the Anatolian farming hypothesys. BIF7002 – Séminaire de Bioinformatique 33 Alix Boc
BIF7002 – Séminaire de Bioinformatique 34 Alix Boc Travaux futurs Détection des transferts complets Mesure de l’impacte des artéfacts de reconstruction et d’autres évènements d’évolution sur la détection des THG. Détection des transferts partiels Développement d’un modèle prenant en compte la duplication ancestrale et la perte partielle de gènes. Validation du modèle, par des simulations statistiques, de détection des transferts partiels basé sur l’optimisation par les moindres carrés. Évolution des langues Indo-Européennes Validation manuelle des 1484 arbres de mots. Analyse de l’origine des langues Indo-Européennes. These are the preliminaries conclusion for this work : First, we found that 35.7 % of words are affected by borrowing from the other groups. Second, we didn’t show the results for lexical and functional categories because they are very similar. Third, we found that the cluster combining Indic and Iranian groups and Celtic-Italic-French/Iberian-Westgermanic-Northgermanic groups have much closer relationships that it’s presented in the IE tree. This may be the evidence of a much closer common ancestor between these 2 clusters or of an intensive migration between the ancestors of the involved nations. This information is very interesting and can help bring to ligth the possible theories of IE languages origin such as the Kurgan expansion or the Anatolian farming hypothesys. BIF7002 – Séminaire de Bioinformatique 34 Alix Boc 34
BIF7002 – Séminaire de Bioinformatique 35 Alix Boc Références Boc, A. et Makarenkov, V. (2003) New Efficient Algorithm for Detection of Horizontal Gene Transfer Events. In Benson G. et Page R. (Eds.). WABI 2003, Algorithms in Bioinformatics, Springer-Verlag, pp. 190-201. Boc, A., Philippe, H. et Makarenkov, V. (2010a) Inferring and validating horizontal gene transfer events using bipartition dissimilarity. Systematic Biology, 59, 195-211. Boc, A., A-M. Di Sciullo et V. Makarenkov. (2010b). Classification of the Indo-European languages using a phylogenetic network approach. In H. Locarek-Junge et C. Weihs (Eds.). IFCS 2009. Studies in Classification, Data Analysis, and Knowledge Organization, Springer Berlin-Heidelberg-New York, pp. 647-655. Delwiche, C.F. et Palmer, J. D. (1996) Rampant Horizontal Transfer and Duplication of Rubisco Genes in Eubacteria and Plastids. Mol. Biol. Evol., 13, 873-882. Dyen, I., Kruskal, J.B. et Black, P. (1997) Comparative IE Database Collected by Isidore Dyen, http://www.ntu.edu.au/education/langs/ielex/IE-RATE1. Gray, R.D. et Atkinson, Q.D. (2003) Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426, 435-439. Hallett, M., et Lagergren, J. (2001) Efficient algorithms for lateral gene transfer problems. In El-Mabrouk, N., Lengauer, T. et Sankoff, D. (Eds.), Proceedings of the fifth annual international conference on research in computational biology, ACM Press, New-York, pp. 149-156. Levenshtein, V. I. (1966) Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady , 10, 707–710. Makarenkov,V. (2001),T-Rex: reconstructing and visualizing phylogenetic trees and reticulation networks. Bioinformatics, 17, 664-668. Makarenkov, V., Boc, A., Delwiche, C.F. et Philippe, H. (2006) New efficient algorithm for modeling partial and complete gene transfer scenarios. In Batagelj, V., Bock, H.-H., Ferligoj, A. et Ziberna, A. (Eds.). IFCS 2006, Series: Studies in Classification, Data Analysis, and Knowledge Organization, Springer Verlag, pp. 341-349. Matte-Tailliez, O., Brochier,C., Forterre, P. et Philippe,H. (2002) Archaeal phylogeny based on ribosomal proteins. Mol. Biol. Evol., 19, 631-639. Robinson, D.R. et Foulds, L.R. (1981) Comparison of phylogenetic trees. Mathematical Biosciences, 53, 131-147. Than, C. Ruths, D. et Nakhleh, L. (2008) PhyloNet: A Software Package for Analyzing and Reconstructing Reticulate Evolutionary Relationships. BMC Bioinformatics, 9, 322. Woese, C.R., Olsen, G., Ibba, M. et Söll,D. (2000) Aminoacyl-tRNA synthetases, the genetic code, and the evolutionary process. Microbiol. Mol. Biol. Rev., 64, 202-236. BIF7002 – Séminaire de Bioinformatique 35 Alix Boc