Télécharger la présentation
Publié parSimonette Raymond Modifié depuis plus de 10 années
1
Méthode de recherche de gènes orthologues
Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec
2
Orthologie et Paralogie
vache V1 humain H1 humain H2 chimpanzé C1 chimpanzé Duplication C2 Spéciation vache V1 Lignée 1 humain H1 chimpanzé C1 humain H2 Lignée 2 chimpanzé C2
3
Orthologie et Paralogie
vache V1 humain H1 humain H2 chimpanzé C1 chimpanzé Duplication C2 Spéciation vache V1 Lignée 1 humain H1 chimpanzé C1 humain H2 Lignée 2 chimpanzé C2 Gènes orthologues Paire de gènes nés de la divergence de leur ancêtre commun (spéciation) Gènes paralogues Paire de gènes nés de la duplication de leur ancêtre commun
4
Orthologie et Paralogie
vache V1 humain H1 humain H2 chimpanzé C1 chimpanzé Duplication C2 Spéciation vache V1 Lignée 1 humain H1 chimpanzé C1 humain H2 Lignée 2 chimpanzé C2 Gènes in-paralogues La duplication n’est suivie d’aucune spéciation Gènes out-paralogues La duplication est suivie d’au moins une spéciation Terminologie pour les gènes paralogues (Remm et al. (2001))
5
Importance de la recherche de gènes orthologues
L’arbre des gènes n’est pas l’arbre des espèces La VRAIE histoire du gène V1 H1 vache V C1 humain H V2 chimpanzé C H2 C2
6
Problématique Regroupement des gènes de plusieurs espèces en groupes de gènes orthologues (COG). Espèces Groupes de gènes orthologues b a a a c c A C c d a c b a c d b b d d b a B D c b d d
7
Intérêt de la recherche de gènes orthologues
Problème important pour l’évolution moléculaire: Annotation des gènes; Inférer la phylogénie des espèces selon une grande quantité de gènes présents chez la plupart des génomes; Comparaison génomique selon le contenu en gènes des espèces.
8
Méthodes existantes Données Basée sur Aperçu Yuan et al., 1998
1 séquence requête les “hits” de blast arbre des séquences arbre des espèces Comparaison des deux arbres Inparanoid (Remm et al., 2001) 2 génomes blast Règles de chevauchement Storm et al., 2002 Parcours postfixe Valeurs de “bootstrap” OrthoMCL (Li et al., 2003) n génomes graphe de similarités “Markov Clustering Algorithm” Chen et al., 2004 l’ordre des gènes “Signed Reverseal Distance”
9
Comparaison de l’arbre des gènes avec l’arbre des espèces
Méthode pour la recherche de gènes orthologues OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Comparaison de l’arbre des gènes avec l’arbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues
10
Méthode pour la recherche de gènes orthologues
OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Tests statistiques du regroupement Pour chaque famille La bonne topologie est-elle bien supportée? Et les autres? Comparaison de l’arbre des gènes avec l’arbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues
11
OrthoMCL (Li et al., 2003) “Best Reciprocal Hit” Tous Tous contre tous
Séquences protéiques des organismes Tous contre tous BLASTP Identification de in-paralogues pour chaque orthologues Entre espèces: “Best Reciprocal Hit” Orthologues putatifs Intra espèces: “Best Reciprocal Hit” Paralogues récents Matrice de similarités (normalisée par espèce) Markov Clustering Groupes d’orthologues avec des paralogues (récents)
12
Inflation: paramètre de granularité
Petite Moyenne Grande Regroupement grossier grossier / fin fin Vrais Négatifs peu moyennement beaucoup Faux Positifs VN FP VP FN Graphe de similarités des gènes
13
OrthoMCL – Mesures de valuation
Mesures définies selon les similarités de séquences observées (blast) et celles induites par MCL. Efficacité: Ratio du nombre de VN et de FP Plus la valeur est haute, plus le regroupement est bon. “Mass fraction”: Ratio du nombre de VP “Area fraction”: Plus la valeur est basse, plus le regroupement est fin.
14
OrthoMCL: données 4 espèces C. glabrata K. lactis D. hansenii
Y. lipolytica Total Nbre. de protéines 5272 5331 6896 6666 24 165 4 levures où l’ordre des gènes est bien conservé Duplication du génome chez C. glabrata Duplication en tandem chez Y. lipolytica Beaucoup de in-paralogues ? C. glabrata K. lactis D. hansenii Y. lipolytica
15
Valuation des regroupements
Inflation Nbre. de Clusters Efficiency Mass fraction Area Fraction Cluster link Weight Graph link 1.2 5064 1.5 5140 2.0 5227 2.4 5267 2.8 5307 3.2 5354 Trop grossier ? Lequel choisir Trop fin Les valeurs d’efficacités sont similaires. Dans le pire des cas, le nombre de Faux Positifs est de 2.5%. Le découpage est très affecté par l’inflation. Le choix dépend du nombre de vrais négatifs attendus par l’utilisateur.
16
OrthoMCL: résultats + - Famille universelle et unique:
un et un seul gène par espèce. Famille universelle et non-unique: au moins une espèce a deux gènes. Inflation Universelle Unique Non-Unique Non-Universelle Total 1.2 2892, 57% 458, 9% 1714, 34% 5064 1.5 2902, 56% 432, 8% 1806, 35% 5140 2.0 2882, 55% 402, 8% 1943, 37% 5227 2.4 2875, 55% 379, 7% 2013 , 38% 5267 2.8 2864, 54% 357, 7% 2086, 39% 5307 3.2 2855, 53% 335, 6% 2164, 40% 5354 Grossier + - Fin
17
Méthode pour la recherche de gènes orthologues
OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Tests statistiques du regroupement Pour chaque famille La bonne topologie est-elle bien supportée? Et les autres? Comparaison de l’arbre des gènes avec l’arbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues
18
Tests pour les familles uniques
Pour 4 espèces, il y a 3 topologies possibles C. glabrata Y. lipolytica D. hansenii K. lactis C C K C D D K Y D Y Y K Pour chaque famille unique: Alignement multiple (ClustalW). Calcul de la vraisemblance et du support pour les trois topologies (Tree-Puzzle). Famille 1 Famille 2 …….. Famille 2902 C>AYANE Y>ANNAN D>AYASD K>APAPP C>AYANE Y>ANNAN D>AYASD K>APAPP C>AYANE Y>ANNAN D>AYASD K>APAPP + / - + / - + / - + / - + / - + / - + / - + / - + / -
19
Tests pour les familles uniques
Vrai signal positif: vrais orthologues Signal positif: la vraie topologie n’est pas rejetée les 2 autres sont rejetées Faux signal positif : artéfact de reconstruction (ex. attraction des longues branches) Vrai signal négatif: gènes paralogues Signal négatif: la vraie topologie est rejetée les 2 autres ne sont pas rejetées Faux signal négatif: artéfact de reconstruction Causé par: petits gènes peu de positions informatives Signal nul: Aucune topologies n’est rejetée
20
Tests pour les familles uniques
Inflation Signal + Signal - Signal nul Autres Total 1.2 2176, 75% 8, 0.2% 550, 19% (439, 15%) 158 2892 1.5 2174, 75% 7, 0.2% 555, 19% (443, 15%) 166 2902 2.0 2155, 75% 9, 0.2% 533, 18% (420, 15%) 185 2882 2.4 2153, 75% 542, 19% (433, 15%) 173 2875 2.8 2146, 75% 547, 19% (437, 15%) 163 2864 3.2 2144, 75% 541, 19% (432, 15%) 162 2855 (): la bonne topologie est l’arbre le plus vraisemblable Tous les signaux sont stables selon la valeur d’inflation
21
In-paralogues et Out-Paralogues
A) Groupe de in-paralogues B) Plusieurs out-paralogues K Y2 D Y1 C4 C2 C1 C2 est le représentant du groupe C2 D C3 C. glabrata : C2, C4 Y. lipolytica : Y1, Y2 D. hansenii : D K. lactis : K Y2 K Y1 C4 C) 4 familles uniques possibles C2, Y1, D, K C2, Y2, D, K C4, Y1, D, K C4, Y2, D, K
22
Tests pour les familles non-uniques
Pour 4 espèces, il y a 3 topologies possibles. Pour chaque famille: Appliquer Phyml pour chercher Les groupes de in-paralogues; Et leurs représentants. Pour chaque quadruplet de gènes (famille unique) Alignement multiple; Calcul de la vraisemblance et du support. Famille 1 Famille 2 …….. Famille 2902 C>AYANE Y>ANNAN D>AYASD K>APAPP C>AYANE Y>ANNAN D>AYASD K>APAPP C>AYANE Y>ANNAN D>AYASD K>APAPP x n x n x n + / - + / - + / - x n + / - x n x n + / - + / - + / - + / - + / -
23
Tests pour les familles non-uniques
Signal positif clair: Un seul quadruplet a un signal + : la vraie topologie n’est pas rejetée les 2 autres sont rejetées Tous les autres ont un signal – : la vraie topologie est rejetée les 2 autres ne sont pas rejetées Les vrais orthologues Les faux orthologues Signal positif non-clair: Au moins 2 quadruplets ont un signal + Tous les autres ont un signal – Lesquels sont les vrais orthologues? Signal négatif clair: Tous les quadruples ont un signal – Tous des faux orthologues Signal nul clair Tous les quadruples ont un signal nul
24
Tests pour les familles non-uniques
Inflation Signal + clair Signal + non-clair Signal – clair Signal nul Autres Total 1.2 4, 0.8% 129, 28% 3, 0.6% 53, 12% 269 458 1.5 3, 0.7% 130, 30% 2, 0.5% 50, 12% 247 432 2.0 122, 30% 1, 0.2% 51, 13% 226 402 2.4 119, 31% 44, 12% 212 379 2.8 112, 31% 2, 0.6% 38, 11% 205 357 3.2 105, 31% 190 335 Tous les signaux sont stables selon la valeur d’inflation
25
432 Familles Non-Uniques (I=1.5)
Espèces Nombre de groupes de in-paralogues Taille totale Taille moyenne C. glabrata 90 193 2.14 D. hansenii 60 165 2.75 K. lactis 15 32 2.13 Y. lipolytica 41 156 3.80 Duplication du génome Duplication en tandem Beaucoup plus de in-paralogues chez C. glabrata que chez K. lactis Espèces Nombre de familles avec plus d’un out-paralogues Nombre total de out-paralogues Moyenne C. glabrata 129 272 2.11 D. hansenii 149 324 2.17 K. lactis 78 164 2.10 Y. lipolytica 97 223 2.30 Seulement des in-paralogues Seulement des out-paralogues Avec les deux 110 253 69
26
Méthode pour la recherche de gènes orthologues
OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Tests statistiques du regroupement Pour chaque famille La bonne topologie est-elle bien supportée? Et les autres? Comparaison de l’arbre des gènes avec l’arbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues
27
Arbre des gènes vs. Arbre des espèces
Les deux arbres peuvent être différents par cause de Duplications; Perte du vrai orthologue mais pas du faux orthologue; Transfert Horizontal de Gène (HGT). Arbre des gènes Arbre des espèces ≠ humain cheval chimpanzé humain chimpanzé cheval Que s’est-il passé ?
28
Arbre de réconciliation
Raconte l’évolution du gène s’il n’y avait eu aucune perte Indique où il y a eu des événements de duplications Les HGTs ne sont pas considérés Un seul gène par espèce Duplication Lignée α Lignée β a-humain a-chimpanzé a-cheval β-humain b-chimpanzé b-cheval
29
Arbre de réconciliation
Raconte l’évolution du gène s’il n’y avait eu aucune perte Indique où il y a eu des événements de duplications Les HGTs ne sont pas considérés Un seul gène par espèce Duplication Lignée α Lignée β a-humain a-cheval b-chimpanzé
30
Algorithme de réconciliation
“Last Common Ancestor” Arbre des gènes Arbre des espèces humain cheval chimpanzé humain chimpanzé cheval Pour chaque nœud, calculer le LCA. Une duplication au nœud g est inférée si LCA (g) = LCA (g1) ou LCA (g) = LCA (g2) Pour chaque nœud g où il y a eu une duplication: créér deux copies du sous-arbre S(g) O (n^2) en temps et O(n) en espace
31
PERSPECTIVES
32
I- Autres tests statistiques
Refaire les mêmes tests mais sur un espace phylogénétique plus large (11 levures). topologies possibles; Ne considérer que la topologie des gènes (PHYML) celles des espèces. Étudier les différentes raisons qui pourraient expliquer les signaux nuls: le nombre moyen de positions par gène; la longueur de l’arbre; le nombre de positions informatives.
33
II- Peu de signal phylogénétique
Le manque de signal phylogénétique est un problème fréquent (19% des familles sans signal). Algorithme de type “Branch and Bound”; Pour une faible valeur de support: Ne considérer que les “clades” qui sont supportés par une valeur > seuil. Calculer une borne minimale sur le coût de réconciliation avec ce clade. Considérer trois seuils: 50%, 70% et 95%.
34
III- Algorithme probabiliste
Une duplication est plus probable sur une longue branche que sur une courte branche. Toutes les méthodes de réconciliation prennent pour acquis que les duplications sont équiprobables pour toutes les branches Algorithme probabiliste Selon les données, évaluer les probabilités de duplications pour chaque branche. Appliquer un algorithme de type “Expectation Maximisation” ou Bayésien.
35
IV- Validation d’une réconciliation
Validation de type “bootstrap” d’une famille de n gènes Répéter pour chaque n gènes Créér une Pseudo Famille en retirant le gène Appliquer la réconciliation Calculer la distance entre la Pseudo et la Vraie réconciliation Validation externe: Étudier la conservation du voisinage chez les gènes orthologues La synténie est bien conservée chez les levures
36
REMERCIEMENTS Génome Québec Hervé Philippe Cedric Chauve Sylvie Hamel
Olivier Jeffroy
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.