La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec.

Présentations similaires


Présentation au sujet: "Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec."— Transcription de la présentation:

1 Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

2 Orthologie et Paralogie Duplication Spéciation V1 H1 H2 C1 C2 humain vache chimpanzé humain chimpanzé V1 H1 H2 C1 C2 humain vache chimpanzé humain chimpanzé Lignée 1 Lignée 2

3 Orthologie et Paralogie Duplication Spéciation Gènes paralogues Paire de gènes nés de la duplication de leur ancêtre commun Gènes orthologues Paire de gènes nés de la divergence de leur ancêtre commun (spéciation) V1 H1 H2 C1 C2 humain vache chimpanzé humain chimpanzé V1 H1 H2 C1 C2 humain vache chimpanzé humain chimpanzé Lignée 1 Lignée 2

4 Orthologie et Paralogie Gènes out-paralogues La duplication est suivie dau moins une spéciation Gènes in-paralogues La duplication nest suivie daucune spéciation Duplication Spéciation V1 H1 H2 C1 C2 humain vache chimpanzé humain chimpanzé V1 H1 H2 C1 C2 humain vache chimpanzé humain chimpanzé Lignée 1 Lignée 2 Terminologie pour les gènes paralogues (Remm et al. (2001))

5 Larbre des gènes nest pas larbre des espèces Importance de la recherche de gènes orthologues La VRAIE histoire du gène V H C humain vache chimpanzé V1 H1 C1 V2 H2 C2

6 Regroupement des gènes de plusieurs espèces en groupes de gènes orthologues (COG). ba d c ba d c ba d c bb b B aa a A cc c C dd d D Espèces Groupes de gènes orthologues Problématique

7 Intérêt de la recherche de gènes orthologues Problème important pour lévolution moléculaire: –Annotation des gènes; –Inférer la phylogénie des espèces selon une grande quantité de gènes présents chez la plupart des génomes; –Comparaison génomique selon le contenu en gènes des espèces.

8 Méthodes existantes DonnéesBasée surAperçu Yuan et al., séquence requête les hits de blast arbre des séquences arbre des espèces Comparaison des deux arbres Inparanoid (Remm et al., 2001) 2 génomes blastRègles de chevauchement Storm et al., génomes arbre des séquences Parcours postfixe Valeurs de bootstrap OrthoMCL (Li et al., 2003) n génomes blast graphe de similarités Markov Clustering Algorithm Chen et al., génomes blast lordre des gènes Signed Reverseal Distance

9 Méthode pour la recherche de gènes orthologues OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Comparaison de larbre des gènes avec larbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues

10 Méthode pour la recherche de gènes orthologues OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Comparaison de larbre des gènes avec larbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues Tests statistiques du regroupement Pour chaque famille La bonne topologie est-elle bien supportée? Et les autres?

11 Séquences protéiques des organismes Tous contre tous BLASTP Entre espèces: Best Reciprocal Hit Orthologues putatifs Intra espèces: Best Reciprocal Hit Paralogues récents Matrice de similarités (normalisée par espèce) Markov Clustering Groupes dorthologues avec des paralogues (récents) OrthoMCL (Li et al., 2003) Identification de in-paralogues pour chaque orthologues Tous Best Reciprocal Hit

12 Inflation: paramètre de granularité InflationPetiteMoyenneGrande Regroupementgrossiergrossier / finfin Vrais Négatifspeumoyennementbeaucoup Faux Positifsbeaucoupmoyennementpeu VN FPVP FN Graphe de similarités des gènes

13 OrthoMCL – Mesures de valuation Mesures définies selon les similarités de séquences observées (blast) et celles induites par MCL. Efficacité: –Ratio du nombre de VN et de FP –Plus la valeur est haute, plus le regroupement est bon. Mass fraction: –Ratio du nombre de VP Area fraction: –Plus la valeur est basse, plus le regroupement est fin.

14 OrthoMCL: données 4 espèces C. glabrataK. lactisD. hanseniiY. lipolytica Total Nbre. de protéines levures où lordre des gènes est bien conservé Duplication du génome chez C. glabrata Duplication en tandem chez Y. lipolytica Beaucoup de in- paralogues ? C. glabrata K. lactis D. hansenii Y. lipolytica

15 Valuation des regroupements InflationNbre. de Clusters EfficiencyMass fraction Area Fraction Cluster link Weight Graph link Weight Les valeurs defficacités sont similaires. Dans le pire des cas, le nombre de Faux Positifs est de 2.5%. Le découpage est très affecté par linflation. Le choix dépend du nombre de vrais négatifs attendus par lutilisateur. Trop grossier Trop fin Lequel choisir ?

16 OrthoMCL: résultats Famille universelle et unique: un et un seul gène par espèce. Famille universelle et non-unique: au moins une espèce a deux gènes. InflationUniverselle Unique Universelle Non-Unique Non-UniverselleTotal , 57%458, 9%1714, 34% , 56%432, 8%1806, 35% , 55%402, 8%1943, 37% , 55%379, 7%2013, 38% , 54%357, 7%2086, 39% , 53%335, 6%2164, 40%5354 Grossier +- Fin -+

17 Méthode pour la recherche de gènes orthologues OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Comparaison de larbre des gènes avec larbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues Tests statistiques du regroupement Pour chaque famille La bonne topologie est-elle bien supportée? Et les autres?

18 Tests pour les familles uniques DY KC KY D C YK D C 1.Pour 4 espèces, il y a 3 topologies possibles 2.Pour chaque famille unique: Alignement multiple (ClustalW). Calcul de la vraisemblance et du support pour les trois topologies (Tree-Puzzle). Famille 1Famille 2Famille 2902…….. C>AYANE Y>ANNAN D>AYASD K>APAPP + / - C. glabrata Y. lipolytica D. hansenii K. lactis C>AYANE Y>ANNAN D>AYASD K>APAPP C>AYANE Y>ANNAN D>AYASD K>APAPP

19 2.Signal négatif: la vraie topologie est rejetée les 2 autres ne sont pas rejetées Vrai signal positif: vrais orthologues Causé par: petits gènes peu de positions informatives Tests pour les familles uniques 1.Signal positif: la vraie topologie nest pas rejetée les 2 autres sont rejetées 3.Signal nul: Aucune topologies nest rejetée Faux signal positif : artéfact de reconstruction (ex. attraction des longues branches) Vrai signal négatif: gènes paralogues Faux signal négatif: artéfact de reconstruction

20 Tests pour les familles uniques InflationSignal +Signal -Signal nulAutresTotal , 75%8, 0.2%550, 19% (439, 15%) , 75%7, 0.2%555, 19% (443, 15%) , 75%9, 0.2%533, 18% (420, 15%) , 75%7, 0.2%542, 19% (433, 15%) , 75%8, 0.2%547, 19% (437, 15%) , 75%8, 0.2%541, 19% (432, 15%) Tous les signaux sont stables selon la valeur dinflation (): la bonne topologie est larbre le plus vraisemblable

21 In-paralogues et Out-Paralogues C1 C2 C3 K Y2 D A) Groupe de in-paralogues C2 est le représentant du groupe B) Plusieurs out-paralogues Y1 C4 K Y2 D Y1 C4 C2 C. glabrata : C2, C4 Y. lipolytica : Y1, Y2 D. hansenii : D K. lactis : K C2, Y1, D, K C2, Y2, D, K C4, Y1, D, K C4, Y2, D, K C) 4 familles uniques possibles

22 Tests pour les familles non-uniques I.Pour 4 espèces, il y a 3 topologies possibles. II.Pour chaque famille: 1.Appliquer Phyml pour chercher Les groupes de in-paralogues; Et leurs représentants. 2.Pour chaque quadruplet de gènes (famille unique) Alignement multiple; Calcul de la vraisemblance et du support. Famille 1Famille 2Famille 2902…….. + / - C>AYANE Y>ANNAN D>AYASD K>APAPP C>AYANE Y>ANNAN D>AYASD K>APAPP C>AYANE Y>ANNAN D>AYASD K>APAPP x n + / - x n + / - x n

23 Tests pour les familles non-uniques Les vrais orthologues Les faux orthologues Lesquels sont les vrais orthologues? Tous des faux orthologues 1.Signal positif clair: i.Un seul quadruplet a un signal + : la vraie topologie nest pas rejetée les 2 autres sont rejetées ii.Tous les autres ont un signal – : la vraie topologie est rejetée les 2 autres ne sont pas rejetées 2.Signal positif non-clair: Au moins 2 quadruplets ont un signal + Tous les autres ont un signal – 3.Signal négatif clair: Tous les quadruples ont un signal – 4.Signal nul clair Tous les quadruples ont un signal nul

24 Tests pour les familles non-uniques InflationSignal + clair Signal + non-clair Signal – clair Signal nul clair AutresTotal 1.24, 0.8%129, 28%3, 0.6%53, 12% , 0.7%130, 30%2, 0.5%50, 12% , 0.5%122, 30%1, 0.2%51, 13% , 0.5%119, 31%2, 0.5%44, 12% , 31%2, 0.6%38, 11% , 31%2, 0.6%38, 11% Tous les signaux sont stables selon la valeur dinflation

25 432 Familles Non-Uniques (I=1.5) EspècesNombre de familles avec plus dun out-paralogues Nombre total de out-paralogues Moyenne C. glabrata D. hansenii K. lactis Y. lipolytica EspècesNombre de groupes de in-paralogues Taille totale Taille moyenne C. glabrata D. hansenii K. lactis Y. lipolytica Seulement des in-paraloguesSeulement des out-paraloguesAvec les deux Beaucoup plus de in-paralogues chez C. glabrata que chez K. lactis Duplication du génome Duplication en tandem

26 Méthode pour la recherche de gènes orthologues OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Comparaison de larbre des gènes avec larbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues Tests statistiques du regroupement Pour chaque famille La bonne topologie est-elle bien supportée? Et les autres?

27 Les deux arbres peuvent être différents par cause de Duplications; Perte du vrai orthologue mais pas du faux orthologue; Transfert Horizontal de Gène (HGT). Arbre des gènes vs. Arbre des espèces Que sest-il passé ? Arbre des gènes Arbre des espèces humaincheval chimpanzé humainchevalchimpanzé

28 Raconte lévolution du gène sil ny avait eu aucune perte Indique où il y a eu des événements de duplications Les HGTs ne sont pas considérés Un seul gène par espèce Arbre de réconciliation -humain -cheval -chimpanzé β -humain -cheval -chimpanzé Lignée α Lignée β Duplication

29 Raconte lévolution du gène sil ny avait eu aucune perte Indique où il y a eu des événements de duplications Les HGTs ne sont pas considérés Un seul gène par espèce Arbre de réconciliation -humain -cheval -chimpanzé Lignée α Lignée β Duplication

30 Algorithme de réconciliation Pour chaque nœud, calculer le LCA. Une duplication au nœud g est inférée si LCA (g) = LCA (g1) ou LCA (g) = LCA (g2) Pour chaque nœud g où il y a eu une duplication: créér deux copies du sous-arbre S(g) O (n^2) en temps et O(n) en espace Last Common Ancestor Arbre des gènes Arbre des espèces humaincheval chimpanzé humainchevalchimpanzé

31 PERSPECTIVES

32 I- Autres tests statistiques Refaire les mêmes tests mais sur un espace phylogénétique plus large (11 levures). – topologies possibles; –Ne considérer que la topologie des gènes (PHYML) celles des espèces. Étudier les différentes raisons qui pourraient expliquer les signaux nuls: –le nombre moyen de positions par gène; –la longueur de larbre; –le nombre de positions informatives.

33 II- Peu de signal phylogénétique Le manque de signal phylogénétique est un problème fréquent (19% des familles sans signal). Algorithme de type Branch and Bound; –Pour une faible valeur de support: Ne considérer que les clades qui sont supportés par une valeur > seuil. Calculer une borne minimale sur le coût de réconciliation avec ce clade. –Considérer trois seuils: 50%, 70% et 95%.

34 III- Algorithme probabiliste Une duplication est plus probable sur une longue branche que sur une courte branche. Toutes les méthodes de réconciliation prennent pour acquis que les duplications sont équiprobables pour toutes les branches Algorithme probabiliste –Selon les données, évaluer les probabilités de duplications pour chaque branche. –Appliquer un algorithme de type Expectation Maximisation ou Bayésien.

35 Validation de type bootstrap dune famille de n gènes –Répéter pour chaque n gènes Créér une Pseudo Famille en retirant le gène Appliquer la réconciliation Calculer la distance entre la Pseudo et la Vraie réconciliation Validation externe: –Étudier la conservation du voisinage chez les gènes orthologues –La synténie est bien conservée chez les levures IV- Validation dune réconciliation

36 Génome Québec Hervé Philippe Cedric Chauve Sylvie Hamel Olivier Jeffroy REMERCIEMENTS


Télécharger ppt "Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec."

Présentations similaires


Annonces Google