Méthode de recherche de gènes orthologues

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Licence pro MPCQ : Cours
Apprentissage spectral
Additions soustractions
Distance inter-locuteur
Classification et prédiction
Regroupement (clustering)
Carboplatine + paclitaxel (1 cycle = 3 semaines)
Regroupement (clustering)
Test statistique : principe
INSTITUT DE VEILLE SANITAIRE
Les numéros 70 –
Les numéros
Les identités remarquables
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Phylogénie et distances génétique
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Discrimination Validation
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Laurent Labarre AGC - UMR Génoscope
Un nouveau regard sur les données moléculaires
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
SERIE I : ELECTROSTATIQUE
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
Tests de comparaison de moyennes
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Application des algorithmes génétiques
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Les structures de données arborescentes
Le Concours de Conaissance Francais I novembre 2012.
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
La phylogénomique sans alignement de séquences
Les quartiers Villeray – La Petite-Patrie et les voisinages
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
La phylogénie Définition :
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Algorithme de Bellman-Ford
RACINES CARREES Définition Développer avec la distributivité Produit 1
Les réseaux de neurones compétitifs
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
Appliquer la métthode Branch and Bound au problème de lassignation des tâches avec la matrice suivante: 1234 a11 88 b c33415 d Calcul de.
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
Jean-Marc Léger Président Léger Marketing Léger Marketing Les élections présidentielles américaines.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Ordonnancement de tâches
Reconnaissance d’empreintes digitales
Aire d’une figure par encadrement
Atelier de formation : MAT optimisation II (les graphes).
Équipe 2626 Octobre 2011 Jean Lavoie ing. M.Sc.A.
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Recherche heuristique dans les bases de données L’algorithme BLAST
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Etienne Danchin & Amandine Campan Présentation interne, pôle Santé des Plantes, Sophia - Antipolis Mercredi 21 avril 2010 Grille PACA ProActive : retour.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Formation Bio-informatique IRD
Analyses phylogénétiques
Familles de gènes Nadia El-Mabrouk.
Recherche heuristique dans les bases de données L’algorithme BLAST
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Thème 5.4 La cladistique Idée Essentielle: l’ascendance de groupes d’espèces peut être déduite en comparant leurs séquences de bases ou d’acides aminés.
Transcription de la présentation:

Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Orthologie et Paralogie vache V1 humain H1 humain H2 chimpanzé C1 chimpanzé Duplication C2 Spéciation vache V1 Lignée 1 humain H1 chimpanzé C1 humain H2 Lignée 2 chimpanzé C2

Orthologie et Paralogie vache V1 humain H1 humain H2 chimpanzé C1 chimpanzé Duplication C2 Spéciation vache V1 Lignée 1 humain H1 chimpanzé C1 humain H2 Lignée 2 chimpanzé C2 Gènes orthologues Paire de gènes nés de la divergence de leur ancêtre commun (spéciation) Gènes paralogues Paire de gènes nés de la duplication de leur ancêtre commun

Orthologie et Paralogie vache V1 humain H1 humain H2 chimpanzé C1 chimpanzé Duplication C2 Spéciation vache V1 Lignée 1 humain H1 chimpanzé C1 humain H2 Lignée 2 chimpanzé C2 Gènes in-paralogues La duplication n’est suivie d’aucune spéciation Gènes out-paralogues La duplication est suivie d’au moins une spéciation Terminologie pour les gènes paralogues (Remm et al. (2001))

Importance de la recherche de gènes orthologues L’arbre des gènes n’est pas l’arbre des espèces La VRAIE histoire du gène V1 H1 vache V C1 humain H V2 chimpanzé C H2 C2

Problématique Regroupement des gènes de plusieurs espèces en groupes de gènes orthologues (COG). Espèces Groupes de gènes orthologues b a a a c c A C c d a c b a c d b b d d b a B D c b d d

Intérêt de la recherche de gènes orthologues Problème important pour l’évolution moléculaire: Annotation des gènes; Inférer la phylogénie des espèces selon une grande quantité de gènes présents chez la plupart des génomes; Comparaison génomique selon le contenu en gènes des espèces.

Méthodes existantes Données Basée sur Aperçu Yuan et al., 1998 1 séquence requête les “hits” de blast arbre des séquences arbre des espèces Comparaison des deux arbres Inparanoid (Remm et al., 2001) 2 génomes blast Règles de chevauchement Storm et al., 2002 Parcours postfixe Valeurs de “bootstrap” OrthoMCL (Li et al., 2003) n génomes graphe de similarités “Markov Clustering Algorithm” Chen et al., 2004 l’ordre des gènes “Signed Reverseal Distance”

Comparaison de l’arbre des gènes avec l’arbre des espèces Méthode pour la recherche de gènes orthologues OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Comparaison de l’arbre des gènes avec l’arbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues

Méthode pour la recherche de gènes orthologues OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Tests statistiques du regroupement Pour chaque famille La bonne topologie est-elle bien supportée? Et les autres? Comparaison de l’arbre des gènes avec l’arbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues

OrthoMCL (Li et al., 2003) “Best Reciprocal Hit” Tous Tous contre tous Séquences protéiques des organismes Tous contre tous BLASTP Identification de in-paralogues pour chaque orthologues Entre espèces: “Best Reciprocal Hit” Orthologues putatifs Intra espèces: “Best Reciprocal Hit” Paralogues récents Matrice de similarités (normalisée par espèce) Markov Clustering Groupes d’orthologues avec des paralogues (récents)

Inflation: paramètre de granularité Petite Moyenne Grande Regroupement grossier grossier / fin fin Vrais Négatifs peu moyennement beaucoup Faux Positifs VN FP VP FN Graphe de similarités des gènes

OrthoMCL – Mesures de valuation Mesures définies selon les similarités de séquences observées (blast) et celles induites par MCL. Efficacité: Ratio du nombre de VN et de FP Plus la valeur est haute, plus le regroupement est bon. “Mass fraction”: Ratio du nombre de VP “Area fraction”: Plus la valeur est basse, plus le regroupement est fin.

OrthoMCL: données 4 espèces C. glabrata K. lactis D. hansenii Y. lipolytica Total Nbre. de protéines 5272 5331 6896 6666 24 165 4 levures où l’ordre des gènes est bien conservé Duplication du génome chez C. glabrata Duplication en tandem chez Y. lipolytica Beaucoup de in-paralogues ? C. glabrata K. lactis D. hansenii Y. lipolytica

Valuation des regroupements Inflation Nbre. de Clusters Efficiency Mass fraction Area Fraction Cluster link Weight Graph link 1.2 5064 0.64549 0.99976 0.00023 0.92575 0.92418 1.5 5140 0.65434 0.99629 0.00020 0.93250 2.0 5227 0.65936 0.99179 0.00019 0.93954 2.4 5267 0.66100 0.98782 0.94479 2.8 5307 0.66199 0.98185 0.00018 0.95018 3.2 5354 0.66210 0.97645 0.95359 Trop grossier ? Lequel choisir Trop fin Les valeurs d’efficacités sont similaires. Dans le pire des cas, le nombre de Faux Positifs est de 2.5%. Le découpage est très affecté par l’inflation. Le choix dépend du nombre de vrais négatifs attendus par l’utilisateur.

OrthoMCL: résultats + - Famille universelle et unique: un et un seul gène par espèce. Famille universelle et non-unique: au moins une espèce a deux gènes. Inflation Universelle Unique Non-Unique Non-Universelle Total 1.2 2892, 57% 458, 9% 1714, 34% 5064 1.5 2902, 56% 432, 8% 1806, 35% 5140 2.0 2882, 55% 402, 8% 1943, 37% 5227 2.4 2875, 55% 379, 7% 2013 , 38% 5267 2.8 2864, 54% 357, 7% 2086, 39% 5307 3.2 2855, 53% 335, 6% 2164, 40% 5354 Grossier + - Fin

Méthode pour la recherche de gènes orthologues OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Tests statistiques du regroupement Pour chaque famille La bonne topologie est-elle bien supportée? Et les autres? Comparaison de l’arbre des gènes avec l’arbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues

Tests pour les familles uniques Pour 4 espèces, il y a 3 topologies possibles C. glabrata Y. lipolytica D. hansenii K. lactis C C K C D D K Y D Y Y K Pour chaque famille unique: Alignement multiple (ClustalW). Calcul de la vraisemblance et du support pour les trois topologies (Tree-Puzzle). Famille 1 Famille 2 …….. Famille 2902 C>AYANE Y>ANNAN D>AYASD K>APAPP C>AYANE Y>ANNAN D>AYASD K>APAPP C>AYANE Y>ANNAN D>AYASD K>APAPP + / - + / - + / - + / - + / - + / - + / - + / - + / -

Tests pour les familles uniques Vrai signal positif: vrais orthologues Signal positif: la vraie topologie n’est pas rejetée les 2 autres sont rejetées Faux signal positif : artéfact de reconstruction (ex. attraction des longues branches) Vrai signal négatif: gènes paralogues Signal négatif: la vraie topologie est rejetée les 2 autres ne sont pas rejetées Faux signal négatif: artéfact de reconstruction Causé par: petits gènes peu de positions informatives Signal nul: Aucune topologies n’est rejetée

Tests pour les familles uniques Inflation Signal + Signal - Signal nul Autres Total 1.2 2176, 75% 8, 0.2% 550, 19% (439, 15%) 158 2892 1.5 2174, 75% 7, 0.2% 555, 19% (443, 15%) 166 2902 2.0 2155, 75% 9, 0.2% 533, 18% (420, 15%) 185 2882 2.4 2153, 75% 542, 19% (433, 15%) 173 2875 2.8 2146, 75% 547, 19% (437, 15%) 163 2864 3.2 2144, 75% 541, 19% (432, 15%) 162 2855 (): la bonne topologie est l’arbre le plus vraisemblable Tous les signaux sont stables selon la valeur d’inflation

In-paralogues et Out-Paralogues A) Groupe de in-paralogues B) Plusieurs out-paralogues K Y2 D Y1 C4 C2 C1 C2 est le représentant du groupe C2 D C3 C. glabrata : C2, C4 Y. lipolytica : Y1, Y2 D. hansenii : D K. lactis : K Y2 K Y1 C4 C) 4 familles uniques possibles C2, Y1, D, K C2, Y2, D, K C4, Y1, D, K C4, Y2, D, K

Tests pour les familles non-uniques Pour 4 espèces, il y a 3 topologies possibles. Pour chaque famille: Appliquer Phyml pour chercher Les groupes de in-paralogues; Et leurs représentants. Pour chaque quadruplet de gènes (famille unique) Alignement multiple; Calcul de la vraisemblance et du support. Famille 1 Famille 2 …….. Famille 2902 C>AYANE Y>ANNAN D>AYASD K>APAPP C>AYANE Y>ANNAN D>AYASD K>APAPP C>AYANE Y>ANNAN D>AYASD K>APAPP x n x n x n + / - + / - + / - x n + / - x n x n + / - + / - + / - + / - + / -

Tests pour les familles non-uniques Signal positif clair: Un seul quadruplet a un signal + : la vraie topologie n’est pas rejetée les 2 autres sont rejetées Tous les autres ont un signal – : la vraie topologie est rejetée les 2 autres ne sont pas rejetées Les vrais orthologues Les faux orthologues Signal positif non-clair: Au moins 2 quadruplets ont un signal + Tous les autres ont un signal – Lesquels sont les vrais orthologues? Signal négatif clair: Tous les quadruples ont un signal – Tous des faux orthologues Signal nul clair Tous les quadruples ont un signal nul

Tests pour les familles non-uniques Inflation Signal + clair Signal + non-clair Signal – clair Signal nul Autres Total 1.2 4, 0.8% 129, 28% 3, 0.6% 53, 12% 269 458 1.5 3, 0.7% 130, 30% 2, 0.5% 50, 12% 247 432 2.0 122, 30% 1, 0.2% 51, 13% 226 402 2.4 119, 31% 44, 12% 212 379 2.8 112, 31% 2, 0.6% 38, 11% 205 357 3.2 105, 31% 190 335 Tous les signaux sont stables selon la valeur d’inflation

432 Familles Non-Uniques (I=1.5) Espèces Nombre de groupes de in-paralogues Taille totale Taille moyenne C. glabrata 90 193 2.14 D. hansenii 60 165 2.75 K. lactis 15 32 2.13 Y. lipolytica 41 156 3.80 Duplication du génome Duplication en tandem Beaucoup plus de in-paralogues chez C. glabrata que chez K. lactis Espèces Nombre de familles avec plus d’un out-paralogues Nombre total de out-paralogues Moyenne C. glabrata 129 272 2.11 D. hansenii 149 324 2.17 K. lactis 78 164 2.10 Y. lipolytica 97 223 2.30 Seulement des in-paralogues Seulement des out-paralogues Avec les deux 110 253 69

Méthode pour la recherche de gènes orthologues OrthoMCL Groupes de gènes homologues: paralogues ou orthologues? Tests statistiques du regroupement Pour chaque famille La bonne topologie est-elle bien supportée? Et les autres? Comparaison de l’arbre des gènes avec l’arbre des espèces Appliquer à toutes les familles Pour différencier les orthologues des paralogues

Arbre des gènes vs. Arbre des espèces Les deux arbres peuvent être différents par cause de Duplications; Perte du vrai orthologue mais pas du faux orthologue; Transfert Horizontal de Gène (HGT). Arbre des gènes Arbre des espèces ≠ humain cheval chimpanzé humain chimpanzé cheval Que s’est-il passé ?

Arbre de réconciliation Raconte l’évolution du gène s’il n’y avait eu aucune perte Indique où il y a eu des événements de duplications Les HGTs ne sont pas considérés Un seul gène par espèce Duplication Lignée α Lignée β a-humain a-chimpanzé a-cheval β-humain b-chimpanzé b-cheval

Arbre de réconciliation Raconte l’évolution du gène s’il n’y avait eu aucune perte Indique où il y a eu des événements de duplications Les HGTs ne sont pas considérés Un seul gène par espèce Duplication Lignée α Lignée β a-humain a-cheval b-chimpanzé

Algorithme de réconciliation “Last Common Ancestor” Arbre des gènes Arbre des espèces humain cheval chimpanzé humain chimpanzé cheval Pour chaque nœud, calculer le LCA. Une duplication au nœud g est inférée si LCA (g) = LCA (g1) ou LCA (g) = LCA (g2) Pour chaque nœud g où il y a eu une duplication: créér deux copies du sous-arbre S(g) O (n^2) en temps et O(n) en espace

PERSPECTIVES

I- Autres tests statistiques Refaire les mêmes tests mais sur un espace phylogénétique plus large (11 levures). 34 459 425 topologies possibles; Ne considérer que la topologie des gènes (PHYML) celles des espèces. Étudier les différentes raisons qui pourraient expliquer les signaux nuls: le nombre moyen de positions par gène; la longueur de l’arbre; le nombre de positions informatives.

II- Peu de signal phylogénétique Le manque de signal phylogénétique est un problème fréquent (19% des familles sans signal). Algorithme de type “Branch and Bound”; Pour une faible valeur de support: Ne considérer que les “clades” qui sont supportés par une valeur > seuil. Calculer une borne minimale sur le coût de réconciliation avec ce clade. Considérer trois seuils: 50%, 70% et 95%.

III- Algorithme probabiliste Une duplication est plus probable sur une longue branche que sur une courte branche. Toutes les méthodes de réconciliation prennent pour acquis que les duplications sont équiprobables pour toutes les branches Algorithme probabiliste Selon les données, évaluer les probabilités de duplications pour chaque branche. Appliquer un algorithme de type “Expectation Maximisation” ou Bayésien.

IV- Validation d’une réconciliation Validation de type “bootstrap” d’une famille de n gènes Répéter pour chaque n gènes Créér une Pseudo Famille en retirant le gène Appliquer la réconciliation Calculer la distance entre la Pseudo et la Vraie réconciliation Validation externe: Étudier la conservation du voisinage chez les gènes orthologues La synténie est bien conservée chez les levures

REMERCIEMENTS Génome Québec Hervé Philippe Cedric Chauve Sylvie Hamel Olivier Jeffroy