Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence Artificielle (I2A) Stage co-encadré par : Sèverine Bérard et Éric Tannier
Détection de co-évolution de gènes 12/09/2011 2/40 Présentation du sujet Bioinformatique Gène : portion dADN qui code une protéine. Adjacence : relation entre 2 gènes Génome : ensemble dadjacences A1A1 AxAx A2A2 A3A3 A4A4
Détection de co-évolution de gènes 12/09/2011 3/40 Présentation du sujet Arbres de gènes Données sur les adjacences de gènes des espèces actuelles But : histoire évolutive des adjacences Intérêt : reconstruction des génomes ancestraux
Détection de co-évolution de gènes 12/09/2011 4/40 Plan 1. Présentation de la problématique au travers dexemples 2. Formalisation 3. Extraits de lalgorithme 4. Application à des données réelles 5. Conclusion et perspectives
Détection de co-évolution de gènes 12/09/2011 5/40 Définitions Une adjacence entre 2 gènes A 1 et A 2 se note A 1 ~A 2 ou A 2 ~A 1 (symétrie) Arbre phylogénétique : graphe connexe non cyclique, orienté Arbre de gènes Arbre despèces Arbre dadjacences Forêt : ensemble darbres
Détection de co-évolution de gènes 12/09/2011 6/40 Exemple 1 Spéciation Liste dadjacence L : A 1 ~A 2, B 1 ~B 2 et C 1 ~C 2 G 1 ~G 2 E 1 ~E 2 A 1 ~A 2 B 1 ~B 2 C 1 ~C 2 F 1 ~F 2 Création [Fitch]
Détection de co-évolution de gènes 12/09/2011 7/40 Exemple 2 Duplication de gène Perte de gène Liste dadjacence L : B 1 ~B 5, B 2 ~B 4 et C 1 ~C 2 B 1 ~B 5 B 2 ~B 4 C 1 ~C 2 D 1 ~D 2 B 3 ~B 6 C 1 ~C 4 F 1 ~F 2 E 1 ~E 2 G 1 ~G 2 A 1 ~A 2 X Perte dadjacence Duplication dadjacence Cassure dadjacence X Création
Détection de co-évolution de gènes 12/09/2011 8/40 1. Présentation de la problématique au travers dexemples 2. Formalisation 3. Extraits de lalgorithme 4. Application à des données réelles 5. Conclusion et perspectives Plan
Détection de co-évolution de gènes 12/09/2011 9/40 Événements évolutifs Spéciation Coût : 0 Création dadjacence Coût : Cr Duplication dadjacence Coût : D A 2*D G Duplication de gène Coût : D G Perte de gène Coût : P G Perte dadjacence Coût : P A 2*P G Cassure dadjacence Coût : Ca X Espèces Gènes Adjacences Gènes Adjacences Adjacences
Détection de co-évolution de gènes 12/09/ /40 Arbre dadjacences Feuilles : Adjacence actuelle Perte dadjacence Perte de gène Cassure Nœuds internes : Nœud de spéciation Nœud de duplication dadjacence Nœud de duplication de gène Création dadjacence Remarque : un arbre dadjacences (ou une forêt darbres dadjacences) est associé(e) à un ou plusieurs arbres de gènes et à une liste dadjacences.
Détection de co-évolution de gènes 12/09/ /40 Adjacence Actuelle A 1 ~A 2 A1A1 A2A2
Détection de co-évolution de gènes 12/09/ /40 Nœud de Duplication de Gène A 1 ~A 2 A 3 ~A 2 A1A1 A2A2 A1A1 A2A2 A1A1 A2A2 A3A3 A4A4 A3A3 A4A4 A3A3 A4A4 A5A5 A6A6 B1B1 C1C1
Détection de co-évolution de gènes 12/09/ /40 Nœud de Création
Détection de co-évolution de gènes 12/09/ /40 Problématique Limitation : 2 arbres de gènes dont les racines sont de la même espèce Adjacences entre 2 arbres de gènes différents Données : 2 arbres de gènes G 1 et G 2 Une liste dadjacences L Un arbre des espèces S Solution : forêt darbres dadjacences associés à G 1, G 2 et L de coût différentiel minimum. Reconstruire lhistoire évolutive des adjacences à partir des arbres de gènes et des adjacences actuelles.
Détection de co-évolution de gènes 12/09/ /40 Exemple
Détection de co-évolution de gènes 12/09/ /40 Coûts Coût dun arbre : somme des coûts des nœuds de larbre. Coût dune forêt : somme des coûts des arbres de la forêt. Coût de G 1 =DGDG + D G + P G = 2*D G + 2*P G
Détection de co-évolution de gènes 12/09/ /40 Coûts Coût maximum : somme des coûts des arbres de gènes G 1 et G 2 et du coût de création des adjacences de L. Coût maximum =Coût de G 1 + Coût de G 2 + Coût de L = (2*D G + 2*P G ) + D G + 4*Cr
Détection de co-évolution de gènes 12/09/ /40 Coûts Coût dun arbre dadjacence : tous les événements sur les adjacences + une partie des événements sur les gènes Ce quon cherche à minimiser : tous les événements sur les adjacences + tous les événements sur les gènes = coût différentiel + coût maximum Coût différentiel dun arbre dadjacence = somme des coûts différentiels des nœuds : Spéciation : 0 Duplication de Gène : 0 Perte de Gène : 0 Duplication dAdjacence : -2*D G +D A Perte dadjacence : -2*P G +P A Création : +Cr Cassure : +Ca Adjacence actuelle : -Cr
Détection de co-évolution de gènes 12/09/ /40 Coûts +Cr +D A -2*D G Cr Coût diff. =+Cr+D A - 2*D G Cr - Cr - Cr = D A - 2*D G - 2*Cr
Détection de co-évolution de gènes 12/09/ /40 Coûts Coût de la solution : somme du coût maximum et du coût différentiel de la forêt darbres dadjacences qui la compose. Coût de la solution =Coût max = (3*D G + 2*P G + 4*Cr) + Coût diff. de G 1 + Coût diff. de G 2 = D G + D A + 2*P G + 2*Cr + (D A - 2*D G - 2*Cr)+ (Cr – Cr)
Détection de co-évolution de gènes 12/09/ /40 1. Présentation de la problématique au travers dexemples 2. Formalisation 3. Extraits de lalgorithme 4. Application à des données réelles 5. Conclusion et perspectives Plan
Détection de co-évolution de gènes 12/09/ /40 Algorithme de Fitch , Présence ou absence dadjacence Fonction de coût c 1 et c 0 Appel aux racines
Détection de co-évolution de gènes 12/09/ /40 Algorithmes de calcul de coûts différentiels A 1 G 1 et A 2 G 2 G 1 (A 1 ), G 2 (A 2 ) sous-arbre de racine A 1 ou A 2. L(A 1, A 2 ) adjacences entre descendants de A 1 et A 2. c 1 (A 1, A 2 ) calcule le coût différentiel minimum dune foret darbres dadjacences associée à G 1 (A 1 ), G 2 (A 2 ) et L(A 1, A 2 ), forêt dans laquelle il existe le nœud de création A 1 ~A 2 ( - Cr ) c 0 (A 1, A 2 ) calcule le coût différentiel minimum dune foret darbres dadjacences associée à G 1 (A 1 ), G 2 (A 2 ) et L(A 1, A 2 ), forêt dans laquelle il nexiste pas le nœud de création A 1 ~A 2 ( sauf si A 1 ~A 2 L )
Détection de co-évolution de gènes 12/09/ /40 Algorithmes de calcul de coûts A 2 A 1 GèneActuelPerteDuplicationSpéciation GèneActuel Cas ACas CCas DX Perte Cas BCas C Duplication Cas GCas F Spéciation Cas E c 1 et c 0 sont 2 algorithmes « répartiteurs »
Détection de co-évolution de gènes 12/09/ /40 Cas darrêt Cas A : Gène Actuel/Gène Actuel Cas B : Perte/Perte Cas C : Perte/Gène Actuel ou Duplication ou Spéciation c1GAGA(n1,n2) = Cr-Cr-Cr si n1~n2 L, Cr+Ca-Cr sinon c0GAGA(n1,n2) = Cr-Cr si n1~n2 L, 0 sinon c1PP(n1,n2) = P A -2*P G c0PP(n1,n2) = 0 c1PGDS(n1,n2) = 0 c0PGDS(n1,n2) = 0 n 1 ~n 2 L C 1 GAGA(n 1, n 2 ) n1~n2 C 0 GAGA(n 1, n 2 ) n1~n2 Ø X
Détection de co-évolution de gènes 12/09/ /40 Cas récursif (D) Pseudo cas darrêt
Détection de co-évolution de gènes 12/09/ /40 Cas récursif (D) Pseudo cas darrêt A2A2 A1A1 A3A3 A4A4 A 1 ~A 2 A 1 ~A 3 A 1 ~A 2 A 1 ~A 4 ou
Détection de co-évolution de gènes 12/09/ /40 Cas récursifs (E, F et G)
Détection de co-évolution de gènes 12/09/ /40 Cas récursifs (E, F et G)
Détection de co-évolution de gènes 12/09/ /40 Cas récursifs (E, F et G)
Détection de co-évolution de gènes 12/09/ /40 Preuve darrêt Pour tous couples de nœuds n 1 G 1 et n 2 G 2, les algorithmes c 1 et c 0 sarrêtent. Propriété : Si c 1 ou c 0 fait appel a : cas A, B ou C : arrêt cas D, E, F ou G : récursivité sur un des 8 couples de nœuds suivants : (n 1, fg(n 2 ) ou fd(n 2 )), (fg(n 1 ) ou fd(n 1 ), n 2 ), (fg(n 1 ) ou fd(n 1 ), fg(n 2 ) ou fd(n 2 )) Preuve :
Détection de co-évolution de gènes 12/09/ /40 Preuve doptimalité Cas A, B et C : cas simples sur des feuilles Cas D (Gène Actuel / Duplication) : preuve par récurrence Cas E, F et G preuve par récurrence sur les 3 cas en même temps
Détection de co-évolution de gènes 12/09/ /40 Algorithme DéCo DéCo(G 1, G 2, S, L) { renvoyer(coût maximum + min(c 1 (racine(G 1 ), racine(G 2 )), c 0 (racine(G 1 ), racine(G 2 )))) }
Détection de co-évolution de gènes 12/09/ /40 Complexité Algorithmes de calcul des coûts (cas A à G) : programmation dynamique => O (n*m) Algorithme DéCo a donc une complexité totale en O (n*m) : complexité quadratique
Détection de co-évolution de gènes 12/09/ /40 1. Présentation de la problématique au travers dexemples 2. Formalisation 3. Extraits de lalgorithme 4. Application aux données réelles 5. Conclusion et perspectives Plan
Détection de co-évolution de gènes 12/09/ /40 Données réelles
Détection de co-évolution de gènes 12/09/ /40 Données réelles
Détection de co-évolution de gènes 12/09/ /40 1. Présentation de la problématique au travers dexemples 2. Formalisation 3. Extraits de lalgorithme 4. Application aux données réelles 5. Conclusion et perspectives Plan
Détection de co-évolution de gènes 12/09/ /40 Conclusion Bilan Appropriation du sujet, bibliographie Formalisation et propriétés Algorithme DéCo sur papier Test sur des données construites Code Preuves de certaines propriétés
Détection de co-évolution de gènes 12/09/ /40 Perspectives Prendre en compte plus de 2 arbres de gènes Discriminer parmi les solutions de coût optimal celles qui sont biologiquement plus réalistes
Détection de co-évolution de gènes 12/09/ /40 Nœud de Spéciation
Détection de co-évolution de gènes 12/09/ /40 Nœud de Duplication dAdjacence
Détection de co-évolution de gènes 12/09/ /40 Perte dAdjacence
Détection de co-évolution de gènes 12/09/ /40 Perte de Gène
Détection de co-évolution de gènes 12/09/ /40 Cassure
Détection de co-évolution de gènes 12/09/ /40 Prétraitement Parser le fichier de données Réconcilier les arbres de gènes avec larbre des espèces Calculer le coût maximum