La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Nadia El- Mabrouk Inférence de génomes ancestraux.

Présentations similaires


Présentation au sujet: "Nadia El- Mabrouk Inférence de génomes ancestraux."— Transcription de la présentation:

1 Nadia El- Mabrouk Inférence de génomes ancestraux

2 Étant donné: Un ensemble despèces actuelles Un arbre de phylogénie Une représentation des génomes actuels sous forme dordre de gènes (ou de markeurs, ou de synténies…) Trouver une configuration des génomes ancestraux (aux nœuds internes de larbre). ? ? ? E1E1 E2E2 E3E3 E4E4

3 a b a c a b a –a –b c a b a b a c b c a b a –b –c c a b a c a b a b a c b c a b a c b E1E1 E2E2 E3E3 E4E4

4 Méthodes Approche globale: Basée sur la notion de distance (réarrangement, breakpoint, DCJ…). Trouver les génomes ancestraux qui permettent de minimiser la somme des distances des arêtes de larbre. M. Blanchette et D. Sankoff 1999;; Moret et al. 2002; Bourque et Pevzner Approche locale: (1) Inférer des adjacences ancestrales; (2) Chaîner les adjacences de façon optimale. Généralement abouti à la formation de CAR (Contiguous Ancestral Regions) plutôt que de génomes entiers. Ma et al. 2007; Chauve et Tannier 2008; Bertrand et al. 2010…

5 Approche globale Méthode générale de Sankoff 1996 Différentes versions ont été publiées: BPAnalysis de Blanchette et Sankoff, GRAPPA de Moret… ) Méthode générale: Commencer par un ordre initial « raisonnable » des nœuds internes; Assigner un nouvel ordre à chaque nœud interne, par un calcul de la médiane des trois génomes adjacents au nœud considéré; Continuer un nombre fixé de fois ou jusquà convergence. Étant donnée une distance d et trois génomes G1, G2, G3, la médiane des trois génomes est un génome G minimisant d(G,G1)+d(G,G2)+d(G,G3)

6 ABC X W ABC X Y ABC X Y Y WW Amélioration de X Amélioration de Y

7 ABC X W ABC X Y ABC X Y Y WW Amélioration de X Amélioration de Y A B CDEFGH I1I1 I4I4 I2I2 I3I3 I6I6 I5I5 I1I1 I4I4 I3I3 I5I5 I2I2 I6I6 I7I7 I7I7

8 Calcul de la médiane Même contenu en gènes, gènes uniques, distance des points de cassure (BP): NP-difficile pour des permutations signées ou non, circulaires (Peer et Shamir 1998) ou linéaires (Bryant 1998) Meilleures heuristiques bornées: 7/6 pour permutations signées (Peer et Shamir 2000) et 5/3 pour permutations non signées (Caprara 2002) Algorithme exact proposé par Blanchette et Sankoff,1998: Réduction au problème du commis voyageur. Étendu à des génomes contenant des gènes différents (Sankoff et Bryant 2000).

9 Calcul de la médiane Algorithme de Blanchette et Sankoff 1998 A: B: C: Poids dune arête: nb de génomes où les gènes ne sont pas voisins. Trouver un chemin de poids minimal passant par chaque sommet une unique fois Problème du commis voyageur (Traveling Salesman Problem, ou TSP). Peut-être résolu en temps O(n 2 2 n ). Mais plusieurs heuristiques efficaces existent

10 Calcul de la médiane Distance dinversion Étudié uniquement dans le cas de permutations signées. Introduit par Sankoff et Kececioglu, 1996 NP-difficile, même pour 3 génomes (Caprara 1999) Caprara 2001 combine les stratégies branch-and-bound et divide-and-conquere sur une généralisation du graphe des BP. Moret et. al 2001 recherchent lespace des réarrangements par une stratégie branch-and-bound. Implémenté dans GRAPPA. Bourque et Pevzner 2002 utilisent une stratégie « gready »

11 Effectuer les inversions qui ``rapprochent du génome ancestral. Soit G1, G2 G3 trois génomes. Une bonne inversion sur G1 est une inversion qui réduit la distance dinversion de G1 à G2 ET de G1 à G3, i.e. d( G1, G2) + d(G1, G3)) –(d(G1., G2) + d(G1., G3)) = 2 G1G1 G2G2 G3G3 M Calcul de la médiane Algorithme de Bourque et Pevzner (MGR)

12 Effectuer des inversions successivement sur G1, G2 et G3, jusquà arriver à une seule et même permutation M. Les triplets qui peuvent être résolus en neffectuant que des bonnes inversions sont appelés « triplets parfaits » Afin daugmenter les chances de ne pas arriver à une étape sans bonne inversions, la stratégie suivante est utilisée: À chaque bonne étape, essayer toutes les bonnes inversions, et effectuer celle qui donne lieu au plus de bonnes inversions à létape suivante. Dans le cas où il ny a pas de bonne inversion, effectuer une recherche de profondeur k dans lespace de recherche de toutes les inversions possibles. Prendre la meilleure suite dinversions. Calcul de la médiane Algorithme de Bourque et Pevzner (MGR)

13 Problèmes de lapproche globale La convergence de lalgorithme dépend grandement de linitialisation des nœuds internes. Blanchette et Sankoff proposent 3 initialisations possibles, basées sur la résolution du TSP à chaque nœud. Moret et al proposent 6 autres procédures. Lefficacité de lalgorithme dépend grandement de la résolution de la médiane, qui est un problème NP, autant pour la distance de BP que pour la distance de réarrangement, et même la distance DCJ Problème principal soulevé par Gordon et al et Sankoff 2009: Grand nombre de solutions possibles « équivalentes » du point de vue de la distance.

14 Approche locale Approche générale: Inférer les gènes ancestraux Inférer un ensemble de conservation ancestrales de synténie (dordre) Chaîner les synténies ancestrales pour former des CARs (Contiguous Ancestral Regions). Synténies les plus simples à considérées: adjacences conservées.

15 Approche locale Ma et al Problème: Inférer le génome ancestral à un nœud de spéciation donné. Ma J et al. Genome Res. 2006;16: Position of the Boreoeutherian ancestor.

16 Approche locale Ma et al Trouver pour, chaque gène, le scénario maximisant le nombre dadjacences conservées dans larbre. xb xaxaxa

17 Approche locale Ma et al Inférer le contenu de chaque nœud ancestral. Soit g un gène et N le LCA de toutes les feuilles contenant g. Alors affecter g à tous les nœuds sur un chemin de N à une feuille contenant g.

18 Approche locale Ma et al Inférer lensemble P u (g) des adjacences ancestrales (gauches et droites) potentielles de chaque gène g au nœud u. Méthode similaire à lalgorithme de Fitch. Procéder des feuilles vers la racine de larbre de la façon suivante: Si u est une feuille, alors P u (g) est simplement ladjacence observée de g dans le génome associé à u; Sinon, soient v et w les fils de u. Si lintersection de P v (g) et P w (g) est vide, alors P u (g) est lunion des deux ensembles Sinon, P u (g) est lintersection de P v (g) et P w (g)

19 Approche locale Ma et al Adjacences ancestrales potentielles de chaque gène g à chaque nœud de larbre gb gagagc P(g) = {a,c} P(g) = {a,b} P(g) = {a}

20 Approche locale Ma et al Propager linformation de la racine au nœud dintérêt dans larbre de la façon suivante. Soit une branche (O,A) où O est le père de A. Pour tout gène g dans A: Si P O (g) et P A (g) sont dintersection non vide, alors remplacer P A (g) par cette intersection; Sinon, P A (g) reste inchangé.

21 Approche locale Ma et al Propager linformation de la racine au nœud dintérêt dans larbre de la façon suivante. gb gagagc P(g) = {a,c} P(g) = {a,b} P(g) = {a}

22 Approche locale Ma et al Propager linformation de la racine au nœud dintérêt dans larbre de la façon suivante. gb gagagc P(g) = {a,c} P(g) = {a} Suppression de b

23 Approche locale Ma et al Un poids est associé à chaque adjacence. Calculé récursivement, de bas en haut dans larbre. g a c LR W A (g,a) W A (g,c) D (A,L) A D (A,R) W L (g,a) W R (g,a) Le poids WA(g,a) dune adjacence ( ga ) au nœud A est calculé en fonction des valeurs WL(g,a) et WR(g,a) aux de la même adj. aux nœuds fils L et R de A, et des longueurs de branches D(A,L) et D(A,R). Hypothèse considérée: une adjacence a plus de chance dêtre cassée sur les longues branches.

24 Approche locale Ma et al Pour retrouver les CARs encestraux, trouver un ensemble de chemins recouvrant de poids maximum.

25 Approche locale Bertrand et al Lalgorithme a été conçut pour inférer des génomes pré- dupliqués ancestraux. Ici, je présente lidée, sans duplications de génomes. 1. Inférer le contenu en gène des génomes ancestraux, comme dans Ma et al. 2. Pour chaque nœud interne x et chaque gène g, on considère TOUTES les adjacences droites et gauches potentielles de g, i.e. toutes celles observées aux feuilles.

26 Approche locale Bertrand et al Considérer TOUTES les adjacences à chaque nœud. gb gagagc g b a c g b a c g b a c

27 Approche locale Bertrand et al Attribuer un poids à chaque adjacence potentielle ancestrale par une méthode rigoureuse. A chaque nœud interne x et pour chaque gène g, le poids attribué à une adjacence (droite ou gauche) (ga) représente le nombre maximum dadjacences conservées de g dans larbre si g est adjacent à a au nœud x.

28 Approche locale Bertrand et al Attribuer un poids à chaque adjacence ancestrale. gb gagagc g b a c

29 Approche locale Bertrand et al Attribuer un poids à chaque adjacence ancestrale. gb gagagc g b a c = 4 ga ga

30 Approche locale Bertrand et al Attribuer un poids à chaque adjacence ancestrale. gb gagagc g b a c = 3 gb gb

31 Approche locale Bertrand et al Attribuer un poids à chaque adjacence ancestrale. gb gagagc g b a c = 2 ga ga

32 Approche locale Bertrand et al Attribuer un poids à chaque adjacence ancestrale. Par programmation dynamique w u v p adjCons (a, X, u) : Nb dadj. cons. de a dans T si a est adj. à X au noeud u. Calculé à partir de: - L below ( u,v,a,X): Nbre max dadj. conservées de a sur la branche (u,v) et le sous-arbre de racine v, sous la condition que a est adj. à X au noeud u; - L below ( u,w,a,X); - L above ( p,u,a,X): Nbre max dadj. conservées de a sur la branche (p,u) et le sous arbre de racine p, sous la condition que a est adj. à X au noeud u;

33 Approche locale Bertrand et al Construction des CARs, similaire à Ma et al.: Retrouver un ensemble de chemins recouvrant de poids minimum. Algorithme glouton; Modélisation du problème sous la forme du problème du voyageur de commerce (TSP).

34 Forces et faiblesses de lapproche locale Lapproche permet, pour chaque gène, de maximiser son nombre dadjacences conservées dans larbre. Mais le génome inféré nest pas garanti dêtre celui qui maximise les adjacences. Généralement ne parvient pas à former des chromosomes entiers, seulement des « synténies ancestrales » (CARs) Ne considère que les adjacences « observées » ou fortement supportées par les données. En conclusion, donne moins dinformations que lapproche globale, mais prédictions plus sûres.


Télécharger ppt "Nadia El- Mabrouk Inférence de génomes ancestraux."

Présentations similaires


Annonces Google