Inférence de génomes ancestraux

Slides:



Advertisements
Présentations similaires
La recherche de chemin optimal
Advertisements

Algorithmes et structures de données avancés
Voyager à l’aide de l’optimisation combinatoire Simon de Givry
Métaheuristiques pour l’optimisation combinatoire
Cours d’Algorithmique
Cours d’Algorithmique
Cours d'algorithmique 11 / Intranet 1 9 janvier 2006 Cours dAlgorithmique N P - complétude.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Génération de colonnes
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Plus courts chemins On présente dans ce chapitre un problème typique de cheminement dans les graphes : la recherche d'un plus court chemin entre deux sommets.
Les jeux (méthodes min-max et -)
Les structures de données arborescentes
Algorithmes Branch & Bound
MinMax et Alpha-Beta.
Heuristiques A. Introduction B. Recherche d ’une branche
Programmation linéaire
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
La segmentation
Alignement de séquences (suite)
Pr ZEGOUR Djamel Eddine
Les fichiers indexés (Les B-arbres)
LA STRUCTURE D'ARBRE-B Institut National des Sciences Appliquées – Rouen Département Architecture des Systèmes d’Information.
LES ARBRES IUP 2 Génie Informatique
Structures de données IFT-2000
Coloration gap sommet identifiante de graphes
IFT Complexité et NP-complétude
Programmation linéaire en nombres entiers Algorithme de la subdivision successive («Branch and Bound Algorithm»)
Courbes de Bézier.
Génération d’un segment de droite
Algorithmes d ’approximation
Deux méthodes incrémentales pour le maintien dun arbre de connexion Nicolas Thibault Christian Laforest
Programmation linéaire et Recherche opérationnelle
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
21 février 2006Cours de graphes 2 - Intranet1 Cours de graphes Les plus courts chemins, les chemins les plus légers : à laide de la vague, à laide de la.
Programmation dynamique
2. Algorithme de Recherche Tabou
Structures de données IFT-2000
8INF8061 Conception et analyse des algorithmes Comment comparer deux problèmes?
Pour le chemin le plus court pour tous les couples
Programmation linéaire en nombres entiers : les méthodes de troncature

Génomique comparative
Heuristiques C. Recherche de la meilleure branche . Branch And Bound
Coupes efficaces pour la relaxation lagrangienne
Graphes 1. Introduction 2. Définition 3. Représentation mémoire
les méthodes de recherche locale
Programmation dynamique
Electrocinétique. Chap.4 CHAPITRE 4
Programmation linéaire en nombres entiers
Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.
Algorithmes Branch & Bound
Arbres binaires et tables de hachage
I.A. Session 2009/2010 E.P.S.I. Bordeaux – C.S.I.I – 2 ème Année – Cours n°6.
Recherche exacte de motifs
Modèles Mathématiques et représentation discrètes pour la description des images couleur Luc Brun.
Exploration systématique de graphes
Alignement de génomes. MUMmer (1999) Utilise l’arbre des suffixe. Basé sur le principe de « Maximum Unique Match » (MUM). Étant donné deux génomes A et.
Recherche de motifs par projections aléatoires
Structures de données avancées : Variantes des B arbres
Ajouts et retraits dans un arbre de connexion Nicolas Thibault et Christian Laforest, Équipe OPAL Laboratoire IBISC (regroupement LaMI et LSC), Évry 8.
Le Jeu et l’intelligence artificielle
Résolution des équations différentielles
Problème de voyageur de commerce
CSI25101 Tri Plus efficace. CSI25102 Tri récursif Le tri récursif divise les données de grande taille en deux presque moitiés et est appelé récursivement.
CSI2510 Structures de données et algorithmes Plus court chemin
. Le B-Arbre.
Algorithmes Branch & Bound Module IAD/RP/RO Master d ’informatique Paris 6 Philippe Chrétienne.
Techniques d'Optimisation Master
1 UE Intro. Optimisation L3 INFO UPSud II. Programmation linéaire en variables entières (ou mixtes)
Transcription de la présentation:

Inférence de génomes ancestraux Nadia El- Mabrouk

Étant donné: Un ensemble d’espèces actuelles Un arbre de phylogénie Une représentation des génomes actuels sous forme d’ordre de gènes (ou de markeurs, ou de synténies…) Trouver une configuration des génomes ancestraux (aux nœuds internes de l’arbre). ? ? ? E1 E2 E3 E4

E1 E2 E3 E4 a b a c b a b a c a b a b a c b c a b a c a b a –a –b c a b a b a c b c a b a –b –c c E1 E2 E3 E4

Méthodes Approche globale: Basée sur la notion de distance (réarrangement, breakpoint, DCJ…). Trouver les génomes ancestraux qui permettent de minimiser la somme des distances des arêtes de l’arbre. M. Blanchette et D. Sankoff 1999;; Moret et al. 2002; Bourque et Pevzner 2002.. Approche locale: (1) Inférer des adjacences ancestrales; (2) Chaîner les adjacences de façon optimale. Généralement abouti à la formation de CAR (Contiguous Ancestral Regions) plutôt que de génomes entiers. Ma et al. 2007; Chauve et Tannier 2008; Bertrand et al. 2010…

Approche globale Méthode générale de Sankoff 1996 Différentes versions ont été publiées: BPAnalysis de Blanchette et Sankoff, GRAPPA de Moret…) Méthode générale: Commencer par un ordre initial « raisonnable » des nœuds internes; Assigner un nouvel ordre à chaque nœud interne, par un calcul de la médiane des trois génomes adjacents au nœud considéré; Continuer un nombre fixé de fois ou jusqu’à convergence. Étant donnée une distance d et trois génomes G1, G2, G3, la médiane des trois génomes est un génome G minimisant d(G,G1)+d(G,G2)+d(G,G3)

W W W Y Y Y X X X A B C A B C A B C Amélioration de X Amélioration de Y X X X A B C A B C A B C

W W W Y Y Y X X X A B C A B C A B C I’7 I7 I6 I’6 I4 I’4 I5 I’5 I’2 I2 Amélioration de X Amélioration de Y X X X A B C A B C A B C I’7 I7 I6 I’6 I4 I’4 I5 I’5 I’2 I2 I’1 I1 I’3 I3 A B C D E F G H

Calcul de la médiane Même contenu en gènes, gènes uniques, distance des points de cassure (BP): NP-difficile pour des permutations signées ou non, circulaires (Pe’er et Shamir 1998) ou linéaires (Bryant 1998) Meilleures heuristiques bornées: 7/6 pour permutations signées (Pe’er et Shamir 2000) et 5/3 pour permutations non signées (Caprara 2002) Algorithme exact proposé par Blanchette et Sankoff,1998: Réduction au problème du commis voyageur. Étendu à des génomes contenant des gènes différents (Sankoff et Bryant 2000).

Calcul de la médiane Algorithme de Blanchette et Sankoff 1998 2 5 2 5 2 2 2 1 1 1 1 3 3 4 4 1 1 Poids d’une arête: nb de génomes où les gènes ne sont pas voisins. Trouver un chemin de poids minimal passant par chaque sommet une unique fois Problème du commis voyageur (Traveling Salesman Problem, ou TSP). Peut-être résolu en temps O(n2 2n). Mais plusieurs heuristiques efficaces existent.

Calcul de la médiane Distance d’inversion Étudié uniquement dans le cas de permutations signées. Introduit par Sankoff et Kececioglu, 1996 NP-difficile, même pour 3 génomes (Caprara 1999) Caprara 2001 combine les stratégies branch-and-bound et divide-and-conquere sur une généralisation du graphe des BP. Moret et. al 2001 recherchent l’espace des réarrangements par une stratégie branch-and-bound. Implémenté dans GRAPPA. Bourque et Pevzner 2002 utilisent une stratégie « gready »

Calcul de la médiane Algorithme de Bourque et Pevzner (MGR) Effectuer les inversions qui ``rapprochent’’ du génome ancestral. Soit G1, G2 G3 trois génomes. Une bonne inversion r sur G1 est une inversion qui réduit la distance d’inversion de G1 à G2 ET de G1 à G3, i.e. D(r) = (d(G1, G2) + d(G1, G3)) –(d(G1. r , G2) + d(G1. r, G3)) = 2 G1 M G2 G3

Calcul de la médiane Algorithme de Bourque et Pevzner (MGR) Effectuer des inversions successivement sur G1, G2 et G3, jusqu’à arriver à une seule et même permutation M. Les triplets qui peuvent être résolus en n’effectuant que des bonnes inversions sont appelés « triplets parfaits » Afin d’augmenter les chances de ne pas arriver à une étape sans bonne inversions, la stratégie suivante est utilisée: À chaque ‘’bonne’’ étape, essayer toutes les bonnes inversions, et effectuer celle qui donne lieu au plus de bonnes inversions à l’étape suivante. Dans le cas où il n’y a pas de bonne inversion, effectuer une recherche de profondeur k dans l’espace de recherche de toutes les inversions possibles. Prendre la ‘’meilleure’’ suite d’inversions.

Problèmes de l’approche globale La convergence de l’algorithme dépend grandement de l’initialisation des nœuds internes. Blanchette et Sankoff proposent 3 initialisations possibles, basées sur la résolution du TSP à chaque nœud. Moret et al. 2001 proposent 6 autres procédures. L’efficacité de l’algorithme dépend grandement de la résolution de la médiane, qui est un problème NP, autant pour la distance de BP que pour la distance de réarrangement, et même la distance DCJ Problème principal soulevé par Gordon et al. 2009 et Sankoff 2009: Grand nombre de solutions possibles « équivalentes » du point de vue de la distance.

Approche locale Approche générale: Inférer les gènes ancestraux Inférer un ensemble de conservation ancestrales de synténie (d’ordre) Chaîner les synténies ancestrales pour former des CARs (Contiguous Ancestral Regions). Synténies les plus simples à considérées: adjacences conservées.

Approche locale Ma et al. 2006 Problème: Inférer le génome ancestral à un nœud de spéciation donné. Ma J et al. Genome Res. 2006;16:1557-1565 Position of the Boreoeutherian ancestor.

Approche locale Ma et al. 2006 Trouver pour, chaque gène, le scénario maximisant le nombre d’adjacences conservées dans l’arbre. x b x a x a x a

Approche locale Ma et al. 2006 Inférer le contenu de chaque nœud ancestral. Soit g un gène et N le LCA de toutes les feuilles contenant g. Alors affecter g à tous les nœuds sur un chemin de N à une feuille contenant g.

Approche locale Ma et al. 2006 Inférer l’ensemble Pu (g) des adjacences ancestrales (gauches et droites) potentielles de chaque gène g au nœud u. Méthode similaire à l’algorithme de Fitch. Procéder des feuilles vers la racine de l’arbre de la façon suivante: Si u est une feuille, alors Pu(g) est simplement l’adjacence observée de g dans le génome associé à u; Sinon, soient v et w les fils de u. Si l’intersection de Pv(g) et Pw(g) est vide, alors Pu(g) est l’union des deux ensembles Sinon, Pu(g) est l’intersection de Pv(g) et Pw(g)

Approche locale Ma et al. 2006 Adjacences ancestrales potentielles de chaque gène g à chaque nœud de l’arbre P(g) = {a,c} P(g) = {a} P(g) = {a,b} g b g a g a g c

Approche locale Ma et al. 2006 Propager l’information de la racine au nœud d’intérêt dans l’arbre de la façon suivante. Soit une branche (O,A) où O est le père de A. Pour tout gène g dans A: Si PO(g) et PA(g) sont d’intersection non vide, alors remplacer PA(g) par cette intersection; Sinon, PA(g) reste inchangé.

Approche locale Ma et al. 2006 Propager l’information de la racine au nœud d’intérêt dans l’arbre de la façon suivante. P(g) = {a,c} P(g) = {a} P(g) = {a,b} g b g a g a g c

Approche locale Ma et al. 2006 Propager l’information de la racine au nœud d’intérêt dans l’arbre de la façon suivante. Suppression de b P(g) = {a,c} P(g) = {a} P(g) = {a} g b g a g a g c

Approche locale Ma et al. 2006 Un poids est associé à chaque adjacence. Calculé récursivement, de bas en haut dans l’arbre. Le poids WA(g,a) d’une adjacence (ga) au nœud A est calculé en fonction des valeurs WL(g,a) et WR(g,a) aux de la même adj. aux nœuds fils L et R de A, et des longueurs de branches D(A,L) et D(A,R). Hypothèse considérée: une adjacence a plus de chance d’être cassée sur les longues branches. a WA(g,a) A g c WA(g,c) D (A,L) D (A,R) L R WR(g,a) WL(g,a)

Approche locale Ma et al. 2006 Pour retrouver les CARs encestraux, trouver un ensemble de chemins recouvrant de poids maximum.

Approche locale Bertrand et al. 2010 L’algorithme a été conçut pour inférer des génomes pré- dupliqués ancestraux. Ici, je présente l’idée, sans duplications de génomes. Inférer le contenu en gène des génomes ancestraux, comme dans Ma et al. Pour chaque nœud interne x et chaque gène g, on considère TOUTES les adjacences droites et gauches potentielles de g, i.e. toutes celles observées aux feuilles.

Approche locale Bertrand et al. 2010 Considérer TOUTES les adjacences à chaque nœud. a g b a g c b c a g b c g b g a g a g c

Approche locale Bertrand et al. 2010 Attribuer un poids à chaque adjacence potentielle ancestrale par une méthode rigoureuse. A chaque nœud interne x et pour chaque gène g, le poids attribué à une adjacence (droite ou gauche) (ga) représente le nombre maximum d’adjacences conservées de g dans l’arbre si g est adjacent à a au nœud x.

Approche locale Bertrand et al. 2010 Attribuer un poids à chaque adjacence ancestrale. a g b c g b g a g a g c

Approche locale Bertrand et al. 2010 Attribuer un poids à chaque adjacence ancestrale. g a g a 1 a = 4 g b 1 1 c 1 g b g a g a g c

Approche locale Bertrand et al. 2010 Attribuer un poids à chaque adjacence ancestrale. g b g b 1 a g b = 3 1 c 1 g b g a g a g c

Approche locale Bertrand et al. 2010 Attribuer un poids à chaque adjacence ancestrale. g a g a 1 a g b 1 c = 2 g b g a g a g c

Approche locale Bertrand et al. 2010 Attribuer un poids à chaque adjacence ancestrale. Par programmation dynamique p adjCons (a, X, u) : Nb d’adj. cons. de a dans T si a est adj. à X au noeud u. Calculé à partir de: Lbelow (u,v,a,X): Nbre max d’adj. conservées de a sur la branche (u,v) et le sous-arbre de racine v, sous la condition que a est adj. à X au noeud u; Lbelow (u,w,a,X); Labove (p,u,a,X): Nbre max d’adj. conservées de a sur la branche (p,u) et le sous arbre de racine p, sous la condition que a est adj. à X au noeud u; u v w

Approche locale Bertrand et al. 2010 Construction des CARs, similaire à Ma et al.: Retrouver un ensemble de chemins recouvrant de poids minimum. Algorithme glouton; Modélisation du problème sous la forme du problème du voyageur de commerce (TSP).

Forces et faiblesses de l’approche locale L’approche permet, pour chaque gène, de maximiser son nombre d’adjacences conservées dans l’arbre. Mais le génome inféré n’est pas garanti d’être celui qui maximise les adjacences. Généralement ne parvient pas à former des chromosomes entiers, seulement des « synténies ancestrales » (CARs) Ne considère que les adjacences « observées » ou fortement supportées par les données. En conclusion, donne moins d’informations que l’approche globale, mais prédictions plus sûres.