Génomique comparative

Slides:



Advertisements
Présentations similaires
Algorithmes et structures de données avancés
Advertisements

Algorithmes d ’approximation
Recherche Opérationnelle
Inférence de génomes ancestraux
Génomique comparative
Cycle, Cocycle, Arbre et Arborescence
PRESENTE PAR: KASHAMA LUBEMBE Dieudonné.
CINI – Li115 1 Semaine 9 Algorithmes de tri ● Introduction ● Tri à bulle ● - principe ● - algorithme ● - efficacité ● Tri par sélection ● - principe, algorithme,
Stage de Master M2 Les graphes 2-intervallaires Philippe Gambette Sous la direction de Michel Habib (LIAFA) LIAFAUniversité.
Chapitre 2 Théorèmes généraux
Révision – mathématiques 8
Construction d’une maquette pour un mélange de 4 constituants
Outils de Recherche Opérationnelle en Génie MTH 8414A
V Suite géométrique : 1°) Définition : un+1
Suites ordonnées ou mettre de l’ordre
Outils de Recherche Opérationnelle en Génie MTH 8414
Module de gestion des tournées de livraison
Statistiques descriptives univariées
Pierre Joli Cours de Mathématique Pierre Joli
V Graphes étiquetés Ce sont des graphes orientés où les arêtes sont affectées d’étiquettes. Lorsque les étiquettes sont des nombres, on dit que le graphe.
Modèles décisionnels en gestion
Information, Calcul, Communication
5 – PARALLELISME , ORDONNANCEMENT
Algorithmique Avancée et Complexité Chap2:Complexité et Optimalité
Université Abou Bakr Belkaid Faculté des Sciences Département d’informatique Algorithmique Avancée et Complexité Chap5: Les méthodes de résolution exactes.
Algorithmique Avancée et Complexité Chap3:Diviser pour Régner
Techniques d’Optimisation Chapitre 2: Problème de flôt
Information, Calcul, Communication
Les bases de données et le modèle relationnel
Techniques d’Optimisation Chapitre 3: Programmation en 0-1 (bivalente)
Le théorème de Sylvester
Technologies de l’intelligence d’affaires Séance 11
Le théorème de Sylvester
Université Abou Bakr Belkaid Faculté des Sciences Département d’informatique Algorithmique Avancée et Complexité Chap7: Les méthodes de résolution exactes.
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
C1 – Interpolation et approximation
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
Structure D’une Base De Données Relationnelle
1 RECURSIVITE PRESENTATION Ch. PAUL ALGORITHMIQUE Présentation de la récursivité.
Branch-and-price algorithms for the solution of the multi-trip vehicle routing problem with time windows (MTVRPTW) 1.
Module: Logique Mathématique. SOMMAIRE 1- Notions d’ensembles 2- Constructions d’ensembles 3- Cardinal d’ensembles 4- Relations d’ensembles ordonnées.
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
1 INTRODUCTION. 1.Constitution : Placer les principaux éléments du circuit électrique en face de leur définition.  Elément permettant la liaison électrique.
OPTIMISATION 1ère année ingénieurs
Statistiques.
Algorithmique Avancée et Complexité
Génomique comparative
Ä A B C D E F µ Un problème de Tournée (ou du Voyageur de commerce) consiste à chercher le meilleur trajet pour visiter.
Révision – mathématiques 8
Arbres de décision.
Cycle, Cocycle, Arbre et Arborescence
2.4 La loi de vitesse d’une réaction chimique
Variable Neighborhood Descent (VND) Réalisée par Nadia Sassi Eya baghdedi AU
Le code de Huffman: est une méthode de compression statistique de données qui permet de réduire la longueur du codage d'un alphabet. Le code de Huffman.
Optimisation Logique Bruno Rouzeyre
Position, dispersion, forme
Information, Calcul, Communication
Contribution du LHyGeS
RABAH M ed Ali 2018/2019
Recherche de zero d'une fonction MARMAD ANAS MPSI -2.
Flowchart Itération Cours 04.
Piles et files.
Chapitre 2 : Représentation de l’information dans la machine Introduction Représentation des nombres négatifs –Signe / valeur absolue –Complément à 1 –Complément.
Révision – mathématiques 8
CSI 3505 / Automne 2005: Conception et Analyse des Algorithmes I.
Encadrée par: - Mr. Abdallah ALAOUI AMINI Réalisée par : -ERAOUI Oumaima -DEKKAR Amal - ES-SAHLY Samira -Houari Mohammed PROGRAMMATION MULTIOBJECTIFS.
Introduction  La PLNE regroupe l’ensemble des techniques permettant de résoudre des programmes linéaires dont les solutions doivent être entières.  Formellement,
A. Zemmari SDRP & MA Problème du rendez vous : un algorithme probabiliste et une analyse probabiliste A. Zemmari.
Outils de Recherche Opérationnelle en Génie MTH 8414
La programmation dynamique
Transcription de la présentation:

Génomique comparative Nadia El- Mabrouk

I. Introduction Les génomes évoluent par: Mutations locales: Au niveau de la séquence; substitutions, insertions, suppressions de nuc. Mutations globales: Au niveau du génome; insertions, suppressions, duplications, déplacements de gènes ou de fragments de chromosomes

Pour étudier les mutations globales: Exploiter l’information contenue dans tout le génome. Considérer la structure générale du génome (linéaire/circulaire, uni-chromosomique/multi-chromosomique). Représenter un chromosome par un ordre de gènes (ou autres éléments constitutifs, ou blocs conservés). Comparer deux génomes revient à comparer des ordres de gènes (ou des ordres de blocs).

Mutations globales Figure: Eichler et Sankoff, Science (2003) Conserved synteny blocks from the mouse genome (MGSCv. 3.0) are overlaid on human chromosomes (April 2003, assembly). All conserved sytenic blocks >10 kb are shown.

Inversion: Transposition inversée:

Types de génomes Génome circulaire Génome linéaire Ordre des gènes signé Non signé Génome linéaire 1 ou plusieurs chromosomes Signé a g f b e c d +a -b -c +d +e -f -g

Types de mutations génomiques Réarrangements Intra-chromosomales: - Inversion: a b c d e f g h i j a b -e -d -c f g h i j Origine possible: Erreur de réplication

Transposition: Segment supprimé et réinséré à un autre endroit dans le génome

Réarrangements inter-chromosomiques: Translocation, fusion, fission Translocation réciproque: Fusion: Fission:

Translocation http://smabiology.blogspot.com/

Opérations modifiant le contenu Pertes (inactivation, dégradation, élimination). Origine possible: cross-over inégal –> duplication locale et suppression Duplications (en tandem ou transposées) a b c d e a b c d e f g h a b a b a b c d e a b c d e f b c d g h

Duplication, Délétion http://www.daviddarling.info/encyclopedia/D/duplication.html

Duplication de génome Model of WGD followed by massive gene loss predicts gene interleaving in sister regions. From Manolis Kellis, Bruce W. Birren and Eric S. Lander; Nature 428, 617-624, 2004

Duplication de génome Sorghum Weat Maize Rice Brome Chro num. 7

http://www-etud.iro.umontreal.ca/~lafonman/MAGE2013/program.php

II. Distance d’inversion Deux génomes G et H contenant les mêmes gènes mais dans un ordre différent. Distance d’inversion entre G et H: Nombre minimal d’inversions pour passer de G à H.

8 7 6 5 4 3 2 1 11 10 9 8 7 1 2 3 4 5 6 11 10 9 4 3 2 1 7 8 5 6 11 10 9 4 3 2 8 7 1 5 6 11 10 9 Réduction: Comment transformer une permutation en l’identité?

Bibliographie: Kececioglu et Sankoff, 1993: Première heuristique, gènes non signés Caprara 1997: Problème NP-difficile pour les gènes non signés Hannenhalli et Pevzner, 1995: Algo polynomial pour les gènes signés Kaplan, Shamir, Tarjan,1999; Bader, Moret, Yan, 2001: optimisations, algo linéaire pour calculer la distance et quadratique pour trouver un scénario d’inv. Bergeron 2001; Bergeron, Mixtacki, Stoye 2005: Représentations plus simples du problème …

Points de cassure Distance naturelle: Distance de points de cassures (Breakpoints) i i+1 ou –(i+1) –i : Adjacences Sinon: Breakpoint. 1 5 6 3 2 4 7 Gènes non signés Gènes signés +1 +5 +6 +3 +2 +4 +7

Inversion Une inversion d’un intervalle change l’ordre et le signe des gènes dans l’intervalle 0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 -5 -6 1 2 3 4 7 0 -5 -4 -3 -2 -1 6 7 0 1 2 3 4 5 6 7 5 inversions

0 3 1 6 5 -2 4 7 0 -5 -4 -3 -2 -1 6 7 Une paire orientée est une paire consécutive de gènes de signes différents. Algorithme simple: Choisir, à chaque étape, une paire orientée (pi, pj) Si pi + pj = +1, (pi pi+1 …. pj-1)pj Si pi + pj = -1, pi (pi+1 …. pj-1 pj) Une inversion créant une adjacence agit nécessairement sur une paire orientée. Mais pas toujours possibles, et pas toutes équivalentes.

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 -5 -6 1 2 3 4 7 0 -5 -4 -3 -2 -1 6 7 0 1 2 3 4 5 6 7

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 -5 -6 1 2 3 4 7

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 -5 -6 1 2 3 4 7

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 1 6 5 2 3 4 7 Impossible de continuer

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -4 2 3 1 6 7 0 -1 -3 -2 -4 5 6 7 0 -1 -3 -2 4 5 6 7 0 -1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 6 inversions au lieu de 5: Pas minimal

Résultat, Bergeron 2001 Le score d’une inversion est le nombre de paires orientées dans la permutation résultante. Algorithme: Choisir, à chaque étape, une paire orientée (pi, pj) de score maximal.

0 3 1 6 5 -2 4 7 0 -5 -6 -1 -3 -2 4 7 0 -5 -6 -1 2 3 4 7 0 -5 -4 2 3 1 6 7 Score = 4 Score = 2

Résultat, Bergeron 2001 Le score d’une inversion est le nombre de paires orientées dans la permutation résultante. Algorithme: Choisir, à chaque étape, une paire orientée (pi, pj) de score maximal. Théorème: Si Agorithme applique k inversions à une permutation p donnant lieu à une permutation p’, alors d(p) = d(p’) +k. Mais on est bloqué si on n’a pas de paire orientée!

Graphe de points de cassure,gènes non signés (Bafna 1995) Décomposition maximale en c cycles alternés d’arcs disjoints d(G,H): distance d’inversion; b: nb d’arcs noirs (gènes) d(G,H) ≥ b – c Problème de la décomposition d’un graphe en un maximum de cycles disjoints: NP-difficile

Gènes signés – Graphe de Hannenhalli et Pevzner (1995) Si génome non-circulaire, rajouter des bornes fictives

Inversions possibles: Nombre de cycles maximal lorsque les deux génomes sont identiques Inversions possibles: (A) Inversion sur deux arêtes de deux cycles différents (B) Inversion sur une paire non-orientée (ou convergentes) d’ arêtes (c) Inversion sur une paire d’arêtes orientées (ou divergentes)

Lien avec les paires orientées +1 +4 -6 +9 -7 +5 -8 +10 +3 +2 +11 -12 5h 6t 6t 5h

{B,C,D} , {F} : Composantes orientées (bonne composante) Cycle orienté Cycle non-orienté {B,C,D} , {F} : Composantes orientées (bonne composante) {A,E} : Composante non-orientée Cas général: d(G,H) ≥ b-c Si que des bonnes composantes: d(G,H) = b-c

Bonnes composantes: peuvent être résolues par b-c ``bonnes inversions’’ Bonne inversion (safe): Inversion sur deux arêtes orientées, qui ne crée pas de mauvaise composante.

Mauvaises composantes Composante B sépare A et C. Non-obstacle: Mauvaise composante qui sépare deux mauvaises composantes Obstacle (hurdle): Mauvaise composante qui ne sépare pas deux mauvaises composantes B C A

Forteresse Un obstacle A protège un non-obstacle B si la suppression de A transforme B en obstacle. Super-obstacle: Obstacle A qui protège un non-obstacle B B A Forteresse: Graphe qui contient un nb impair d’obstacles, tous des super-obstacles.

Résultat de Hannenhalli et Pevzner d(G,H): distance d’inversions b(G,H): nb de gènes c(G,H): nb de cycles du graphe h(G,H): nb d’obstacles f(G,H): 1 si le graphe est une forteresse, 0 sinon. d(G,H) = b(G,H)-c(G,H)+h(G,H)+f(G,H)

Résolution des obstacles: Deux opérations: Fusion: Un cycle de moins, mais un obstacle de moins Coupure: Même nb de cycles, mais un obstacle de moins.

Algorithme HP: 1. Si G contient h(G,H) obstacles 2. Si h(G,H) est pair 3. Considérer des paires d’obstacles non consécutifs, et les fusionner deux à deux; 4. Si h(G,H) est impair et il existe un obstacle simple O 5. Couper O; 6. Fusionner deux à deux les obstacles restants; 7. Sinon (forteresse) 8. Fusionner deux à deux les obstacles non-consécutifs 9. (si possible), et couper le dernier obstacle restant; 10. Pour chaque bonne composante C faire 11. Résoudre C en choisissant une inversion sûre à chaque étape.

Une inversion est bonne si D(b-c+h+f)=-1 L’algorithme n’effectue que des bonnes inversions: Inversion sure: D(c)=1; D(h)=0; D(f)=0; donc D(b-c+h+f)=-1 Fusion de deux obstacles: D(c)=-1; D(h)=-2; D(f)=0; donc D(b-c+h+f)=-1 Coupure d’un obstacle: D(c)=0; D(h)=-1; D(f)=0; donc D(b-c+h+f)=-1 Coupure du dernier obstacle de la forteresse: D(c)=0; D(h)=0; D(f)=-1; donc D(b-c+h+f)=-1

Complexité Construire la structure, trouver les cycles et les composantes, déterminer leurs orientations: temps O(n2) => trouver la distance d’inversion en O(n2) La partie la plus coûteuse: résolution des bonnes composantes. Méthode brutale: Essayer toutes les inversions (n2) et vérifier le graphe obtenu. Effectuer ce travail d(G,H) fois => O(n5)

Alternative à la représentation par graphe HP – Bergeron 2005 Intervalle élémentaire: Pour chaque paire (k,k+1) intervalle Ik dont les deux extrémités sont: Droite de k si positif, et gauche sinon; Gauche de k+1 si k+1 est positif, droite sinon 0 -2 -1 4 3 5 -8 6 7 9 I0

Alternative à la représentation par graphe HP – Bergeron 2005 Intervalle élémentaire: Pour chaque paire (k,k+1) intervalle Ik dont les deux extrémités sont: Droite de k si positif, et gauche sinon; Gauche de k+1 si k+1 est positif, droite sinon 0 -2 -1 4 3 5 -8 6 7 9 I0 I1

Alternative à la représentation par graphe HP – Bergeron 2005 Intervalle élémentaire: Pour chaque paire (k,k+1) intervalle Ik dont les deux extrémités sont: Droite de k si positif, et gauche sinon; Gauche de k+1 si k+1 est positif, droite sinon 0 -2 -1 4 3 5 -8 6 7 9 I0 I5 I1 I6 I2 I7 I3 I8 I4

Intervalles orientés Adjacence: Intervalle vide. Si paire orientée, alors intervalle orienté. Sinon, intervalle non-orienté. Les seules inversions créant une nouvelle adjacence sont celles agissant sur des intervalles orientés. 0 -2 -1 4 3 5 -8 6 7 9 I0 I5 I1 I6 I2 I7 I3 I8 I4

Les cycles On dit que deux intervalles qui partagent une même extrémité se rejoignent à ce point. Exactement deux intervalles se rejoignent à chaque point de cassure. Un cycle est une séquences b1, b2, … bk de points tels que deux points successifs sont les points de rencontre de deux intervalles (sauf les deux extrémités). 0 -2 -1 4 3 5 -8 6 7 9 I0 I5 I1 I6 I2 I7 I3 I8 I4

Les cycles On dit que deux intervalles qui partagent une même extrémité se rejoignent à ce point. Exactement deux intervalles se rejoignent à chaque point de cassure. Un cycle est une séquences b1, b2, … bk de points tels que deux points successifs sont les points de rencontre de deux intervalles (sauf les deux extrémités). 0 -2 -1 4 3 5 -8 6 7 9 I0 I5 I1 I6 I2 I7 I3 I8 I4

Les cycles Ce sont les mêmes que les cycles du graphe HP I0 I1 I2 0 -2 -1 4 3 5 -8 6 7 9 I4 I5 I6 I7 I8 I3

Les cycles Une inversion modifie de -1, 0 ou 1 le nombre de cycles. L’objectif est d’obtenir que des cycles d’un seul sommet, donc n cycles (où n est le nombre de gènes). Si on en a c au départ, alors: nombre d’inversion est d’au moins n-c 0 -2 -1 4 3 5 -8 6 7 9 I0 I5 I1 I6 I2 I7 I3 I8 I4

Les composantes Une composante (aussi appelée sous-permutation « sub-permutation ») est un intervalle de i à i+j pour un certain j (ou de –(i+j) –i) dont les éléments sont {i, i+1, … i+j}, et qui n’est pas l’union de composantes. 2 composantes. 0 -2 -1 4 3 5 -8 6 7 9 I0 I5 I1 I6 I2 I7 I3 I8 I4

Les composantes Deux composantes sont soit disjointes, soit emboîtées avec des extrémités différentes, soit chevauchantes sur un élément. Par définition, posons qu’un point p.q appartient à la plus petite composante contenant à la fois p et q. Alors, tous les points d’un cycle appartiennent à la même composante. 0 -3 1 2 4 6 5 7 -15 -13 -14 -12 -10 -11 -9 8 16

0 -2 -1 4 3 5 -8 6 7 9 Les composantes Orientées I0 I5 I1 I6 I2 I7 I3 Un breakpoint p.q est positif si p et q sont positifs et négatif si p et q sont négatifs. Une composante est non-orientée si elle contient des breakpoints et tous sont du même signe. Sinon, la composante est orientée. Orientées I0 I1 I2 0 -2 -1 4 3 5 -8 6 7 9 I4 I5 I6 I7 I8 I3

Les composantes Deux composantes chevauchantes sont dites jointes. Des composantes jointes forment une chaine. Une chaine maximale ne peut pas être prolongée. 0 -3 1 2 4 6 5 7 -15 -13 -14 -12 -10 -11 -9 8 16

Les composantes représentées en PQ-tree TP définit pour permutation P comme suit: Chaque composante est représentée par un nœud rond; Chaque chaine maximale par un nœud carré dont les nœuds (ordonnés) sont les composantes de la chaine; Un nœud carré est le fils de la plus petite composante contenant la chaine. Pour une permutation avec deux extrémités fixes, TP est un arbre enraciné en un nœud carré.

0 -3 1 2 4 6 5 7 -15 -13 -14 -12 -10 -11 -9 8 16 (1…2) (-15…-12) (-12…-9) (0…4) (4…7) (7…16) (o) (0…4) (n) (4…7) (7…16) (o) (o) (1…2) (n) (-15…-12) (-12…-9) (n) (o): orienté; (n) non-orienté

Les composantes Si une C composante est non-orientée, aucune inversion avec les deux extrémités dans C ne peut augmenter le nombre de cycles. Si C est non-orientée, une inversion d’un intervalle élémentaire dont les deux extrémités sont dans C oriente C et ne change en rien le nombre de cycles. Une inversion dont les deux extrémités sont dans deux composantes différentes A et B affecte uniquement les composantes qui sont sur l’unique chemin qui relie A à B dans TP.

Résultats – Bergeron 2001 Le score d’une inversion est le nombre d’intervalles élémentaires orientés dans la permutation résultante. Théorème: L’inversion d’un intervalle élémentaire orienté de score maximal ne crée pas de composante non-orientée. Corollaire: Si la permutation P n’a pas de composante non-orientée et c cycles, alors d(P) = n-c

Résultats – Bergeron 2005 Def: Une couverture C de TP est un ensemble de chemins joignant les composantes non-orientées de P, tel que chaque nœud terminal n’appartient qu’à un seul chemin. Résultat: Une couverture correspond à un ensemble d’inversions permettant d’orienter toutes les composantes de P. Def: Un chemin contenant plus d’une composante est long: score 2; Un chemin contenant une seule composante est court: score 1. Def: Une couverture optimale est une couverture de score maximal: Score t.

Résultats – Bergeron 2005 Théorème: d(P) = n-c+t d(P) peut-être calculé en temps O(n).

III. Inférence d’ordres ancestraux ? ? ? E1 E2 E3 E4

E1 E2 E3 E4 a b a c b a b a c a b a b a c b c a b a c a b a –a –b c a b a b a c b c a b a –b –c c E1 E2 E3 E4

Méthode Approche globale: Basée sur la notion de distance (réarrangement, breakpoint, DCJ…). Trouver les génomes ancestraux qui permettent de minimiser la somme des distances des arêtes de l’arbre. Différentes versions ont été publiées: BPAnalysis de Blanchette et Sankoff, GRAPPA de Moret…)

Approche globale Méthode générale de Sankoff 1996 Commencer par un ordre initial « raisonnable » des nœuds internes; Assigner un nouvel ordre à chaque nœud interne, par un calcul de la médiane des trois génomes adjacents au nœud considéré; Continuer un nombre fixé de fois ou jusqu’à convergence. Étant donnée une distance d et trois génomes G1,G2, G3, la médiane des trois génomes est un génome G minimisant d(G,G1)+d(G,G2)+d(G,G3)

W W W Y Y Y X X X A B C A B C A B C I7 I6 I4 I5 I2 I1 I3 A B C D E F G Amélioration de X Amélioration de Y X X X A B C A B C A B C I7 I6 I4 I5 I2 I1 I3 A B C D E F G H

Calcul de la médiane Même contenu en gènes, gènes uniques, distance des points de cassure (BP): NP-difficile pour des permutations signées ou non, circulaires (Pe’er et Shamir 1998) ou linéaires (Bryant 1998) Meilleures heuristiques bornées: 7/6 pour permutations signées (Pe’er et Shamir 2000) et 5/3 pour permutations non signées (Caprara 2002) Algorithme exact proposé par Blanchette et Sankoff,1998: Réduction au problème du commis voyageur. Étendu à des génomes contenant des gènes différents (Sankoff et Bryant 2000).

Calcul de la médiane Algorithme de Blanchette et Sankoff 1998 2 5 2 5 2 2 2 1 1 1 1 3 3 4 4 1 1 Poids d’une arête: nb de génomes où les gènes ne sont pas voisins. Trouver un chemin de poids minimal passant par chaque sommet une unique fois Problème du commis voyageur (Traveling Salesman Problem, ou TSP). Peut-être résolu en temps O(n2 2n). Mais plusieurs heuristiques efficaces existent.

Calcul de la médiane Distance d’inversion Étudié uniquement dans le cas de permutations signées. Introduit par Sankoff et Kececioglu, 1996 NP-difficile, même pour 3 génomes (Caprara 1999) Caprara 2001 combine les stratégies branch-and-bound et divide-and-conquere sur une généralisation du graphe des BP. Moret et. al 2001 recherchent l’espace des réarrangements par une stratégie branch-and-bound. Implémenté dans GRAPPA. Bourque et Pevzner 2002 utilisent une stratégie « gready »