Génomique comparative

Slides:



Advertisements
Présentations similaires
Introduction à la Théorie des graphes
Advertisements

La recherche de chemin optimal
Tris.
Chap. 4 Recherche en Table
Algorithmes et structures de données avancées Cours 7
Antoneta Iuliana BRATCU
Algorithmes et structures de données avancés
RENDU DE TERRAIN Problématique : Rendre une très large zone de terrains en la simplifiant au maximum pour réduire le nombre de polygones à afficher. A.Bailly.
Efficient Simplification of Point-Sampled Surfaces
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Voyager à l’aide de l’optimisation combinatoire Simon de Givry
Introduction à la Théorie des graphes
Colloque Traitement et Analyse de séquences : compte-rendu
Piecewise Affine Registration of Biological Images
Chapitre II.Rappels mathématiques et complexité
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Génération de colonnes
Heuristiques A. Introduction B. Recherche d ’une branche
Alignement de séquences (suite)
Transformée de Fourier discrète et transformée de Fourier rapide
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
GPA750 Les ateliers multigammes Chapitre 5
Programmation linéaire en nombres entiers Algorithme de la subdivision successive («Branch and Bound Algorithm»)
Courbes de Bézier.
Génération d’un segment de droite


Algorithmes d ’approximation
Optimisation dans les réseaux
Recherche Opérationnelle
Page de garde présentation
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Introduction au calcul quantique
GPA750 – Gestion de Projets
Inférence de génomes ancestraux
8INF8061 Conception et analyse des algorithmes Comment comparer deux problèmes?
Programmation linéaire en nombres entiers : les méthodes de troncature
Recherche heuristique dans les bases de données L’algorithme BLAST
Structures de données IFT-2000 Abder Alikacem La récursivité Département d’informatique et de génie logiciel Édition Septembre 2009.

ASI 3 Méthodes numériques pour l’ingénieur
Conception et analyse des algorithmes
MAXIMISER les RESULTATS
Heuristiques C. Recherche de la meilleure branche . Branch And Bound
Diviser pour résoudre A. Principe général B. Applications
Présentation de la méthode des Eléments Finis
La décomposition en valeurs singulières: un outil fort utile
Apérisentation Sur les graphes évolutifs Mardi 22 novembre 16h30.
ASI 3 Méthodes numériques pour l’ingénieur
Arbres et graphes.
D.E ZEGOUR Ecole Supérieure d’Informatique
les méthodes de recherche locale
Rappels de statistiques descriptives
Graph cuts et applications
Optimisation par les algorithmes génétiques
ASI 3 Méthodes numériques pour l’ingénieur
Séquençage par hybridation
Algorithmes Branch & Bound
Modèles Mathématiques et représentation discrètes pour la description des images couleur Luc Brun.
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Problème de double digestion
Alignement de séquences biologiques
Soutenance de Stage DEA / DESS

Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Cours 5 - Trois algorithmes de tri d'un tableau
Recherche heuristique dans les bases de données L’algorithme BLAST
Pierre Joli Cours de Mathématique Pierre Joli
Génomique comparative
Génomique comparative
Transcription de la présentation:

Génomique comparative Nadia El- Mabrouk

I. Introduction Les génomes évoluent par: Mutations locales: Au niveau de la séquence; substitutions, insertions, suppressions de nuc. Mutations globales: Au niveau du génome; insertions, suppressions, duplications, déplacements de gènes ou de fragments de chromosomes

Pour étudier les mutations globales: Exploiter l’information contenue dans tout le génome. Considérer la structure générale du génome (linéaire/circulaire, uni-chromosomique/multichromosomique). Représenter un chromosome par un ordre de gènes (ou autres éléments constitutifs, ou blocs conservés). Comparer deux génomes revient à comparer des ordres de gènes (ou des ordres de blocs).

Mutations globales Figure: Eichler et Sankoff, Science (2003) Conserved synteny blocks from the mouse genome (MGSCv. 3.0) are overlaid on human chromosomes (April 2003, assembly). All conserved sytenic blocks >10 kb are shown.

Inversion: Transposition inversée:

Types de génomes Génome circulaire Génome linéaire Ordre des gènes signé Non signé Génome linéaire 1 ou plusieurs chromosomes Signé a g f b e c d +a -b -c +d +e -f -g

Types de mutations génomiques Réarrangements Intra-chromosomales: - Inversion: a b c d e f g h i j a b -e -d -c f g h i j Origine possible: Erreur de réplication

Transposition: Segment supprimé et réinséré à un autre endroit dans le génome

Réarrangements inter-chromosomiques: Translocation, fusion, fission Translocation réciproque: Fusion: Fission:

Translocation http://smabiology.blogspot.com/

Opérations modifiant le contenu Pertes (inactivation, dégradation, élimination). Origine possible: cross-over inégal –> duplication locale et suppression Duplications (en tandem ou transposées) a b c d e a b c d e f g h a b a b a b c d e a b c d e f b c d g h

Duplication, Délétion http://www.daviddarling.info/encyclopedia/D/duplication.html

Duplication de génome Model of WGD followed by massive gene loss predicts gene interleaving in sister regions. From Manolis Kellis, Bruce W. Birren and Eric S. Lander; Nature 428, 617-624, 2004

Duplication de génome Sorghum Weat Maize Rice Brome Chro num. 7

http://www-etud.iro.umontreal.ca/~lafonman/MAGE2013/program.php

II. Distances de réarrangement Distance naturelle: Distance de points de cassures (Breakpoints) Génomes circulaires non signés G: 1 5 6 3 2 4 7 H: 7 2 3 4 5 6 1 Génomes circulaires signés G: +1 +5 +6 +3 +2 +4 +7 H: +7 +2 +3 +4 +5 +6 +1 Génomes linéaires signés G: +1 +5 +6 +3 +2 +4 +7 H: +7 +2 +3 +4 +5 +6 +1

Réarrangement par inversions Problème: Deux génomes G et H contenant les mêmes gènes mais dans un ordre différent. Nombre minimal d’inversions pour passer de G à H?

Bibliographie: Kececioglu et Sankoff, 1993: Première heuristique, gènes non signés Caprara 1997: Problème NP-difficile pour les gènes non signés Hannenhalli et Pevzner, 1995: Algo polynomial pour les gènes signés Kaplan, Shamir, Tarjan,1999; Bader, Moret, Yan, 2001: optimisations, algo linéaire pour calculer la distance et quadratique pour trouver un scénario d’inv. Bergeron 2001; Bergeron, Mixtacki, Stoye 2005: Représentations plus simples du problème, plus combinatoires …

8 7 6 5 4 3 2 1 11 10 9 8 7 1 2 3 4 5 6 11 10 9 4 3 2 1 7 8 5 6 11 10 9 4 3 2 8 7 1 5 6 11 10 9 Réduction: Comment transformer une permutation en l’identité? Gènes non signés: Problème NP-difficile

Graphe de points de cassure,gènes non signés Décomposition maximale en c cycles alternés d’arcs disjoints d(G,H): distance d’inversion; b: nb d’arcs noirs (gènes) d(G,H) ≥ b – c Problème de la décomposition d’un graphe en un maximum de cycles disjoints: NP-difficile

Gènes signés – Hannenhalli et Pevzner (1995) Si génome non-circulaire, rajouter des bornes fictives

Inversions possibles: Nombre de cycles maximal lorsque les deux génomes sont identiques Inversions possibles: (A) Inversion sur deux arêtes de deux cycles différents (B) Inversion sur une paire non-orientée (ou convergentes) d’ arêtes (c) Inversion sur une paire d’arêtes orientées (ou divergentes)

{B,C,D} , {F} : Composantes orientées (bonne composante) Cycle orienté Cycle non-orienté {B,C,D} , {F} : Composantes orientées (bonne composante) {A,E} : Composante non-orientée Cas général: d(G,H) ≥ b-c Si que des bonnes composantes: d(G,H) = b-c

Bonnes composantes: peuvent être résolues par b-c ``bonnes inversions’’ Bonne inversion (safe): Inversion sur deux arêtes orientées, qui ne crée pas de mauvaise composante.

Mauvaises composantes Composante B sépare A et C. Non-obstacle: Mauvaise composante qui sépare deux mauvaises composantes Obstacle (hurdle): Mauvaise composante qui ne sépare pas deux mauvaises composantes B C A

Forteresse Un obstacle A protège un non-obstacle B si la suppression de A transforme B en obstacle. Super-obstacle: Obstacle A qui protège un non-obstacle B B A Forteresse: Graphe qui contient un nb impair d’obstacles, tous des super-obstacles.

Résultat de Hannenhalli et Pevzner d(G,H): distance d’inversions b(G,H): nb de gènes c(G,H): nb de cycles du graphe h(G,H): nb d’obstacles f(G,H): 1 si le graphe est une forteresse, 0 sinon. d(G,H) = b(G,H)-c(G,H)+h(G,H)+f(G,H)

Résolution des obstacles: Deux opérations: Fusion: Un cycle de moins, mais un obstacle de moins Coupure: Même nb de cycles, mais un obstacle de moins.

Algorithme HP: 1. Si G contient h(G,H) obstacles 2. Si h(G,H) est pair 3. Considérer des paires d’obstacles non consécutifs, et les fusionner deux à deux; 4. Si h(G,H) est impair et il existe un obstacle simple O 5. Couper O; 6. Fusionner deux à deux les obstacles restants; 7. Sinon (forteresse) 8. Fusionner deux à deux les obstacles non-consécutifs 9. (si possible), et couper le dernier obstacle restant; 10. Pour chaque bonne composante C faire 11. Résoudre C en choisissant une inversion sûre à chaque étape.

Une inversion est bonne si D(b-c+h+f)=-1 L’algorithme n’effectue que des bonnes inversions: Inversion sure: D(c)=1; D(h)=0; D(f)=0; donc D(b-c+h+f)=-1 Fusion de deux obstacles: D(c)=-1; D(h)=-2; D(f)=0; donc D(b-c+h+f)=-1 Coupure d’un obstacle: D(c)=0; D(h)=-1; D(f)=0; donc D(b-c+h+f)=-1 Coupure du dernier obstacle de la forteresse: D(c)=0; D(h)=0; D(f)=-1; donc D(b-c+h+f)=-1

Complexité Construire la structure, trouver les cycles et les composantes, déterminer leurs orientations: temps O(n2) => trouver la distance d’inversion en O(n2) La partie la plus coûteuse: résolution des bonnes composantes. Méthode brutale: Essayer toutes les inversions (n2) et vérifier le graphe obtenu. Effectuer ce travail d(G,H) fois => O(n5)

Toutes les solutions optimales Résoudre les obstacles de toutes les façons possibles Trouver toutes les inversions sûres à chaque étape (pas de méthode efficace pour le faire) Certaines inversions sont plus probables que d’autres: Petites inversions Inversions autour de l’axe de réplication Sites préférentiels de cassure Pour choisir une solution parmi les plus probables: Pondérer les inversions selon leur taille, position. Trouver une solution de poids minimal

Distance de translocation G={ 1: 1 3 9; 2: 7 8 4 5 6; 3: 10 2 11 12 13} H = {1: 1 2 3 4 5 6; 2: 7 8 9; 3: 10 11 12 13} Graphe de points de cassures 1: 1h 3t 3h 9t 2: 7h 8t 8h 4t 4h 5t 5h 6t 3: 10h 2t 2h 11t 11h 12t 12h 13t Formule HP: d(G,H) = b(G,H)-c(G,H)+s(G,H)+f(G,H) s: Nombre de “minimal subpermutations” de G et H. En fait l’ensemble des hurdles est un sous-ensemble des minSP

Distance d’inversion+ translocation (incluant fusion, fission) Génomes linéaires, multichromosomiques signés. (Hannenhalli, Pevzner 1995, Bourque, Tesler 2002, Ozery, Shamir 2003) Idée générale (HP 1995) : Réduire le problème à la comparaison, par inversion de deux génomes linéaires unichromosomiques translocation X1 X2 -Y2 - Y1 Y2 -X2 inversion

d(G,H) = b(G,H)-c(G,H)+p(G,H)+r(G,H)+(s(G,H)-gr(G,H)+fr(G,H))/2 Ajouter des bornes (gènes fictifs) aux extrémités des chromosomes de G. Concaténer les chromosomes de G Construire le graphe de BP pour G et H. Les arêtes grises représentent uniquement les adjacences entre les gènes de H (les extrémités restent libres). Le graphe ainsi obtenu se décompose en cycles et chemins. HP montrent que le problème se ramène à refermer les chemins de façon optimale Résultat de HP: d(G,H) = b(G,H)-c(G,H)+p(G,H)+r(G,H)+(s(G,H)-gr(G,H)+fr(G,H))/2 p(G,H): nb de chemins joignant 2 bornes; r(G,H) et s(G,H): nb de hurdles intrachromosomiques particuliers; gr(G,H) et fr(G,H): 0 ou 1.

Distance de Transposition Deux permutations non signées Introduite par Bafna et Pevzner, 1998 Complexité inconnue Meilleure approximation: 11/8 (Elias, Hartman, 2006) Deux bornes inférieures immédiates: Une translocation peut supprimer au max. 3 bp  d(G,H) ≥ b(G,H)/3 Une transposition peut augmenter au max de 2 cycles le graphe des bp  d(G,H) ≥ [b(G,H) – c(G,H)]/2 Une borne supérieure immédiate: On peut toujours augmenter d’au moins 1 le nombre de cycles  d(G,H) ≤ b(G,H)-c(G,H)

Distance DCJ Double Cut-and-Join Introduite par Yancopoulos et al. (2005) Définie uniquement pour les génomes signés. S’applique à des génomes linéaires ou circulaires. Toutes les autres opérations (inversion, translocation réciproque, fusion, fission, transposition, block interchange) sont des cas particuliers de DCJ. Inclu des opérations supplémentaires. Possibilité de former des génomes circulaires. Algorithme linéaire, autant pour trouver la distance qu’un scénario de réarrangement optimal (Bergeron et al. 2006)

Définition: Une opération DCJ coupe deux adjacences ab et cd d’un génome G, et les transforme en T1: ac et bd ou T2: ad et bc. = Inversion a b c d a b c d T1 T1 =Translocations T2 T2 a b c d = Inversion T1 T2

a, b, c ou d peuvent être des télomères  Formation de chromosomes circulaires

D(G,H) = n-(c(G,H)+pe(G,H)/2) Distance DCJ entre deux génomes G et H: Nombre minimum de DCJ à effectuer pour transformer G en H. Yancopoulos 2005: D(G,H) = n-(c(G,H)+pe(G,H)/2) n: nb de gènes; c(G,H): Nb de cycles dans le graphe des BP; pe(G,H): Nb de chemins de taille paire dans le graphe BP.

DCJ: Opération “artificielle’’ modélisant toutes les opérations de réarrangement connues. Se calcule en temps linéaire. Relation aux autre distances de réarrangement: inversion, transloc., inv+transloc (Bergeron, Stoye, Mixtacki 2005) d(G,H)= dDCJ(G,H) + t où t représente le coût additionel de ne pas passer par des opérations DCJ. Bergeron, Stoye, Mixtacki 2005: Formule simple pour t.

Problèmes des distances de réarrangement: Nombre exponentiel de scénarios de réarrangement possibles Pour des espèces assez éloignées, sous estime le nombre réel de réarrangements Aucune méthode exacte considérant tous les réarrangements en même temps Très difficile de déterminer un modèle probabiliste, paramètres pour inversions/transpositions/translocations??

Méthodes alternatives: mesures de synthénie Mesures de la conservation de l’ordre, sans considérer des opérations particulières Nb d’adjacences a b c j e -h -g -f i Nb de points de cassure (breakpoints) a b c j e -h -g -f i

Blocs communs irréductibles a -b c j e -h g -f i