Séquençage par hybridation

Slides:



Advertisements
Présentations similaires
Introduction à la Théorie des graphes
Advertisements

La recherche de chemin optimal
Théorie des graphes.
Chap. 4 Recherche en Table
Fabrice Lauri, François Charpillet, Daniel Szer
Algorithmes et structures de données avancées Cours 7
Algorithmes et structures de données avancées Cours 4
Algorithmes et structures de données avancées Cours 6 Patrick Reuter
Algorithmes et structures de données avancés
Introduction à l’Algorithmique
Sensibilisation à l’Algorithmique et structure de données
Introduction à la Théorie des graphes
Innovations génétiques
Modélisation par le concept de graphe
Mise à Niveau en Recherche Opérationnelle
Bloc1 : Théorie des graphes et problèmes d’ordonnancement
Séminaire Biblio LISC - 3/04/02 Complexité, information Daprès JP Delahaye (1999)
LES GRAPHES.
A.Faÿ 1 Recherche opérationnelle Résumé de cours.
Chap. 1 INTRODUCTION Beaucoup de problèmes de la vie courante, tels la gestion de réseaux de communication ou l'ordonnancement de tâches, correspondent.
1 Théorie des Graphes Cycle Eulérien. 2 Rappels de définitions On dit qu'une chaîne est un chemin passant par toutes les arêtes du graphe. On dit qu'un.
Classification multiclasses
Plus courts chemins On présente dans ce chapitre un problème typique de cheminement dans les graphes : la recherche d'un plus court chemin entre deux sommets.
Les structures de données arborescentes
Heuristiques A. Introduction B. Recherche d ’une branche
Chapitre 2 Réductions: exemples et méthodes
Théorie des graphes Un peu de vocabulaire.
Pr ZEGOUR Djamel Eddine
LES ARBRES IUP 2 Génie Informatique
Chapitre 2 Réductions: exemples et méthodes
Structures de données IFT-2000
Les dominos Peut-on aligner tous les dominos d’un jeu ?
IFT Complexité et NP-complétude
Gestion de Fichiers Tri Interne Efficace et Tri Externe.

Algorithmes d ’approximation
Optimisation dans les réseaux
Recherche Opérationnelle
- GRAPHES - Composantes et types
21 février 2006Cours de graphes 2 - Intranet1 Cours de graphes Les plus courts chemins, les chemins les plus légers : à laide de la vague, à laide de la.
DONG Xiaoguang HONG Liang OULDBABA Fadel WANG Min
Programmation dynamique
Atelier de formation : MAT optimisation II (les graphes).
8INF8061 Conception et analyse des algorithmes Comment comparer deux problèmes?

IFT Complexité et NP-complétude Chapitre 0 Rappels.
Réseaux bayésiens: Inférence
La décomposition en valeurs singulières: un outil fort utile
Graphes 1. Introduction 2. Définition 3. Représentation mémoire
Arbres et graphes.
1 Licence d’informatique Algorithmique des graphes Cours 3 deuxième partie : Opérations et relations entre graphes. Composition, puissances. Utilisation.
D.E ZEGOUR Ecole Supérieure d’Informatique
On cherche le plus court chemin de E à S sur le graphe suivant :
Complexité des Problèmes Combinatoires Module IAD/RP/RO/Complexité Philippe Chrétienne.
Arbres binaires et tables de hachage
LE FLOT MAXIMAL et LA COUPE MINIMALE
Recherche exacte de motifs
Problème de double digestion
Bioingénierie de l’A.D.N.
Le code génétique, clé de la vie
Cours LCS N°4 Présenté par Mr: LALLALI
Alignement de génomes. MUMmer (1999) Utilise l’arbre des suffixe. Basé sur le principe de « Maximum Unique Match » (MUM). Étant donné deux génomes A et.
Recherche de motifs par projections aléatoires
Ajouts et retraits dans un arbre de connexion Nicolas Thibault et Christian Laforest, Équipe OPAL Laboratoire IBISC (regroupement LaMI et LSC), Évry 8.
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Recherche heuristique dans les bases de données L’algorithme BLAST
Génération de routes optimales Sujets Introduction TSP Colonies de fourmis (voir autre présentation Informs Healhcare) PIF6004 Sujets Spéciaux en informatique.
Problème de voyageur de commerce
Introduction à la Théorie des graphes
Algorithmes Branch & Bound Module IAD/RP/RO Master d ’informatique Paris 6 Philippe Chrétienne.
Transcription de la présentation:

Séquençage par hybridation IFT 3290 – Bio-Informatique Winnie Sheun Yee Ng Hiver 2005

Des puces d’ADN Une puce contient un ensemble de sondes d’une taille fixe c’est-à-dire tous les k-mers. Une sonde est un fragment d’ADN sur la puce. http://keck.med.yale.edu/affymetrix/technology.htm

Détection par hybridation Construire une puce de toutes les sondes possibles de taille k. Incuber des fragments marqués de la séquence cible avec la puce d’ADN. Les fragments de la séquence cible s’hybrident avec les sondes dont les bases leur sont complémentaires.

Détection par hybridation Par spectroscopie, les sondes hybridées aux fragments cibles sont détectées. http://keck.med.yale.edu/affymetrix/technology.htm

Détection par hybridation La composition en k-mers de la séquence d’ADN recherchée est identifiée. Reconstruction de la séquence cible par des algorithmes combinatoires sur la composition en k-mers.

Séquençage par hybridation Problème : Reconstruire une « string » à partir de sa composition en k-mers. Entrée : Un ensemble, Spectrum, de tous les k-mers d’une « string » s inconnue. Sk(u) = {s[i, · · · , i+k − 1]: i = 1, · · · , |s| − k +1}. Sortie : Une « string » s reconstruite à partir du Spectrum(s, k).

Approche 1 : SBH, un problème de chemin hamiltonien Recherche d’un chemin hamiltonien dans un graphe de chevauchements où chaque k-mer de s (la séquence cible) est un sommet et où chaque chevauchement de taille (k-1) est un arc. Définition : Un chemin hamiltonien est un chemin dans G qui passe une et une seule fois par chaque sommet.

Reconstruction de séquence par l’approche du chemin hamiltonien Spectrum(s, k) = {ATG AGG TGC TCC GTC GGT GCA CAG} H N. C. Jones & P. A. Pevzner où les sommets = k-mers du Spectrum ; et les arcs = chevauchements entre les k-mers. Le chemin hamiltonien (chemin qui traverse tous les nœuds exactement une fois) correspond à la reconstruction de la séquence ATGCAGGTCC.

Reconstruction multiple de séquences par l’approche du chemin hamiltonien Spectrum(s, k) = {ATG TGG TGC GTG GGC GCA GCG CGT} H N. C. Jones & P. A. Pevzner Un tel Spectrum(s, k) résulte en deux chemins hamiltoniens distincts.

Reconstruction multiple de séquences par l’approche du chemin hamiltonien Spectrum(s, k) = {ATG TGG TGC GTG GGC GCA GCG CGT} H N. C. Jones & P. A. Pevzner ATGCGTGGCA

Reconstruction multiple de séquences par l’approche du chemin hamiltonien Spectrum(s, k) = {ATG TGG TGC GTG GGC GCA GCG CGT} H N. C. Jones & P. A. Pevzner ATGGCGTGCA

Complexité du problème du chemin hamiltonien Le problème du chemin hamiltonien est NP-complet c’est-à-dire que le temps de calcul nécessaire à sa résolution croît trop vite par rapport à la taille des données à traiter.

Approche 2 : SBH, un problème de chemin eulérien Recherche d’un chemin eulérien dans un graphe de chevauchements où tous les sommets sont toutes les sous-chaînes de longueur k-1 et où chaque k-mer de s est un arc entre son préfixe et son suffixe de taille (k-1).

SBH, un problème de chemin eulérien Définition : Un chemin eulérien est un chemin dans G qui visite chaque arc exactement une fois.

Reconstruction de séquence par l’approche du chemin eulérien Spectrum(s, l) = {ATG TGG TGC GTG GGC GCA GCG CGT} GT CG CA GC GG TG AT N. C. Jones & P. A. Pevzner où les sommets = (k-1)-mers ; et les arcs = k-mers du Spectrum.

Reconstruction de séquence par l’approche du chemin eulérien GT CG CA GC GG TG AT N. C. Jones & P. A. Pevzner Les chemins eulériens du graphe (chemin qui traverse tous les arcs exactement une fois) correspondent aux séquences.

Nombre de chemins eulériens Soit une matrice A = (aij), où aij = 1 s’il existe une arête allant du sommet I au sommet j dans le graphe eulérien G et aij = 0 sinon. Soit M la matrice –A et dont les éléments de la diagonale sont remplacés par degrein(i) pour tout i. où c(G) = cofacteur de M. G Chaque c(G) de M = 2. Le nombre de cycles eulériens dans G est 2 • 0! • 1! • 1! • 0! = 2

Complexité du problème du chemin eulérien La recherche du parcours eulérien se fait en temps linéaire avec un parcours en profondeur. En connaissant la multiplicité des arcs du graphe,

À noter L'assemblage par parcours eulérien est ambigu : il a beaucoup de chemins eulériens. Des méthodes biochimiques permettent de discriminer les hybridations non-spécifiques dans les expériences SBH.

Améliorer la puissance de résolution du SBH Le séquençage positionnel par hybridation est proposé. Le PSBH permet de mesurer approximativement la position de chaque k-mer du fragment d’ADN cible. PSBH se réduit à trouver un parcours eulérien avec la restriction additionnelle que la position de tout arc est dans l’intervalle de positions associé à cet arc.

Fin… Questions? Commentaires.

Annexe : Tailles… La longueur maximale d’un fragment d’ADN qui peut être reconstruite avec une tableau C(k) est estimée à √(2•4k). La longueur minimale de la sonde pour reconstruire une séquence de taille n à partir de son spectrum est estimée à .

Annexe : Manufacturer des puces d’ADN Une puce d’ADN est manufacturée par VLSIPS « very large scale immobilized polymer synthesis ». Les sondes sont développées un nucléotide à la fois à travers le processus photolithographique (série d’étapes chimiques). Chaque nucléotide a un « groupe protecteur  photolabile » qui empêche la croissance de la sonde.

Annexe : Manufacturer des puces d’ADN Ce groupement protecteur est désactivé par la lumière. À chaque étape chimique, une région prédéfinie du « array » est illuminée en activant ainsi la croissance nucléotidique. Tout le « array » est exposé à un nucléotide particulier mais les réactions d’ajout du nucléotide se produiront seulement sur les sondes de la région activée.

Annexe : Manufacturer des puces d’ADN En concaténant les nucléotides sur les sondes approppriées des régions approppriées, il est possible de développer un ensemble de sondes de taille k en moins 4•k étapes. Cependant, à cause de la diffraction, de la réflexion interne et de la dispersion, les points proches des limites des régions illuminées sont exposés à une illumination imprévue. Ainsi, des sondes de composition et de taille inconnues sont construites.

Annexe : Complexité du problème du chemin eulérien Si la multiplicité des arcs n’est pas connue, il s’agit alors du problème du facteur chinois où on recalcule, en temps polynomial, les multiplicités minimales qui permettent de parcourir le graphe.