Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004.

Slides:



Advertisements
Présentations similaires
Structures de données avancées : MLH (Multidimensional linear hashing)
Advertisements

Un réseau de neurones artificiels montrant la persévérance et la distractibilité dans le wisconsin card sorting test.
Fabrice Lauri, François Charpillet, Daniel Szer
METHODES PEDAGOGIQUES
MINISTERE DE LECOLOGIE ET DU DEVELOPPEMENT DURABLE 28 mars /10 Déchets déquipements électriques et électroniques Les déchets déquipements électriques.
JJCAAS 03 - Modèles granulaires pour les signaux sonores 1 Modèles granulaires pour les signaux sonores Lorcan Mc Donagh Directeur de thèse: Frédéric.
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Atelier sur lanalyse approfondie des migrations à partir des données de recensement: Ouagadougou novembre 2011 Bonayi Hubert DABIRE, UO/ISSP
Inférence statistique
Journées Physique Atlas France Mars 2006 Autrans Lalgorithme de clustering topologique Nicolas Kerschen DAPNIA Plan: Introduction Principe et propriétés.
Colloque Traitement et Analyse de séquences : compte-rendu
1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.
PCR en temps réel (PCR quantitative)
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
LES SUPPORTS DE VENTE 1/ LA CARTE DES METS 1.1 Les différents supports
Techniques de filtrage à laide de graines espacées Laurent Noé Travail commun avec Gregory Kucherov Séminaire.
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.
Maple, modélisation et résolution de problèmes
Expérimentation dans le cours Devenir une organisation apprenante Session Hiver étudiants Cours offert un samedi sur deux Sites déquipe.
IAS 2 « Stocks ».
ADR Active and Dynamic Routing. Plan Introduction au routage Les réseaux actifs Les agents Mise à jour des matrices de routage Architecture du routage.
YASS : Recherche de similarités dans les séquences d'ADN
Karin Lundgren-Cayrol
FRE 2645 CIDED04 : 22 Juin 2004 Système de reconnaissance structurelle de symboles, basé sur une multi représentation en graphes de régions, et exploitant.
« Génome, adaptation et environnement »
comptables, changements d'estimations comptables et erreurs »
Fonction exponentielle: enchaînement de théorèmes
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
Un modèle sémantique pour linteropérabilité de systèmes dinformation Equipe Ingénierie informatique et base de données – Laboratoire LE2I Université de.
Expression du Génome Le transcriptome.
La Scénarisation Pédagogique
Comment appelle-t-on ce phénomène ?
Recherche heuristique dans les bases de données L’algorithme BLAST
Vers une génération automatique du mapping de sources biomédicales
Ingénierie des Connaissances
Co-expression = fonction (Eisen et al., PNAS 1998)
Examen du processus d’ÉIE
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Le Transcriptome Introduction Méthodes d’analyse du transcriptome
HOPITAL PUBLIC - INTERMEDICA 2002
Arbres binaires et tables de hachage
Extraction de segments pour la reconnaissance de symboles : Une approche robuste par Transformée de Hough Présenté par : Simon BERNARD Encadré par : Jean-Marc.
LE CCF EN BTS ELEMENTS DE CADRAGE Session 2007
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Effectiveness of a physician- oriented feedback intervention on inappropriate hospital stays Pedro Antón, Salvador Peiró, Jesús M Aranaz, Rafael Calpena,
Conception d’un langage pour l’algorithme évolutionniste M atthieu CHOUTEAU Y ohann HUBERT C hristophe PANNEAU E stelle FILMON Mr SAUBION – Décembre 2002.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Alignement de séquences biologiques
Étude de la corrélation entre la densité de marquage des cibles et la puissance du scanner lors d’une expérience de puce à ADN Axel POULET.
PROBLEME POSE Profession Evlolution constante des métiers Evolution rapide des techniques Formation S’insérer rapidement S’adapter - évoluer Contraintes.
Soutenance de Stage DEA / DESS
Recherche de motifs par projections aléatoires
STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004.
Le parcours de soins du patient au sein du réseau
CONTEXTE – REALITÉ DE VOTRE PAYS  Introduction : Document à remplir en fonction des réalités de votre pays et non de votre organisme. Document à remplir.
La place des normes dans la recherche
Le leadership chez Xerox Canada: La bonne façon de faire Nicolas Ayotte Vice-président Opérations, Ventes - Québec Xerox Canada Le 1 er mai 2007.
Le projet: Qu'est-ce qu'un projet?
Recherche heuristique dans les bases de données L’algorithme BLAST
Mémoriser Plus facilement.
31/05/2007Projet Master 11 Présentation ludique de la recherche opérationnelle à la fête de la science Année universitaire 2006/2007 Sylvain FIX Julien.
Les banques de séquences nucléiques
Basic Erol Baud Olivia Wavre Florence
Techniques d’Analyse Moléculaire
Diagnostic prénatal non invasif de la mucoviscidose : Détection de la mutation p.Phe508del par MEMO-PCR et analyse de fragments C. Gautier-Dubucs,
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
gnis-pedagogie
Expression du Génome Le transcriptome.
Clonage Moléculaire.
Transcription de la présentation:

Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004

Laboratoire lorrain de recherche en informatique et ses applications (LORIA) Description du Laboratoire –Plus de 400 personnes –~ 30 équipes de tailles variées (3-30 permanents) –4 équipes ont des thèmes Bioinfo … tant pis pour les autres ;-) Place de la Bioinfo dans léquipe ADAGE

Plan Introduction –Oligonucléotide –Spécificité Filtrage –Méthodes proposées Familles de graines –Principe –Design –Propriétés Experimentations Conclusion

Problème posé Problème biologique Oligonucléotide : fragment dADN de taille fixée qui ne sapparie quavec une région déterminée sur une séquence cible. Rechercher les oligonucléotides spécifiques à une séquence. Design doligos Puces à ADN. Design damorces PCR

Problème posé Spécificité Etant données: –Une séquence cible S –Une séquence de fond B Trouver un motif de taille m qui sapparie avec une région de S et aucune région de B

Problème posé Comment définir un oligonucléotides spécifique? –Cest un fragment dADN M de taille fixée m. –Il doit être spécifique : sapparier avec une région dune séquence cible S appariement exact être éloignée de tout fragment dun séquence de fond B.

Représentation des similarités On utilisera la représentation suivante simplifiée (distance de Hamming). Le problème considéré sera appelé problème ( m, k ) GCTACGACTTCGAGCTGC ||||x|||x||||||x||...CTCAGCTATGACCTCGAGCGGCCTATCTA... m k (m,k) M B

Objectif Recherche dans la séquence cible S de tous les motifs spécifiques. –motifs spécifiques : ceux dont les variantes obtenues en substituant k lettres ne sont pas retrouvées dans le texte B. –faire appel à des techniques de Pattern-Matching approché (filtrage du texte).

Filtrage du texte Filtrage considéré : filtrage sans perte. Éliminer les régions qui nont aucune chance dêtre similaires selon un critère donné. –Principe couramment adopté par de nombreuses méthodes de Pattern-Matching approché. –En général basé sur la connaissance de sous-parties conservées.

Techniques traditionnelles PEX [4] –Recherche du plus long fragment conservé. PEX (avec erreurs) –Recherche du plus long fragment k -conservé. parcours des mots k-dérivés dans lindex. Efficace si –petites tailles dalphabets (ADN,ARN) –nombre k relativement faible ( <= 2) m k #### ######### (1) (m,k)

Techniques utilisant des graines espacées Graines espacées (Q-grams espacés) –Technique étudiée par Burkhardt & Kärkkäinen [1]. –Utilisées pour la recherches de motifs approchés (m,k). –Méthode à la fois originale et satisfaisante. Principe –Plutôt que rechercher des fragments contigus dans le texte, baser sa recherche sur des fragments dits espacés. –Sélectivité Liée au poids de la graine (nombre déléments #). Différent de la notion denvergure de la graine (sa taille). ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Combinaison de Filtres De nombreux algorithmes proposent une solution de double filtrage, et donnent comme mesure la sélectivité globale de lensemble des deux filtres. Filtre 1 Filtre 2 Q T

Combinaison de filtres Combinaison de filtres améliore toujours la sélectivité théorique En pratique, lefficacité dépend de la sélectivité du premier filtre utilisé. Filtre 1 Filtre 2

Techniques utilisant des graines espacées Technique utilisant une combinaison de deux filtres. Pevzner Waterman [2] Idée: combiner le filtre PEX avec un filtre utilisant une graine espacée régulière (~PEX espacé). –PEX : –PEX espacé : utiliser une graine régulière ayant des espacements de taille k. #### #...#...#...# k+1

Extension de la méthode proposée par B&K [1] –Lextension directe nous amènerait à utiliser une combinaison de filtres utilisant chacun une graine espacée différente. –Approche pas très intéressante au niveau du gain en sélectivité : il vaut mieux sorienter vers un seul filtre global même si ce dernier utilise plusieurs graines. Famille de graines espacées

–Lextension proposée se base Sur la mise en place dun filtre global utilisant plusieurs graines Sur une conception des graines permettant de garantir la complétude du filtre (filtrage sans perte). –Chaque graine ne garantie de détecter quune partie des instances éventuelles dun problème (m,k). –Lensemble de graines doit détecter toutes les instances possibles dun problème (m,k).

Utiliser un ensemble de graines de manière disjonctive Une famille de graines est un ensemble de s graines qui résout toutes les instances dun problème (m,k). Les graines dune famille sont de même poids Si elles étaient de poids différent, la plus « légère » serait la moins sélective et donc celle qui ralentirait lalgorithme. Famille de graines espacées Dans toute instance de (m,k), Il existe au moins une occurrence dune des graines de la famille qui détecte cette instance La famille F résout le problème (m=18,k=3) ##.#.#### ###...#..##.# F

Exemple ##.##.##### ###.####..## ###.##...#.### ##....####.### ###...#.#.##.## ###.#.#.#.....### Famille de graines espacées ##.#.#### ###...#..##.# ###.##...#.### ###...#..##.#

Exemple ##.##.##### ###.####..## ###.##...#.### ##....####.### ###...#.#.##.## ###.#.#.#.....### Famille de graines espacées ##.#.#### ###...#..##.# ###...#.#.##.## ##....####.### ###.#.#.#.....### ##.#.####

Comparaison des différentes approches –1 –2 –3a –3b –Sélectivité des approches sur des textes i.i.d ( |Σ| = 4 ) (1) Probabilité dobtenir la même graine ~ (2) Probabilité dobtenir la même graine ~ (3a) Probabilité dobtenir une de ces graines ~ (3b) Probabilité dobtenir une de ces graines ~ #### ###.## ##.##.##### ###.####..## ###.##...#.### ##....####.### ###...#.#.##.## ###.#.#.#.....### Famille de graines espacées ##.#.#### ###...#..##.#

Famille de graines espacées Si lon poussait lapproche à lextrême… –Reviendrait à prendre graines de poids m - k. sélectivité = 1 (filtre parfait), coûteux sauf sur très petits problèmes. construction dindex multiples (impossible à gérer en mémoire) Une approche intermédiaire est, semble t-il, préférable –Nombre de graines suffisamment faible (< 10) pour générer un index multiple de taille raisonnable. –Poids de graines suffisamment élevé pour obtenir une sélectivité satisfaisante sur le texte considéré.

Design des familles de graines Recherche exhaustive proposée par B&K [1] –Construction de toutes les solutions de poids w à partir des solutions de poids w – 1 –Exemple si ##..#..# et ##.#...# sont solutions de poids w-1, considérer la graine «union» ##.##..# de poids w. –Coût élevé « 1 (bonne) semaine pour la recherche de toutes les solutions du problème (m=50,k=5) pour une seule graine » La dimension de recherche augmente avec le nombre de graines par famille. peu despoir de résoudre complètement le problème au delà de 3 graines par famille.

Méthode proposée pour le design Algorithme réalisant le design dune famille de graines –Données : Un problème (m,k) Une taille de famille s et le poids w des graines souhaitées –Résultat : éventuellement une famille de s graines de poids w résolvant le problème (m,k) Sinon la meilleure famille actuellement trouvée et le nombre dinstances de (m,k) qui ne sont pas détectées par cette famille Méthode développée: méthode heuristique.

Méthode proposée pour le design Pré Filtrage –On sélectionne des instance de ( m, k ) dites difficiles. –On teste des familles de graines aléatoires. Les instances sont réordonnées en fonction de leur succès à bloquer les familles de graines (méthode list as a tree ). Les familles de graines qui ne satisfont pas lune des instances sont éliminées. –Bit-optimisation des instances de (m,k) des familles de graines sélectionnent et ordonnent sélectionnent

Evolution des graines B&K : deux solutions de poids 12 pour le problème (m=50,k=5): ###.#..###.#..###.# et #.#.#...#.....#.#.#...#.....#.#.#...# Définition –On note le i espacement régulier dune famille de graines Exemple –Si F = { ###.#, ##.## } alors – = { #.#.#...#, #.#...#.# } – = { #..#..#.....#, #..#.....#..# }

Evolution des graines Propriétés –Si une famille F résout un problème (m,k) donné, alors les familles F et résolvent le problème (i.m, i.k + k - 1) –Si une famille résout un problème (m,k) alors son i contraction F résout le problème (m, ) ##.#.#### ###...#..##.# ##.#.#### ###...#..##.# #.#...#...#.#.#.##.#.# #.....#.#...##.#...#...#.#.#.##.#.# #.....#.#...#

Méthode proposée pour le design Optimisation Algorithme génétique (optimisation stochastique) –Sélection de familles de graines résolvant le plus grand nombre dinstances de ( m, k ) évolution (par un certain nombre de techniques) des graines constituant la famille mesure du nombre dinstances de ( m, k ) non résolues –Algorithme génétique : convergence vers solution optimale non garantie … (et peu probable sur grandes instances)

Méthode proposée pour le design rapide Optimisation utilisation de motifs «courts» ayant de bonnes propriétés concaténation de motifs pour former des graines. ###-#--###-#--###-# ###-#--

Explications Le motif court résout un problème circulaire Problème Circulaire ( m=11,k=3 ) Problème Linéaire ( m=30,k=3 ) ###-#--#--- ###-#--#---###-#--#

Famille des graines espacées La propriété de circularité sapplique également Problème Circulaire ( m=11,k=3 ) Problème Linéaire ( m=25,k=3 ) ###-#--#--- ###-#--#---###-#--# #--#---###-#--#---###

Famille de graines espacées La propriété de circularité sapplique également Problème Circulaire ( m=11,k=3 ) Problème Linéaire ( m=25,k=3 ) ###-#--#--- ###-#--#---###-#--# #--#---###-#--#---###

Mesure de lefficacité des familles Problèmes posés : –Mesurer le nombre dinstances non détectées par une famille. –Mesurer la contribution dune graine sur le nombre dinstances résolues. Algorithme de programmation dynamique –Idée : ramener les instances des problèmes ( m, k ) à des sous problèmes ( m < m, k < k ) en introduisant un mot connu w. –Ne pas parcourir les sous instances triviales ou amenant à des résultats prévisibles par un pré-calcul. w(m,k)

Mesure de lefficacité des familles Schéma général Les mots w peuvent être de taille limitée –Span de la plus grande graine de la famille –Ne conserver que le suffixe w [ |w| - sp max +1.. w ] Pré-calcul Considérer pour chaque mot w son plus grand suffixe qui peut donner lieu à un match. G (w,m,k) G (w. 1, m+ 1,k ) G (w. 0, m + 1,k- 1 ) w(m,k)

Résultats asymptotiques Principe : On fixe le nombre derreurs autorisées k. On fait varier la taille du motif m (vers linfini). poids de la graine optimale pour le problème (m,k) ?

Résultats asymptotiques sur le problème (m,k) circulaire On considère le poids de la graine optimale w(m) dun problème (m,k) circulaire ( k fixé) Nouvelles Bonne : le ratio entre le nombre de jokers de la graine et sa longueur totale tend vers 0. Mauvaise : cest une convergence dautant plus lente que k est grand

Résultats asymptotiques sur le problème (m,k) linéaire On considère le poids de la graine optimale w(m) dun problème (m,k) linéaire ( k fixé) Nouvelles Bonne : le ratio entre le nombre de jokers de la graine et sa longueur totale tend vers 0. Mauvaise : cest une convergence dautant plus lente que k est grand

Résultats Graines obtenues pour le problème (25,2)

Résultats Graines obtenues pour le problème (25,3)

Application à la recherche doligos La méthode proposée peut servir de filtre pour la recherche doligos spécifiques –Elle ne peut sy substituer totalement Calcul de lénergie libre (énergie de non hybridation) sur la séquence cible, et la séquence de fond (modèle de SantaLucia [3] ) En particulier, vérifier que loligo ne puisse pas se replier sur lui même. –Elle ne représente quune heuristique pour la recherche de loligo optimal (en terme dénergie de liaison) Il faut quelquefois considérer les erreurs de type indel. loligo optimal (en terme de sélectivité) nest pas nécessairement le complémentaire exact.

Résultats Graines obtenues pour le problème (32,5)

Propriétés Garanties sur les résultats doutils heuristiques. –Blast : garantie si la séquence contient un fragment similaire exact de poids 11. –Pattern-Hunter : sensible mais garantie dune graine est peu compréhensible … –Yass : + sensible mais critère encore + confus donne une garantie moins discernable … –Famille de graines : apporterait une garantie sur le résultat trouvé: Garantie de trouver une répétition si elle contient un fragment commun de taille m ayant au plus k substitutions. Coût en sélectivité pas nécessairement plus élevé si les graines sont bien choisies.

Conclusion Méthode de filtrage pour pattern-matching approché –Basée sur le design et lutilisation dune famille de graines espacées. –Sélective en pratique mais nécessite un effort de calcul pour le design des graines. Extensions possibles –Considérer des graines espacées autorisant une erreur. Problèmes ouverts –Un algorithme efficace pour le design de la famille de graines optimale ?

Références [1] S. Burkhardt and J. Kärkkäinen, Better Filtering with Gapped q-Grams, Fundamenta Informaticae, 23: [2] P.Pevzner and M.Waterman, Multiple Filtration and Approximate Pattern Matching, Algorithmica 13(1/2), [3] J.SantaLucia, A unified view of polymer and oligonucleotide DNA nearest- neighbor thermodynamics, Biochemistry 95: [4] G.Navarro and M.Raffinot, Flexible Pattern Matching in Strings -- Practical on-line search algorithms for texts, Cambridge University Press 2002 [5] …