Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004.

Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Laboratoire lorrain de recherche en informatique et ses applications (LORIA) Description du Laboratoire –Plus de 400 personnes –~ 30 équipes de tailles variées (3-30 permanents) –4 équipes ont des thèmes Bioinfo … tant pis pour les autres ;-) Place de la Bioinfo dans léquipe ADAGE

Plan Introduction –Oligonucléotide –Spécificité Filtrage –Méthodes proposées Familles de graines –Principe –Design –Propriétés Experimentations Conclusion

Problème posé Problème biologique Oligonucléotide : fragment dADN de taille fixée qui ne sapparie quavec une région déterminée sur une séquence cible. Rechercher les oligonucléotides spécifiques à une séquence. Design doligos Puces à ADN. Design damorces PCR

Problème posé Spécificité Etant données: –Une séquence cible S –Une séquence de fond B Trouver un motif de taille m qui sapparie avec une région de S et aucune région de B

Problème posé Comment définir un oligonucléotides spécifique? –Cest un fragment dADN M de taille fixée m. –Il doit être spécifique : sapparier avec une région dune séquence cible S appariement exact être éloignée de tout fragment dun séquence de fond B.

Représentation des similarités On utilisera la représentation suivante simplifiée (distance de Hamming). Le problème considéré sera appelé problème ( m, k ) GCTACGACTTCGAGCTGC ||||x|||x||||||x||...CTCAGCTATGACCTCGAGCGGCCTATCTA... m k (m,k) M B

Objectif Recherche dans la séquence cible S de tous les motifs spécifiques. –motifs spécifiques : ceux dont les variantes obtenues en substituant k lettres ne sont pas retrouvées dans le texte B. –faire appel à des techniques de Pattern-Matching approché (filtrage du texte).

Filtrage du texte Filtrage considéré : filtrage sans perte. Éliminer les régions qui nont aucune chance dêtre similaires selon un critère donné. –Principe couramment adopté par de nombreuses méthodes de Pattern-Matching approché. –En général basé sur la connaissance de sous-parties conservées.

Techniques traditionnelles PEX [4] –Recherche du plus long fragment conservé. PEX (avec erreurs) –Recherche du plus long fragment k -conservé. parcours des mots k-dérivés dans lindex. Efficace si –petites tailles dalphabets (ADN,ARN) –nombre k relativement faible ( <= 2) m k #### ######### (1) (m,k)

Techniques utilisant des graines espacées Graines espacées (Q-grams espacés) –Technique étudiée par Burkhardt & Kärkkäinen [1]. –Utilisées pour la recherches de motifs approchés (m,k). –Méthode à la fois originale et satisfaisante. Principe –Plutôt que rechercher des fragments contigus dans le texte, baser sa recherche sur des fragments dits espacés. –Sélectivité Liée au poids de la graine (nombre déléments #). Différent de la notion denvergure de la graine (sa taille). ###.##

Exemple Sur le problème (m=18,k=3) ###.##

Combinaison de Filtres De nombreux algorithmes proposent une solution de double filtrage, et donnent comme mesure la sélectivité globale de lensemble des deux filtres. Filtre 1 Filtre 2 Q T

Combinaison de filtres Combinaison de filtres améliore toujours la sélectivité théorique En pratique, lefficacité dépend de la sélectivité du premier filtre utilisé. Filtre 1 Filtre 2

Techniques utilisant des graines espacées Technique utilisant une combinaison de deux filtres. Pevzner Waterman [2] Idée: combiner le filtre PEX avec un filtre utilisant une graine espacée régulière (~PEX espacé). –PEX : –PEX espacé : utiliser une graine régulière ayant des espacements de taille k. #### #...#...#...# k+1

Extension de la méthode proposée par B&K [1] –Lextension directe nous amènerait à utiliser une combinaison de filtres utilisant chacun une graine espacée différente. –Approche pas très intéressante au niveau du gain en sélectivité : il vaut mieux sorienter vers un seul filtre global même si ce dernier utilise plusieurs graines. Famille de graines espacées

–Lextension proposée se base Sur la mise en place dun filtre global utilisant plusieurs graines Sur une conception des graines permettant de garantir la complétude du filtre (filtrage sans perte). –Chaque graine ne garantie de détecter quune partie des instances éventuelles dun problème (m,k). –Lensemble de graines doit détecter toutes les instances possibles dun problème (m,k).

Utiliser un ensemble de graines de manière disjonctive Une famille de graines est un ensemble de s graines qui résout toutes les instances dun problème (m,k). Les graines dune famille sont de même poids Si elles étaient de poids différent, la plus « légère » serait la moins sélective et donc celle qui ralentirait lalgorithme. Famille de graines espacées Dans toute instance de (m,k), Il existe au moins une occurrence dune des graines de la famille qui détecte cette instance La famille F résout le problème (m=18,k=3) ##.#.#### ###...#..##.# F

Exemple ##.##.##### ###.####..## ###.##...#.### ##....####.### ###...#.#.##.## ###.#.#.#.....### Famille de graines espacées ##.#.#### ###...#..##.# ###.##...#.### ###...#..##.#

Exemple ##.##.##### ###.####..## ###.##...#.### ##....####.### ###...#.#.##.## ###.#.#.#.....### Famille de graines espacées ##.#.#### ###...#..##.# ###...#.#.##.## ##....####.### ###.#.#.#.....### ##.#.####

Comparaison des différentes approches –1 –2 –3a –3b –Sélectivité des approches sur des textes i.i.d ( |Σ| = 4 ) (1) Probabilité dobtenir la même graine ~ 3.9 10 -3 (2) Probabilité dobtenir la même graine ~ 9.8 10. -4 (3a) Probabilité dobtenir une de ces graines ~ 1.2 10. -4 (3b) Probabilité dobtenir une de ces graines ~ 2.3 10. -5 #### ###.## ##.##.##### ###.####..## ###.##...#.### ##....####.### ###...#.#.##.## ###.#.#.#.....### Famille de graines espacées ##.#.#### ###...#..##.#

Famille de graines espacées Si lon poussait lapproche à lextrême… –Reviendrait à prendre graines de poids m - k. sélectivité = 1 (filtre parfait), coûteux sauf sur très petits problèmes. construction dindex multiples (impossible à gérer en mémoire) Une approche intermédiaire est, semble t-il, préférable –Nombre de graines suffisamment faible (< 10) pour générer un index multiple de taille raisonnable. –Poids de graines suffisamment élevé pour obtenir une sélectivité satisfaisante sur le texte considéré.

Design des familles de graines Recherche exhaustive proposée par B&K [1] –Construction de toutes les solutions de poids w à partir des solutions de poids w – 1 –Exemple si ##..#..# et ##.#...# sont solutions de poids w-1, considérer la graine «union» ##.##..# de poids w. –Coût élevé « 1 (bonne) semaine pour la recherche de toutes les solutions du problème (m=50,k=5) pour une seule graine » La dimension de recherche augmente avec le nombre de graines par famille. peu despoir de résoudre complètement le problème au delà de 3 graines par famille.

Méthode proposée pour le design Algorithme réalisant le design dune famille de graines –Données : Un problème (m,k) Une taille de famille s et le poids w des graines souhaitées –Résultat : éventuellement une famille de s graines de poids w résolvant le problème (m,k) Sinon la meilleure famille actuellement trouvée et le nombre dinstances de (m,k) qui ne sont pas détectées par cette famille Méthode développée: méthode heuristique.

Méthode proposée pour le design Pré Filtrage –On sélectionne des instance de ( m, k ) dites difficiles. –On teste des familles de graines aléatoires. Les instances sont réordonnées en fonction de leur succès à bloquer les familles de graines (méthode list as a tree ). Les familles de graines qui ne satisfont pas lune des instances sont éliminées. –Bit-optimisation des instances de (m,k) des familles de graines sélectionnent et ordonnent sélectionnent

Evolution des graines B&K : deux solutions de poids 12 pour le problème (m=50,k=5): ###.#..###.#..###.# et #.#.#...#.....#.#.#...#.....#.#.#...# Définition –On note le i espacement régulier dune famille de graines Exemple –Si F = { ###.#, ##.## } alors – = { #.#.#...#, #.#...#.# } – = { #..#..#.....#, #..#.....#..# }

Evolution des graines Propriétés –Si une famille F résout un problème (m,k) donné, alors les familles F et résolvent le problème (i.m, i.k + k - 1) –Si une famille résout un problème (m,k) alors son i contraction F résout le problème (m, ) ##.#.#### ###...#..##.# ##.#.#### ###...#..##.# #.#...#...#.#.#.##.#.#.......#.....#.#...##.#...#...#.#.#.##.#.#.......#.....#.#...#

Méthode proposée pour le design Optimisation Algorithme génétique (optimisation stochastique) –Sélection de familles de graines résolvant le plus grand nombre dinstances de ( m, k ) évolution (par un certain nombre de techniques) des graines constituant la famille mesure du nombre dinstances de ( m, k ) non résolues –Algorithme génétique : convergence vers solution optimale non garantie … (et peu probable sur grandes instances)

Méthode proposée pour le design rapide Optimisation utilisation de motifs «courts» ayant de bonnes propriétés concaténation de motifs pour former des graines. ###-#--###-#--###-# ###-#--

Explications Le motif court résout un problème circulaire Problème Circulaire ( m=11,k=3 ) Problème Linéaire ( m=30,k=3 ) ###-#--#--- ###-#--#---###-#--#

Famille des graines espacées La propriété de circularité sapplique également Problème Circulaire ( m=11,k=3 ) Problème Linéaire ( m=25,k=3 ) ###-#--#--- ###-#--#---###-#--# #--#---###-#--#---###

Famille de graines espacées La propriété de circularité sapplique également Problème Circulaire ( m=11,k=3 ) Problème Linéaire ( m=25,k=3 ) ###-#--#--- ###-#--#---###-#--# #--#---###-#--#---###

Mesure de lefficacité des familles Problèmes posés : –Mesurer le nombre dinstances non détectées par une famille. –Mesurer la contribution dune graine sur le nombre dinstances résolues. Algorithme de programmation dynamique –Idée : ramener les instances des problèmes ( m, k ) à des sous problèmes ( m < m, k < k ) en introduisant un mot connu w. –Ne pas parcourir les sous instances triviales ou amenant à des résultats prévisibles par un pré-calcul. w(m,k)

Mesure de lefficacité des familles Schéma général Les mots w peuvent être de taille limitée –Span de la plus grande graine de la famille –Ne conserver que le suffixe w [ |w| - sp max +1.. w ] Pré-calcul Considérer pour chaque mot w son plus grand suffixe qui peut donner lieu à un match. G (w,m,k) G (w. 1, m+ 1,k ) G (w. 0, m + 1,k- 1 ) w(m,k)

Résultats asymptotiques Principe : On fixe le nombre derreurs autorisées k. On fait varier la taille du motif m (vers linfini). poids de la graine optimale pour le problème (m,k) ?

Résultats asymptotiques sur le problème (m,k) circulaire On considère le poids de la graine optimale w(m) dun problème (m,k) circulaire ( k fixé) Nouvelles Bonne : le ratio entre le nombre de jokers de la graine et sa longueur totale tend vers 0. Mauvaise : cest une convergence dautant plus lente que k est grand

Résultats asymptotiques sur le problème (m,k) linéaire On considère le poids de la graine optimale w(m) dun problème (m,k) linéaire ( k fixé) Nouvelles Bonne : le ratio entre le nombre de jokers de la graine et sa longueur totale tend vers 0. Mauvaise : cest une convergence dautant plus lente que k est grand

Résultats Graines obtenues pour le problème (25,2)

Application à la recherche doligos La méthode proposée peut servir de filtre pour la recherche doligos spécifiques –Elle ne peut sy substituer totalement Calcul de lénergie libre (énergie de non hybridation) sur la séquence cible, et la séquence de fond (modèle de SantaLucia [3] ) En particulier, vérifier que loligo ne puisse pas se replier sur lui même. –Elle ne représente quune heuristique pour la recherche de loligo optimal (en terme dénergie de liaison) Il faut quelquefois considérer les erreurs de type indel. loligo optimal (en terme de sélectivité) nest pas nécessairement le complémentaire exact.

Propriétés Garanties sur les résultats doutils heuristiques. –Blast : garantie si la séquence contient un fragment similaire exact de poids 11. –Pattern-Hunter : sensible mais garantie dune graine est peu compréhensible … –Yass : + sensible mais critère encore + confus donne une garantie moins discernable … –Famille de graines : apporterait une garantie sur le résultat trouvé: Garantie de trouver une répétition si elle contient un fragment commun de taille m ayant au plus k substitutions. Coût en sélectivité pas nécessairement plus élevé si les graines sont bien choisies.

Conclusion Méthode de filtrage pour pattern-matching approché –Basée sur le design et lutilisation dune famille de graines espacées. –Sélective en pratique mais nécessite un effort de calcul pour le design des graines. Extensions possibles –Considérer des graines espacées autorisant une erreur. Problèmes ouverts –Un algorithme efficace pour le design de la famille de graines optimale ?

Références [1] S. Burkhardt and J. Kärkkäinen, Better Filtering with Gapped q-Grams, Fundamenta Informaticae, 23:1001-1018 2003 [2] P.Pevzner and M.Waterman, Multiple Filtration and Approximate Pattern Matching, Algorithmica 13(1/2), 135-154 1995 [3] J.SantaLucia, A unified view of polymer and oligonucleotide DNA nearest- neighbor thermodynamics, Biochemistry 95:1460-1465 1998 [4] G.Navarro and M.Raffinot, Flexible Pattern Matching in Strings -- Practical on-line search algorithms for texts, Cambridge University Press 2002 [5] …

Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004.

Présentations similaires

Présentation au sujet: "Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004.

Présentations similaires

Présentation au sujet: "Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back