Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parSibylle Voisin Modifié depuis plus de 10 années
1
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation de texte et découverte de motifs
2
2 Plan La problématique –Lalignement de séquences : heuristiques à laide de graines –Modèles de graines : Graines Espacées, Graines à transitions Sensibilité des graines : –Algorithme de Programmation Dynamique –Automate associé –Extension proposée Expérimentations –Automate et ses propriétés –programme Hedera
3
3 Pourquoi sintéresser aux méthodes dalignement local Oui, pourquoi ? #séquences, #utilisateurs, ( budget ) Programmation Dynamique (Smith-Waterman) –Donne une solution exacte –Coût quadratique (Optimisation en [Crochemore et al 02]) Méthodes Heuristiques –Fasta, Blast, PatternHunter, Blastz, Yass,… En pratique
4
4 Dot plot ctcgactcgggctcacgctcgcaccgggttacagcggtcgattgct aggcctcgggctcgcgctcgcgcgctagacaccgggttacagcgt Alignement détecté Filtrage à laide de graines Rechercher de courts fragments de texte conservés (graines). Puis Étendre ces graines de manière à former des alignements Graines détectées
5
5 Graines contiguës similarité exacte : motif de graine : Graine Contiguë Exemple : ATCAGT |||||| ATCAGT ###### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA
6
6 ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA Graines espacées [Ma et al. 02: PATTERNHUNTER] Motif de graine : ###--#-## # : position dun match(accepte uniquement un | ) - : position dun joker(accepte tout : | :. ) Poids : 6[nombre de #] Étendue : 9[longueur totale] Exemple : ###--#-## ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA
7
7 Un exemple à titre illustratif ATCAGTGCAATGCTCAAGA ||||||||||||||||||| ATCAGTGCAATGCTCAAGA ###--#-## ATCAGTGCAATGCTCAAGA ||||||||||||||||||| ATCAGTGCAATGCTCAAGA ###### ATCAGTGCAATGCTCAAGA ||||||||||||||||||| ATCAGTGCAATGCTCAAGA ###--#-## ATCAGTGCAATGCTCAAGA ||||||||||||||||||| ATCAGTGCAATGCTCAAGA ###### ATCAGTGCAATGCTCAAGA ||||||||||||||||||| ATCAGTGCAATGCTCAAGA ###--#-## ATCAGTGCAATGCTCAAGA ||||||||||||||||||| ATCAGTGCAATGCTCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.||||||||||||| ATCAGCGCAATGCTCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||||||||||||| ATCAGCGCAATGCTCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.||||||||||||| ATCAGCGCAATGCTCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||||||||||||| ATCAGCGCAATGCTCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.||||||||||||| ATCAGCGCAATGCTCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||||||||||||| ATCAGCGCAATGCTCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.||||||||||||| ATCAGCGCAATGCTCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||||||||||||| ATCAGCGCAATGCTCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.|||||||:||||| ATCAGCGCAATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.|||||||:||||| ATCAGCGCAATGCGCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.|||||||:||||| ATCAGCGCAATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.|||||||:||||| ATCAGCGCAATGCGCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.|||||||:||||| ATCAGCGCAATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.|||||||:||||| ATCAGCGCAATGCGCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.|||||||:||||| ATCAGCGCAATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.|||||||:||||| ATCAGCGCAATGCGCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###### ###### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###### ###### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###--#-## ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ###### ######
8
8 Graines espacées Les graines espacées sont plus sensibles que les graines contiguës. Possibilité détendre le modèle des graines espacées, en prenant en compte les familles de mutations.
9
9 Propriétés Biologiques Transitions sont souvent sur-représentées. Phénomène de régularité dans les séquences codantes. Utiliser ces propriétés pour étendre le modèle des graines espacées. ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA Mutations sur lADN AT GC transitions transversions. : ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA
10
10 modèle de YASS: Graines à Transitions Motif de graine : ##@#-#@-### # : position dun match - : position dun joker @ : position dun élément autorisant des transitions @ : élément autorisant des transitions : accepte |,. ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ##@#-#@-### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ##@#-#@-### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ##@#-#@-### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ##@#-#@-### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ##@#-#@-### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA ##@#-#@-### ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA
11
11 Graines espacées Graines à transitions Problème : le choix du motif. ( pourquoi ##@#-#@-### et pas #-#-#@#-#@# ?) Le choix nest pas aléatoire Il faut: 1.Définir un modèle dalignement. 2.Rechercher la graine la plus sensible sur ce modèle calcul de la sensibilité Sensibilité : probabilité de détecter un alignement du modèle
12
12 1. Modèle dalignement Quest ce quun alignement Modèle dalignement: Modèle X sur lalphabet ou X = Bernoulli, Markov, HMM … ATCAGTGCAATGCTCAAGA |||||.||.||||:||||| ATCAGCGCGATGCGCAAGA |||||.||.||||:||||| 1111101101111011111 modèle match/mismatch 11111h11h1111011111 modèle match/tr./tv.
13
13 2. Calcul de la sensibilité dune graine Algorithme de programmation dynamique. Représenter une graine par un automate : graine expression régulière R automate reconnaissant Calculer la probabilité datteindre létat final sous le modèle X. [Motifs Statistics, Nicodème et al.] π = #-#-# 0 0 0 0 0 0 0 1 0 1 1 1 0 1 1 0 1 1 1 1
14
14 Méthode proposé par Buhler Exemple : –Reconnaître les mots détectés par la graine #-#-# 11111 10101 10111 11101 1 0 1 1 1 0 1 1 0 1 1 1 1 (automate de Aho-Corasick) [Designing Seeds for Similarity Search in Genomic DNA, Buhler et al.]
15
15 Méthode proposé par Buhler Exemple : –Ne pas oublier les liens préfixes (AC : fonction bord ou fail) 0 0 0 0 0 0 0 #-#-# 1 0 1 1 1 0 1 1 0 1 1 1 1 11111 10101 10111 11101
16
16 Méthode proposé par Buhler Exemple : –Fusion des états finaux #-#-# 0 0 0 0 0 0 0 1 0 1 1 1 0 1 1 0 1 1 1 1 11111 10101 10111 11101
17
17 Méthode proposé par Buhler Exemple : –Fusion des états finaux #-#-# 11111 10101 10111 11101 0 0 0 0 0 0 0 1 0 1 1 1 0 1 1 0 1 1 1 1
18
18 Méthode proposé par Buhler Exemple : –On obtient un automate qui accepte tous les alignements que la graine détecte. #-#-# 0 0 0 0 0 0 0 1 0 1 1 1 0 1 1 0 1 1 1 1
19
19 0 0 0 0 0 0 0 1 0 1 1 1 0 1 1 0 1 1 1 1 Méthode proposé par Buhler Calcul de la sensibilité : Algorithme de programmation dynamique Probabilité datteindre létat E lors de la lecture du i éme caractère –Dépend de la probabilité datteindre létat D 1, D 2,ou D 3 lors de létape i-1. –Dépend de la probabilité de générer le caractère 0 dans le modèle dalignement. E D1D1 D2D2 D3D3
20
20 Méthode proposé par Buhler Taille de lautomate construit : Exponentielle En pratique, la minimisation de Hopcroft est appliquée avant le calcul de la sensibilité. Et pour des graines à transitions ?? #-#-# w = nombre de # l = étendue de la graine
21
21 Et pour les graines à transitions On pourrait adopter le même principe: #@-# 0,h0,h 0,h0,h h 0 h 0 0 h0,h0,h 1 h 1 h h 1 0 1 1 1 1 0
22
22 Et pour les graines à transitions Taille de lautomate construit : Exponentielle avec Les graines à transitions: lautomate explose til vraiment ? se placer dans le cadre plus général des Subset Seeds… #@-# w = nombre de # l = étendue de la graine
23
23 Graines de type Subset Seeds Modèle des Subset Seeds Alphabet des alignements Alphabet des graines Exemple : graines à transitions { match, transition, transversion }
24
24 Graines de type Subset Seeds Il est possible dobtenir une construction dautomate en temps et en espace : La base ne dépend plus de la taille de lalphabet Cet automate sera de taille à celui de AC, et ce, même dans le cadre des graines espacées classiques #@-# w : nombre de # l : étendue de la graine
25
25 101h111h Automate des Subset seeds Information nécessaire : –Pour un alignement donne, quels sont les préfixes de π qui détectent cet alignement ? Restrictions –Se restreindre aux séquences ne terminant pas par 1 –Se restreindre aux préfixes ne terminant pas par # Cet ensemble de préfixes restreint sera appelé π : #@-#@-## 101h111h #@-#@-## #@-#@-# #@-#@- #@-#@ #@-# #@- #@ # 101h111h #@-#@-## #@-#@-# #@-#@- #@-#@ #@-# #@- #@ #
26
26 Définition de lautomate Définition des états Q – : ensemble des préfixes restreints qui détectent lalignement courant – : longueur du plus grand suffixe ayant la forme 1 t Etats finaux –Etats tels que 101h111h #@-#@- #@-#@ #@- #@ 101h111h1 #@-#@- #@-#@ #@- #@ 101h111h11 #@-#@- #@-#@ #@- #@ π : #@-#@-## 101h111h #@-#@-## #@-#@-# #@-#@- #@-#@ #@-# #@- #@ # 101h111h11 #@-#@-## #@-#@-# #@-#@ #@-# t q
27
27 Définition de lautomate 101h111h #@-#@- #@-#@ #@- #@ π : #@-#@-## 101h111h1 #@-#@- #@-#@ #@- #@ 101h111h1 #@-#@-# #@-#@- #@-# #@- 101h111h1h #@-#@-# #@-#@- #@-# #@- 101h111h1h #@-#@-## #@-#@-# #@-#@ #@-# 101h111h1h #@-#@-## #@-#@-# #@-#@ #@-# 101h111h1h #@-#@-## #@-#@-# #@-#@ #@-# #@ –si a = 1 alors le préfixe 1 t est étendu –Sinon X est la remise à jour des préfixes X après lecture de 1 t a Définition de la fonction de transition
28
28 Un exemple: –États Q π : #@-# avec RπRπ #@ #@-
29
29 X = {Ø} t = 0 X = {Ø} t = 1 X = {Ø} t = 2 X = {Ø} t = 3 X = {2} t = 0 X = {2} t = 1 X = {2,3} t = 0 X = {3} t = 0 F avec 1 1 1 1 1 1 h 0,h0,h 0 0, h h 0 h 0 0,h0,h π : #@-#
30
30 Expérimentations Comparaison –Automate de Aho-Corasick –Automate présenté (Automate des Subset Seeds) –Comparaison avec lautomate minimisé
31
31 Comparaisons : 1) Cas des graines à transitions
32
32 Comparaisons: 2) Cas des graines espacées
33
33 Programme Hedera Le programme Calcul de la sensibilité de graines à transitions Bientôt en ligne http://yass.loria.fr …
34
34 Conclusion Concept de graines du type Subset Seed –généralisation du modèle de graines à transitions de YASS –extension possible pour les protéines Construction de lautomate –Automate compact et rapide à construire Algorithme de calcul de la sensibilité …
35
35 Questions … ? ? ? ? ? http://yass.loria.fr
36
36
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.