Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parGérald Molina Modifié depuis plus de 9 années
1
STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004
2
Plan La recherche de motifs Fonctionnement de STAN Syntaxe des motifs Étude sur le temps d’exécution Interface graphique
3
La recherche de motif Signature de familles de protéines Signature de sites fonctionnels Eléments structuraux (palindromes) Eléments répétés
4
Problèmes soulevés par la recherche de motifs Taille des génomes Génome humain 3.2 milliards de bp Indexation des génomes Complexité des modèles biologiques Formalismes avancés Grammaire de type SVG (String Variables Grammars)
5
STAN: Fonctionnement Motif (grammaire) Séquence Arbre des suffixes Suite d’instructions (sur l’arbre des suffixes) Résultats de la recherche 4 3 1 2
6
STAN: Arbre des suffixes Contient tous les suffixes de la séquence Indexe tous les mots de la séquence Méthode de S. Kurtz Complexité en espace (facteur 12) Construction en un temps linéaire
7
Les arbres des suffixes Exemple de construction : Séquence : AGGAGCT
8
AGGAGCT Exemple de construction
9
AGGAGCT 1 Exemple de construction
10
AGGAGCT 1 GGAGCT 2 AGGAGCT Exemple de construction
11
AGGAGCT Exemple de construction AGGAGCT 1 GGAGCT 2
12
AGGAGCT 1 3 G AGCT 2 GAGCT Exemple de construction
13
AGGAGCT Exemple de construction AGGAGCT 1 3 G AGCT 2 GAGCT
14
AGGAGCT Exemple de construction GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT
15
AGGAGCT Exemple de construction CT 5 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT
16
Exemple de construction AGGAGCT CT 6 5 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT
17
Exemple de construction AGGAGCT T 7 CT 6 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT CT 5
18
Exemple de construction Arbre des suffixes pour la séquence AGGAGCT T 7 CT 6 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT CT 5
19
Arbre des suffixes pour un chromosome
20
STAN: Syntaxe du motif Succession de bases (mot) abcd avec a, b, c et d des bases. Disjonction de bases [abc] avec a, b et c différentes bases Disjonction de mots [A|C] avec A et C deux mots GAP (ensemble de bases quelconques) de taille fixe x(num) avec num la taille du gap. GAP de taille variable x(num1,num2), avec la taille du gap comprise entre num1 et num2 Succession de bases avec erreur de substitution pattern:num Variable de chaîne X:[num] ou X:[min,max] suivi de X dans le motif ou de ~X pour le palindrome de X
21
Recherche de structures en palindrome avec les variables de chaîne CTAGATTTTAA:2 - X:[7] - x(4) - ~X:5 - ACGATTT:1 CTAGATTTTAA ACGATTT N N N N
22
Séquence: Chromosome 1 de A. Thaliana Motif: 6 types de complexité croissante type, 10 motifs générés aléatoirement STAN: Temps d’exécution
23
STAN: Types de motifs Type 1: Un mot (20 ≤ taille ≤ 30) Type 2: Un mot avec erreurs (taux d’erreurs 33%)
24
STAN: Types de motifs Type 3: mot - gap - mot - gap - mot mot: (5 ≤ taille ≤ 10) gap: x(a,b) avec a [100;200], b-a [1;200] Type 4: mot - gap – mot - gap – mot mot: (5 ≤ taille ≤ 10) avec erreurs (taux d’erreur 33%) gap: x(a,b) avec a [100;200], b-a [1;200]
25
STAN: Types de motifs Type 5: mot - var - palindrome(var) - mot mot: (10 ≤ taille ≤ 15) var: variable de chaîne ( 5 ≤ taille ≤ 10 ) Type 4: mot - var - palindrome(var) - mot mot: (10 ≤ taille ≤ 15) avec erreurs (taux d’erreur 33%) var: variable de chaîne ( 5 ≤ taille ≤ 10 ) taux d’erreur 50%
26
STAN: Temps d’exécution
28
STAN: Interface graphique http://idefix.univ-rennes1.fr:8080/PatternMatching/
30
STAN: Interface graphique
32
Questions?
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.