STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004
Plan La recherche de motifs Fonctionnement de STAN Syntaxe des motifs Étude sur le temps d’exécution Interface graphique
La recherche de motif Signature de familles de protéines Signature de sites fonctionnels Eléments structuraux (palindromes) Eléments répétés
Problèmes soulevés par la recherche de motifs Taille des génomes Génome humain 3.2 milliards de bp Indexation des génomes Complexité des modèles biologiques Formalismes avancés Grammaire de type SVG (String Variables Grammars)
STAN: Fonctionnement Motif (grammaire) Séquence Arbre des suffixes Suite d’instructions (sur l’arbre des suffixes) Résultats de la recherche
STAN: Arbre des suffixes Contient tous les suffixes de la séquence Indexe tous les mots de la séquence Méthode de S. Kurtz Complexité en espace (facteur 12) Construction en un temps linéaire
Les arbres des suffixes Exemple de construction : Séquence : AGGAGCT
AGGAGCT Exemple de construction
AGGAGCT 1 Exemple de construction
AGGAGCT 1 GGAGCT 2 AGGAGCT Exemple de construction
AGGAGCT Exemple de construction AGGAGCT 1 GGAGCT 2
AGGAGCT 1 3 G AGCT 2 GAGCT Exemple de construction
AGGAGCT Exemple de construction AGGAGCT 1 3 G AGCT 2 GAGCT
AGGAGCT Exemple de construction GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT
AGGAGCT Exemple de construction CT 5 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT
Exemple de construction AGGAGCT CT 6 5 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT
Exemple de construction AGGAGCT T 7 CT 6 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT CT 5
Exemple de construction Arbre des suffixes pour la séquence AGGAGCT T 7 CT 6 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT CT 5
Arbre des suffixes pour un chromosome
STAN: Syntaxe du motif Succession de bases (mot) abcd avec a, b, c et d des bases. Disjonction de bases [abc] avec a, b et c différentes bases Disjonction de mots [A|C] avec A et C deux mots GAP (ensemble de bases quelconques) de taille fixe x(num) avec num la taille du gap. GAP de taille variable x(num1,num2), avec la taille du gap comprise entre num1 et num2 Succession de bases avec erreur de substitution pattern:num Variable de chaîne X:[num] ou X:[min,max] suivi de X dans le motif ou de ~X pour le palindrome de X
Recherche de structures en palindrome avec les variables de chaîne CTAGATTTTAA:2 - X:[7] - x(4) - ~X:5 - ACGATTT:1 CTAGATTTTAA ACGATTT N N N N
Séquence: Chromosome 1 de A. Thaliana Motif: 6 types de complexité croissante type, 10 motifs générés aléatoirement STAN: Temps d’exécution
STAN: Types de motifs Type 1: Un mot (20 ≤ taille ≤ 30) Type 2: Un mot avec erreurs (taux d’erreurs 33%)
STAN: Types de motifs Type 3: mot - gap - mot - gap - mot mot: (5 ≤ taille ≤ 10) gap: x(a,b) avec a [100;200], b-a [1;200] Type 4: mot - gap – mot - gap – mot mot: (5 ≤ taille ≤ 10) avec erreurs (taux d’erreur 33%) gap: x(a,b) avec a [100;200], b-a [1;200]
STAN: Types de motifs Type 5: mot - var - palindrome(var) - mot mot: (10 ≤ taille ≤ 15) var: variable de chaîne ( 5 ≤ taille ≤ 10 ) Type 4: mot - var - palindrome(var) - mot mot: (10 ≤ taille ≤ 15) avec erreurs (taux d’erreur 33%) var: variable de chaîne ( 5 ≤ taille ≤ 10 ) taux d’erreur 50%
STAN: Temps d’exécution
STAN: Interface graphique
STAN: Interface graphique
Questions?