STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004.

Slides:



Advertisements
Présentations similaires
Structures de données avancées : B arbres
Advertisements

Placement de Motifs Architecture Application Contraintes: - Charge
L-System et modélisation de plantes…
Constructive Volume Geometry (CVG) Article de Min Chen & John V. Trucker COMPUTER GRAPHICS Benoît Capelli – Stéphane Renaudie DESS IMM
Apprentissage et Fouille de Données
Algorithmes et structures de données 7ème cours
Efficient Simplification of Point-Sampled Surfaces
Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.
Méthodes hybrides dans les réseaux de contraintes pondérées
Mardi 12 décembre h30 (50 min) La phylogénie, ses concepts et ses applications à la génomiqueLa phylogénie, ses concepts et ses applications à la.
Comment distinguer une tension continue et une tension variable ?
La génétique bactérienne cours 5
Les Structures. Introduction : Imaginons que lon veuille afficher les notes dune classe délèves par ordre croissant avec les noms et prénoms de chaque.
I. Recherche du gène correspondant aux séquences initiales.
M.E.D.A.L. Module dEnseignement à Distance pour lArchitecture Logicielle Alain VAILLY Diapositive n° 1 IUP MIAGE - Université de NANTES IUP-MIAGE 3ème.
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Chap 1 Grammaires et dérivations.
Techniques de filtrage à laide de graines espacées Laurent Noé Travail commun avec Gregory Kucherov Séminaire.
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.
LA SYNTHÈSE DES PROTÉINES
Les méthodes en java Une méthode est un regroupement d’instructions ayant pour but de faire un traitement bien précis. Une méthode pour être utilisée.
La Régulation génétique chez les Procaryotes
YASS : Recherche de similarités dans les séquences d'ADN
OCaml – Les arbres L3 MI.
Chapitre VII. Tri Tri par tas Tri rapide.
Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004.
Partie 2: Du génotype au phénotype, relations avec l’environnement
Master 1 SIGLIS Java Lecteur Stéphane Tallard Chapitre 5 – Héritage, Interfaces et Listes génériques.
Phylogenetik Conception, développement et tests d’un logiciel en java
<? Le PHP appliqué à la BioInformatique ?>
Biologie 1S - introduction
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles

Les Arbres de décision ou régression
1.
Plan Buts principaux Intérêt et pertinence du projet Rappel concernant la phylogénie Travail accompli jusquà maintenant Travail restant à accomplir Difficultés.
Chapitre 3 Syntaxe et sémantique.
326 UMLV Méthodes de classement destinées à de grandes masses de données Applicables à des fichiers séquentiels Complexité : évaluée surtout en nombre.
Recherche heuristique dans les bases de données L’algorithme BLAST

Mécanisme d’expression des gènes de globines
"POLYMORPHISME" Plusieurs Formes
Optimisation par les algorithmes génétiques
Optimisation de requêtes
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Théories, formalismes, modèles Sylvain Kahane Modyco, Université Paris 10 - Nanterre Mosaïque, Paris, 1/12/2006.
Recherche exacte de motifs
Structures de données avancées : Fichiers uni-dimensionnels Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Pour les nuls débutants
Strings et Tableaux en Java
Historique Juillet 2000 : Dépôt d'un dossier Génopole Ouest auprès du Ministère Mars 2001 : expertise sur site par des experts internationaux Juillet 2001.
Réunion MODULOME 28/05/2008 Christine ROUSSEAU L'analyse des CRISPR et des gènes associés comme répétitions locales et voisine MODULOME.
Cours LCS N°4 Présenté par Mr: LALLALI
Présentation du développement du projet.  Introduction  Conception et méthodes  Developpement  Conclusion 2.
Nouveaux services et projet d’évolution de la plate-forme Esther KABORÉ Emmanuelle MORIN Anne-Sophie VALIN.
Recherche par automates finis
Réunion MODULOME 28/05/2008 Christine ROUSSEAU Inventaire des miHsmar1 dans le génome Humain MODULOME.
Protéine.
Interface de génération de blason
Réunion MODULOME 15/10/2007 Christine ROUSSEAU Recherche des CRISPRs : Résultats MODULOME.
chapitre 9: Tension continu et tension alternative
Pour les boucles FOR on a fait intervenir la boucles TANT QUE équivalentes dont on connaît calculer le temps d’exécution. Toutes le procédures de comptage.
Chap 1 Grammaires et dérivations.
Structures de données avancées : Principales structures de fichiers
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Recherche heuristique dans les bases de données L’algorithme BLAST
Introduction à la bioinformatique « Génomique Nouvelle Génération »
ALGORITHME ET PROGRAMMATION RÉVISION Informatique et Sciences du Numérique.
Compilation & Apprentissage dans les Réseaux de Contraintes Hervé Cros Directeurs :Frédéric Koriche Joël Quinqueton.
Transcription de la présentation:

STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004

Plan La recherche de motifs Fonctionnement de STAN Syntaxe des motifs Étude sur le temps d’exécution Interface graphique

La recherche de motif Signature de familles de protéines Signature de sites fonctionnels Eléments structuraux (palindromes) Eléments répétés

Problèmes soulevés par la recherche de motifs Taille des génomes  Génome humain 3.2 milliards de bp Indexation des génomes Complexité des modèles biologiques  Formalismes avancés Grammaire de type SVG (String Variables Grammars)

STAN: Fonctionnement Motif (grammaire) Séquence Arbre des suffixes Suite d’instructions (sur l’arbre des suffixes) Résultats de la recherche

STAN: Arbre des suffixes Contient tous les suffixes de la séquence Indexe tous les mots de la séquence Méthode de S. Kurtz  Complexité en espace (facteur 12)  Construction en un temps linéaire

Les arbres des suffixes Exemple de construction :  Séquence : AGGAGCT

AGGAGCT Exemple de construction

AGGAGCT 1 Exemple de construction

AGGAGCT 1 GGAGCT 2 AGGAGCT Exemple de construction

AGGAGCT Exemple de construction AGGAGCT 1 GGAGCT 2

AGGAGCT 1 3 G AGCT 2 GAGCT Exemple de construction

AGGAGCT Exemple de construction AGGAGCT 1 3 G AGCT 2 GAGCT

AGGAGCT Exemple de construction GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT

AGGAGCT Exemple de construction CT 5 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT

Exemple de construction AGGAGCT CT 6 5 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT

Exemple de construction AGGAGCT T 7 CT 6 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT CT 5

Exemple de construction Arbre des suffixes pour la séquence AGGAGCT T 7 CT 6 GAGCT AG 1 CT 4 3 G AGCT 2 GAGCT CT 5

Arbre des suffixes pour un chromosome

STAN: Syntaxe du motif Succession de bases (mot) abcd avec a, b, c et d des bases. Disjonction de bases [abc] avec a, b et c différentes bases Disjonction de mots [A|C] avec A et C deux mots GAP (ensemble de bases quelconques) de taille fixe x(num) avec num la taille du gap. GAP de taille variable x(num1,num2), avec la taille du gap comprise entre num1 et num2 Succession de bases avec erreur de substitution pattern:num Variable de chaîne X:[num] ou X:[min,max] suivi de X dans le motif ou de ~X pour le palindrome de X

Recherche de structures en palindrome avec les variables de chaîne CTAGATTTTAA:2 - X:[7] - x(4) - ~X:5 - ACGATTT:1 CTAGATTTTAA ACGATTT N N N N

Séquence:  Chromosome 1 de A. Thaliana Motif:  6 types de complexité croissante   type, 10 motifs générés aléatoirement STAN: Temps d’exécution

STAN: Types de motifs Type 1:  Un mot (20 ≤ taille ≤ 30) Type 2:  Un mot avec erreurs (taux d’erreurs 33%)

STAN: Types de motifs Type 3:  mot - gap - mot - gap - mot mot: (5 ≤ taille ≤ 10) gap: x(a,b) avec a  [100;200], b-a  [1;200] Type 4:  mot - gap – mot - gap – mot mot: (5 ≤ taille ≤ 10) avec erreurs (taux d’erreur 33%) gap: x(a,b) avec a  [100;200], b-a  [1;200]

STAN: Types de motifs Type 5:  mot - var - palindrome(var) - mot mot: (10 ≤ taille ≤ 15) var: variable de chaîne ( 5 ≤ taille ≤ 10 ) Type 4:  mot - var - palindrome(var) - mot mot: (10 ≤ taille ≤ 15) avec erreurs (taux d’erreur 33%) var: variable de chaîne ( 5 ≤ taille ≤ 10 ) taux d’erreur 50%

STAN: Temps d’exécution

STAN: Interface graphique

STAN: Interface graphique

Questions?