OBJECTIFS FouDanGA : Fouille de données pour l’annotation de génomes d’actinomycètes CONTEXTE Mise en œuvre de méthodes.

Slides:



Advertisements
Présentations similaires
Conférence conjointe EUROSTAT-UNSD Luxembourg 6 mai 2008 STRATEGIE NATIONALE pour le DEVELOPPEMENT de la STATISTIQUE SNDS La Démarche délaboration et les.
Advertisements

Journées AReNA, Strasbourg,18-20 Avril 2005 Problèmes liés à lidentification de gènes bactériens exprimant des ARN non traduits en protéines UPRES JE 2311,
Un aperçu de la bioinformatique moléculaire
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Sandrine Marchand- Académie de Grenoble
Reconnaissance Automatique de la Parole
I. Recherche du gène correspondant aux séquences initiales.
Pons Nicolas, Jean-Michel Batto, S.Dusko Ehrlich, Pierre Renault
Transcription de l’ADN
OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.
CLUSIR - mars 2002 J-François MAHE- 1 - INCAS IN tégration dans la C onception des A pplications de la S écurité
Colloque Traitement et Analyse de séquences : compte-rendu
Master Génie Biologique et Informatique, première année
Utilisation de l’information brevets dans
Réunion des IA-IPR de SVT – 6 octobre 2010
Control of Hoxd Genes’ Collinearity during Early Limb Development
Laurent Labarre AGC - UMR Génoscope
1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Caractérisation structurale d ’un régulateur transcriptionnel du « Quorum Sensing » chez Brucella abortus.
LA CLASSIFICATION ACTUELLE DU VIVANT
Projet Génome Humain (HGP)
YASS : Recherche de similarités dans les séquences d'ADN
Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004.
La phylogénomique sans alignement de séquences
Champs de Markov cachés pour la classification de gènes..
BIO 2533 — Chapitre 1 Importance de la génétique et sa portée:
TP 5 Du génome au protéome
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
The origin and evolution of synapses
La Bioinformatique à Nancy
Exemple d'application des STIC pour la télégestion de méthaniseurs:
Reconnaissance Vocale
CHAPITRE 19 - La génétique des populations
Kahina RAMDANI Master I : Biologie et Ecologie Marine
1.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Recherche heuristique dans les bases de données L’algorithme BLAST
Élodie Boulier Nhu Ha Vo Sharon Harel
Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques.
La génétique et la biométrie
Co-expression = fonction (Eisen et al., PNAS 1998)
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
The ATD project is funded by the European Commission within its FP6 Programme, under the thematic area "Life sciences, genomics and biotechnology for health",
DESC Réanimation médicale
Analyses phylogénétiques
Introduction à la Pathologie Moléculaire du Gène
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Réunion MODULOME 15/10/2007 Christine ROUSSEAU Recherche des CRISPRs : Résultats MODULOME.
Knowledge discovery in Databases (KDD)
References [1] S.D. Bentley et al., Complete genome sequence of the model actinomycete Streptomyces coelicolor A3(2), Nature, 2002, 417, [2] K.
Projet GenoTo3D Apprentissage automatique appliqué à la prédiction de la structure tertiaire des protéines GenoTo3D Guermeur Y 1, Benabdelsem K 2, Bréhélin.
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
Institut Universitaire de Technologie de Clermont-Ferrand
LE RECRUTEMENT DES ASSISTANTS D’EDUCATION OUTILS ET METHODE
La génétique et la biométrie
Recherche heuristique dans les bases de données L’algorithme BLAST
Cartographie génomes entiers
La démarche de classification
REGULATION DE L’EXPRESSION DES GENES
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
TD-2 régulation de l’expression génique
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
Aspects techniques des biotechnologies
La bibliométrie Notoriété Visibilité Création du corpus Les outils bibliométriques du WOK Signature Collaborations.
Generating Random Genomic Sequences and Structures with GenRGenS
Expression du Génome Le transcriptome.
Transcription de la présentation:

OBJECTIFS FouDanGA : Fouille de données pour l’annotation de génomes d’actinomycètes CONTEXTE Mise en œuvre de méthodes de fouilles de données pour comprendre les mécanismes impliqués dans l’expression, la transmission et l’évolution des gènes Développement de méthodes combinatoires et stochastiques pour prédire les séquences promotrices et autres petites séquences régulatrices chez les bactéries Fouille sur les génomes S. coelicolor, S. avermitilis et M. tuberculosis ainsi que le génome de S. ambofaciens en cours de séquençage par l'UMR 1128 en collaboration avec le Génoscope (CNS, Evry). SIGffRid [4] Extraction par des méthodes de fouille de données de motifs d’ADN: SFFT comme Site de Fixation de Facteur Transcriptionnel (impliqués dans la régulation de l’expression génique chez les bactéries du groupe des actinomycètes) Le groupe des actinomycètes comprend : des espèces d'intérêt industriel comme les Streptomyces (producteurs d'antibiotiques microbiens) des espèces pathogènes comme certaines mycobactéries (Mycobacterium tuberculosis) Deux approches informatiques développées : utilisation d’algorithmes de recherche de mots puis de couples de mots sur-représentés dans les régions en amont de gènes orthologues d’espèces phylogénétiquement proches fouille de données génomiques sans a priori pour faire émerger des sous-séquences d'ADN dans les régions intergéniques (spécification apprentissage et utilisation de modèles de Markov cachés du second-ordre (HMM2), pour faire apparaître des irrégularités dans des grandes séquences d'ADN) LABORATOIRES IMPLIQUES PUBLICATIONS PRINCIPALES Production scientifique [1] M. Benoit, F. Le Ber, J.-F. Mari, C. Mignolet, C. Schott. CarrotAge, Un logiciel pour la fouille de données agricoles, Colloque STIC et Environnement SE’2003, Rouen, [2] F. Touzain, I. Debled-Rennesson, B. Aigle, P. Leblond et G. Kucherov.Identification of Transcription Factor Binding Sites in Streptomyces coelicolor A3 (2) by Phylogenetic Comparison. Poster, ECCB, Paris, [3] C. Eng, A. Thibessard, S. Hergalant, J.-F. Mari, P. Leblond. Data Mining Using Hidden Markov Models to Detect Heterogeneities into Bacterial Genomes, poster JOBIM, Lyon, [4] F. Touzain, S. Schbath, I. Debled-Rennesson, B. Aigle, P. Leblond et G. Kucherov. SIGffRid: Programme de recherche des sites de fixation des facteurs de transcription par approche comparative. Communication longue JOBIM, [5] Hergalant S., Aigle B., Leblond P. et Mari J.-F. Fouille de données du génome à l’aide de modèles de Markov cachés. Ateliers EGC 2005, Paris, Référence [* ] S. Schbath. An efficient statistic software to detect over- and under- represented words in dna sequences. J. Comp. Biol., 4 : , HMM2 [5] MOTS CLES Fouille de données, approche comparative, SFFT, facteur sigma Reconstruction des sites de fixation 1. Recherche des pics sur 1,2 Mb d'ADN de S. coelicolor 2. Classification hiérarchique par alignement multiple (Clustalin) 3. Pour chaque classe m de motifs faire Définition du consensus de la classe m Recherche des occurences de m sur le génome 4. Sélection des paires m1-d-m2 séparées par 0 ≤ d ≤ 25 nucléotides 5. Recherche des occurences de m1-d-m2 sur le génome (isolats) 6. Sélection des occurences de m1-d-m2 situées majoritairement en proche amont des ORF (<500 pb) Regroupement et extension des motifs candidats dirigés par approche statistique. T R correspond à la mesure de la signi-ficativité de la spé-cificité du motif pour les séquences amonts. Principe de SIGffRid - Recherche des sites promoteurs d'une bactérie B1 en utilisant des informations issues d'une bactérie B2 phylogénétiquement proche de B1. Cette démarche, généralisable à tout couple de bactéries proches, permet de prédire les SFFT qui leur sont communs. Etapes de l'algorithme A- Définition avec R'MES* d’un dictionnaire D de mots (de 3 à 7 lettres) de B1 statistiquement intéressants. B- Détermination d'un lot de paires de séquences orthologues de B1 et B2 (MGBD). Recherche, pour chaque paire de séquences amonts d’orthologues s 1i et s 2i (i  [1..n] ), de triplets C i ={w 1 i,w 2 i,{s 1i,s 2i }} avec w 1 i et w 2 i des mots conservés appartenant à D séparés par un espacement variable e. C- Recherche de paires de trinucléotides dans les C i : Pour chaque triplet (t1,t2, d) j possible, avec t1 et t2 des trinucléotides et d un espace, en considérant l’ensemble des C i obtenus, création d'un ensemble G j contenant les C i qui vérifient: (t1  w 1 i )  (t2  w 2 i )  (d  [e..e+1]). Pour chaque G j, regroupement des séquences : SS 1 j = Us 1i  G j et SS 2 j = Us 2i  G j. D- Extension des trinucléotides et création des motifs candidats en fonction des séquences des SS 1j et de critères probabilistes: Conclusions Spécification de deux méthodes combinatoire / stochastique pour la recherche de SFFT. Améliorations conjointes des deux systèmes Validations biologiques plus complètes à venir LORIA (UMR7503), INRIA Lorraine, Laboratoire de Génétique et Microbiologie (UMR INRA 1128, UHP Nancy) Résultats 3 SFFT connus sont retrouvés ou confirmés, avec un grand nombre de nouveaux gènes co-régulés candidats pour chacun. Au moins deux nouveaux SFFT sont proposés, à la fois chez Streptomyces coelicolor et Streptomyces avermitilis.