Activités et projets de l’équipe Atelier de Génomique Comparative Réunion GDR Arsenic du 30/03/2005 - Institut Pasteur Activités et projets de l’équipe Atelier de Génomique Comparative Rôle de l’Atelier de Génomique Comparative au sein du GDR Arsenic Resp. Claudine Médigue Post-doctorants : Thèses : Ingénieurs : Stéphane Cruveiller Laurent Labarre Zoé Rouy Géraldine Pascal Stéphanie Bocs Aurélie Lajus David Vallenet Stagiaire : (Etudiant Chinois en thèse courant 2005) Catherine Devaud
Thématiques de l’équipe AGC Développements méthodologiques : Méthodes (Langage C, Perl) et Stratégies d’analyse (Java) Interfaces graphiques (Langages PHP, HTML) Serveurs Web Base multigénomes PkGDB (Prokaryotic Genome DataBase) Développements de bases de données Bases thématiques pour des projets de (ré)-annotation Bases de connaissances (plateforme de génomique exploratoire Genostar) (Ré)-Annotation de génomes bactériens Applications biologiques Génomique comparative : régions conservées et/ou spécifiques, fusions de gènes, voies métaboliques. Composition en codons et en acides aminés des séquences bactériennes.
PkGDB : Procaryotic Genome DataBase Objectif : données d’annotation ‘propres’, cohérentes, à la source des méthodologies de génomique comparative SGBD relationnel (MySQL) Génomes complets (Refseq NCBI) Ré-annotation syntaxique Intégration dans PkGDB Gestion des ‘frameshifts’ Homogénéité des données Complétion /correction des données Résultats d’analyses : Intrinsèques : gènes, signaux, répétitions,… Génomes nouveaux (projets d’annotation) Extrinsèques : Blast, InterPro, COG, synténies …
AMIMat : analyse de l’usage des codons des génomes bactériens Objectif : caractériser des groupes de gènes homogènes dans l’usage des codons au sein d’un génome bactérien. Modèle objet AROM (java) PkGDB Modèle relationnel Class III (397) Class I (1791) Class II (1551) Class IV (256) AFC Clustering http://www.genoscope.cns.fr/agc/tools/micheck/html/database_status.html
Matrice(s) de transitions AMIGene : prédiction de gènes codants bactériens Objectif : Détecter les gènes de composition atypique et les petits gènes start stop Patterns starts/stops + RBS (RBS-Finder) P(X/X1...Xk) Matrice(s) de transitions w phase 1 phase 2 phase 3 + Heuristique de sélection des CDSs les plus probables Chevauchements Inclusions, … Class III (397) Class I (1791) Class II (1551) Class IV (256) GeneMark http://www.genoscope.cns.fr/agc/tools/amigene Bocs et al. (2003) AMIGene: Annotation of MIcrobial Genes. Nucleic Acids Research, 31, 3723-3726.
MICheck : ré-annotation (syntaxique) de génomes bactériens Objectif : Vérifier rapidement si les annotations répertoriées dans les banques de séquences pour un génome donné sont complètes. Fichier EMBL ou GenBank Séq. nucl Annotations + Modèle(s) de gènes CDS prédites Calcul de la probabilité moyenne de codage Gènes annotés COMPARAISON Position des codons stop CDS communes CDS UNIQUES Banques AMIGene Cruveiller et al. (2005) MICheck : A Web tool to fast check annotations of bacterial genomes. Nucleic Acid Research (en révision) http://www.genoscope.cns.fr/agc/tools/micheck
Syntonizer : Groupes de synténies dans les génomes bactériens Objectif : Détecter des groupes de gènes ‘localement’ conserver dans les génomes bactériens. Rearrangement Fusion Duplication Insertion Inversion A B Synteny Group #2 Synteny Group #1 http://www.genoscope.cns.fr/agc/tools/syntonizer Labarre et al. Syntonizer: an interactive Web tool for identifying bacterial synteny group using multiple correspondences. (soumis BMC Bioinf.).
MaGe : plateforme d’annotation de génomes bactériens PkGDB AcinetoDB Yersinia Scope HaloplanktisDB Bacillus ColiScope FrankiaDB Databases for re-annotation and annotation projects MySQL DB Blast tRNAscan-SE InterProScan PRIAM COGnitor TMHMM Automatic functional assignment combining multiple evidence and synteny results «Auto- FAssign» GRAPHICAL ANNOTATION INTERFACE (Web server connected to the data base) Validation and completion of the automatic annotation (Re) Annotation using synteny results User friendly and adaptable annotator editor Vallenet et al. MaGe - a microbial genome annotation system supported by synteny results. (en préparation)
Connection à MaGe http://www.genoscope.cns.fr/agc/mage/project _name Bacterial annotation projects in progress : Login name and password are required. Available re-annotation and annotation projects : project _name = AcinetoScope (Acinetobacter sp. ADP1) = BacillusScope (Bacillus species) = YersiniaScope (Yersinia species)
Bases de données thématiques pour l’annotation/ré-annotation Projet MicroScope (ACI IMPBio 2004) Bases de données thématiques pour l’annotation/ré-annotation de génomes bactériens Développement et maintenance des bases thématiques Analyse complète d’un génome nouvellement séquencé Recherche de synténies avec l’ensemble des procaryotes complets Mise à la disposition des données via l’interface MaGe Métabolisme bactérien: Connection à KEGG + construction de la base BioCyc (P. Karp) Optimisation de l’architecture des bases et des ressources machines (Equipe informatique de Claude Scarpelli) Gestion efficace des mises à jour des données (avancée du “Finishing”/update des banques de séquence) Aujourd’hui : 12 projets en cours + 2 en préparation Formation et suivit des utilisateurs (outils d’annotation et interface MaGe)
Bactéries de l’environnement et symbiotes de plantes BD Bactérie(s) Collaborateurs Séquençage Acinetobacter ADP1 P. Marlière (Evologic) & N. Orlston (Yale U., USA) AcinetoScope Environnement (sol) Genoscope Kuenenia stuttgartiensis Environnement (métabolise l’N) M Jetten (Univ. Nijmegen, Holl.) AnnamoScope Genoscope PsychroScope Pseudomonas haloplanktis A. Danchin (IP, Paris) Genoscope Environnement (antartique) Frankia alni P. Normand (Lyon) Genoscope FrankiaScope Frankia sp. CcI3 Symbiote de plantes D. Benson (Univ. Connecticut, USA) DOE JGI Frankia sp. EAN1 CloacaScope Métagénomes Microflore de la station d’épuration des eaux d’Evry D. Le Paslier & A. Sghir (Genoscope, Evry) Genoscope Cenibacterium arsenoxidans Environnement (Métabolise l’arsenic) P. Bertin (ULP, Strasbourg) Consortium GDR Arsenic ArseniScope Genoscope Thiomonas spp. BradyrhizoScope Bradyrhizobium sp. ORS278 Symbiote de plantes E. Giraud (LSTM, Montpellier) Genoscope
Caractéristiques générales du génome de C. arsenoxidans Taille génome : 3424 326 pb %GC = 54.3 % Les gènes de RNA • 45 tRNA au total, tous les acides aminés sont représentés • 2 clusters de rRNA : 16S 23S 5S, au début du génome 3376 CDSs annotées Les gènes de protéines : - fonctions «connues» : 2127 / 63 % - conserved hypothetical : 607 / 18 % - hypothetical protein : 642 / 19 % 36.8% «definitive assignment» 26.2% «putative Parmi les similarités « significatives » : - Resistance : 40 / 1.2% (Arsenic, Cobalt-zinc-cadmium, Copper, multidrug,…) - Regulators : 136 / 4 % Transports : 191 / 5.7 % DNA replication, recombinaison, modification and repair : 89 / 2.4 % Related to phage,transposase : 51 / 1.5 % Reductases : 93 / 2.8 %
Groupes de synténies entre C. arsenoxydans et quelques génomes
Synténies et voies métaboliques leuD asd truA folC leuB trpB trpA leuC CENAR1163 trpF accD
Synténie S. oneidensis et C. arsenoxydans
Synténies et voies métaboliques leuD asd truA folC 1.2.1.33 6.4.1.2 5.3.1.24 4.2.1.20 1.1.1.85 6.3.2.12 leuB trpB trpA leuC CENAR1163 trpF accD
Connectivité à la base métabolique KEGG Enzymes encoded by genes in the MaGe region Enzymes encoded by genes elsewhere in the C. arsenoxydans genome Additional enzymes in E. coli
Editeur d’annotation de MaGe (partiel)
Lien MaGe - Bases de données BioCyc (P. Karp)
Voie de biosynthèse de la Leucine chez C. arsenoxydans
Reconstitution des voies métaboliques chez C. arsenoxydans Show Pathway Report Show Pathway Hole Report
Résistance à l’arsenic … Arsenical pump arsC-like arsB atoC arsC ABC transporters (pts) 2-component reg. syst arsR-like Arsenate reductase aoxCBA Acetoacetate metabolism Arsenite oxydase lipoprotein Arsenical resistance
Rôle de l’AGC dans le cadre du GDR arsenic Construction de la base thématique ArseniScope: Génomes de C. arsenoxydans et de Thiomonas spp. Intégration à MaGe d’autres génomes très proches en cours de séquençage ? Calculs des synténies et régions uniques Mise en place des bases BioCyc Assitance à l’annotation experte des génomes Organisation d’une formation à MaGe Support continu aux annotateurs Bases de données multigénomes Construction de bases GenoList (Antoine D., I. Moszer) Interface d’interrogation et de navigation dans les bases thématiques multigénomes (PkGDB) Métagénomique (arsenic) Modification de MaGe pour la gestion et l’annotation de ‘métagénome’ Création de catalogues de gènes et de familles de protéine