Séminaire Genopole d’Evry du 17 Juin 2005

Slides:



Advertisements
Présentations similaires
CDISC – Réunion du Groupe Utilisateurs Francophones
Advertisements

Journées AReNA, Strasbourg,18-20 Avril 2005 Problèmes liés à lidentification de gènes bactériens exprimant des ARN non traduits en protéines UPRES JE 2311,
Système de représentation et dexploration de données biologiques hétérogènes.
Système de représentation et dexploration de données biologiques hétérogènes.
Le"cartable électronique"®
Informatique en Biologie Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :
1/32 Forum des utilisateurs du SISMER – Novembre 2005 Le portail NAUTILUS accès en ligne aux données et nouveau site WEB du SISMER Michèle FICHAUT Mickael.
Le séquençage à grande échelle au Genoscope
L’outil bio-informatique pour la génomique structurale
Cours MIAGE « Architectures Orientées Services » Henry Boccon-Gibod 1 Architectures Orientées Services Composants de Service Exemple pratique de développement.
JXDVDTEK – Une DVDthèque en Java et XML
Relevons les défis de demain.
OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Master Génie Biologique et Informatique, première année
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Activités et projets de l’équipe Atelier de Génomique Comparative
Bacterial genome annotation in the AGC group
Laurent Labarre AGC - UMR Génoscope
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Les bases de données biologiques au LBBE
Sélection automatique d’index et de vues matérialisées
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Développement d’applications web
Bioinformatique =?? génomique protéomique
Formation RNG octobre 2005 Aide à linterprétation des données Virginie Defamie.
Présentation du SVI - DELSOL Mikaël
Contrôles d'accès aux données
Yoann Beausse Journée Bioinformatique des Génopoles
Ecole Supérieure Privée de ingénierie et de technologie année universitaire :2013/2014 Cross-Plateform Cours JavaScript.
Novembre 2009 Segmentation Communication. NOUS PROPOSONS AUX EXPERTS COMPTABLES UNE EQUIPE DEDIEE UNE DEMARCHE DES OUTILS DES PARTENARIATS.
5.1 URDL22005 Systèmes dexploitation Threads Vue dEnsemble Modèles de Multithreading Problèmes des Threads Pthreads Threads Windows XP Threads Linux Threads.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Visio 2010 : représentez et partagez encore plus simplement vos diagrammes et données
Projet Génie Logiciel & UML, Bases de Données & Interfaces
© Petko ValtchevUniversité de Montréal Janvier IFT 2251 Génie Logiciel Notions de Base Hiver 2002 Petko Valtchev.
Introduction à la bioinformatique
Annotation de génomes complets
Chapitre 3 Les bibliothèques de balises JSP et la JSTL
EPID-CPI-ISAIP Philippe Bancquart - mise à jour 24/02/ page 1 SQL jointure PHILIPPE BANCQUART.
La banque UniprotKB et le logiciel Blast
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
Méthodes et usages de l’analyse de la modularité des protéines
Annotation de séquences génomiques: gènes
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Co-expression = fonction (Eisen et al., PNAS 1998)
Tirer le meilleur parti d’Office /10/ Vincent Bippus IT/OIS 07 octobre 2014.
Bonjour!! Pour être prêt: Répondez aux questions:
Le paradoxe Jamais il n’a été aussi facile d’accéder à une masse gigantesque d’information; Jamais il n’a été aussi difficile de ‘trier’ et de synthetiser.
Overview %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%
Overview %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%
Historique Juillet 2000 : Dépôt d'un dossier Génopole Ouest auprès du Ministère Mars 2001 : expertise sur site par des experts internationaux Juillet 2001.
SciTools Understand A Source Code Analysis and Metrics Tool
Génomes microbiens entièrement séquencés. 1995: Haemophilus influenzae, 1.8 Mb, protéines (TIGR) 1995: Mycoplasma genitalium, 0.6 Mb, 470 protéines.
Les subtélomères des chromosomes des hémiascomycètes Nantes, octobre 2006 Cécile Fairhead Génétique Moléculaire des Levures Institut Pasteur, Paris.
BENCHMARK JOBS Marie-Laure Rivier – January 2015.
Overview %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%
Banques de données en bio-informatique
Overview %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%%%%%% %%%%%%%
Institut Universitaire de Technologie de Clermont-Ferrand
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Responsable : Serge Hamon
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
CHMI 4206 Bioinformatique appliquée
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Bio-Informatique Analyse de séquences nucléotidiques
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
IP Multicast Text available on
Transcription de la présentation:

Séminaire Genopole d’Evry du 17 Juin 2005 MicroScope : Bases de données pour la (ré)-annotation de génomes bactériens Claude Scarpelli (Equipe informatique du Genoscope”) Dr Claudine Médigue (“Atelier de Génomique Comparative”) Aurélie Lajus Stéphane Cruveiller Zoé Rouy David Vallenet Laurent Sainte-Marthe Sylvain Bonneval

Bases/banques génomiques Annotation des génomes bactériens Sequençage Prédiction de gènes Prediction de régions codantes, promoteurs, terminateurs, RNAs Recherche de similarités, familles de protéines, domaines, … Suggestion de fonctions, classification Annotation fonctionnelle Annotation manuelle Intégration dans d’autres plateformes d’analyse Validation des annotations automatiques, Recherche complémentaires (littérature, bases spécialisées), Analyse contextuelle, fusions de gène, interactions de protéines , phylogénie, etc… Bases/banques génomiques Ré-annotation Validation/mise à jour des annotations Données d’expression, phenotypes de mutant, etc.

PROCEDURES AUTOMATIQUES INDISPENSABLES Bases/banques génomiques Annotation des génomes bactériens Sequençage Labo ‘humide’+ Bioinformatique Prédiction de gènes Bioinformatique PROCEDURES AUTOMATIQUES INDISPENSABLES Annotation fonctionnelle Bioinformatique Bases/banques génomiques Effort Manuel Annotation manuelle INTERFACES GRAPHIQUES INDISPENSABLES Intégration dans d’autres plateformes d’analyse Bioinformatique Ré-annotation Labo ‘humide’ + Bioinformatique

Annotation des génomes bactériens : contexte internationale Aux Etats Unis : TIGR : pipeline annotation, bases de données, interface Web (service + formation) Pipeline automatique à l’ORNL (http://genome.ornl.gov/microbial) puis intégration au site IMG du DOE (http://img.jgi.doe.gov/v1.1/main.cgi) Univ. Wisconsin : base de données de séquences et d’annotations + données d’expression (E. coli) Au MIPs : automatic annotation of bacterial proteomes (plateforme d’annotation experte PedantPro) En Allemagne GenDB plateforme d’annotation automatique + expert (« open source ») Univ. Bielefeld. Au Danemark http://www.cbs.dtu.dk/services/GenomeAtlas/ Atlas des données de génomes publiés En Angleterre : Sanger Center Outil d’annotation graphique de génomes

Projets de ré-annotation de génomes bactériens au TIGR Base de données CMR (Comprehensive Microbial Resource) «Primary annotation» : annotations originales + « TIGR annotation » : annotations automatiques Gènes en plus Portion du génome de S. typhimurium (Genome Browser de CMR) :

Projets de ré-annotation de génomes bactériens au NCBI Projet RefSeq (Reference Sequence) Gènes en plus/en moins Reviewed RefSeq : annotations automatiques + ‘curation’ manuelle par des experts du NCBI. Provisional RefSeq : Provisional RefSeq : annotations originales annotations automatiques uniquement gene 494591..495058 /locus_tag="PH0553.1n" /db_xref="GeneID:1444443 » CDS 494591..495058 /codon_start=1 /transl_table=11 /product="putative flagella-related protein" /protein_id="NP_877768.1" /db_xref="GI:33359301" /db_xref="GeneID:1444443" /translation="MGFSVSASAAIVFISFLIGLGTLYIAWENSYLEVQAAREFWYSL RTSQLHFDIGNVSISYVNSTHVDVAFTYLGQTLEGKIDVLHNGTYVSSVDVTYLIPGE SYSITIPGGDTSGSLNHLTLAFNNGCVAIIAYHYNGTAYVVDSTSIQCPMEVS" LOCUS NC_000961 1738505 bp DNA circular BCT 07-JUN-2005 DEFINITION Pyrococcus horikoshii OT3, complete genome. … COMMENT REVIEWED REFSEQ: This record has been curated by NCBI staff. The reference sequence was derived from BA000001. Gène supplémentaire entre les CDSs PH0553 et PH0554

Projets de ré-annotation de génomes bactériens à l’EBI Gènes en moins/en plus Enrichissement/correction des annotations fonctionnelles originales (Données UniProt, Genome Ontology, InterPro, etc) Standardisation/homogénéisation des annotations Elimination des annotations ‘erronées’ (‘curators’ de UniProt/SWISSProt) Projet Genome Reviews (GR) Ajout de CDSs correspondants à des entrées UniProt non annotées sur un génome. FT CDS complement(3273023..3273601) FT /codon_start=1 FT /gene="tdk {UniProt/Swiss-Prot:Q8ECK0}" FT /locus_tag="SO3140 {UniProt/SwissProt:Q8ECK0}" FT /product="Thymidine kinase {UniProt/Swiss- FT Prot:Q8ECK0}" FT /EC_number="2.7.1.21 {UniProt/Swiss-Prot:Q8…}" FT /function="ATP binding {GO:0005524} » FT /function="thymidine kinase activity {GO:0004797}" FT /biological_process="DNA metabolism FT {GO:0006259}" ID AE014299_GR standard; circular genomic DNA; GRV; 4969803 BP. XX DT 06-JUN-2005 (Rel. 28, Last updated, Version 33) DE Shewanella oneidensis (strain MR-1) chromosome, complete sequence. CC This Genome Reviews entry was created from entry AE014299.1 in the CC EMBL/GenBank/DDBJ databases on 06 June 2005. … CDS complement(3273023..3273601) /locus_tag="SO3140" /note="identified by match to PFAM protein family HMM PF00265" /codon_start=1 /transl_table=11 /protein_id="AAN56142.1" /product="thymidine kinase

Ajout de CDSs dans le fichier GR : exemple chez E. coli ID U00096_GR standard; circular genomic DNA; GRV; 4639675 BP. XX DE Escherichia coli (strain K12) chromosome, complete sequence. CC This Genome Reviews entry was created from entry U00096.2 in the CC EMBL/GenBank/DDBJ databases on 06 June 2005. … FT CDS 1486256..1487695 FT /gene="aldA" FT /locus_tag="b1415" FT /product="Aldehyde dehydrogenase A" FT /EC_number="1.2.1.21" FT /EC_number="1.2.1.22" FT /function="glycolaldehyde dehydrogenase activity" FT /function="lactaldehyde dehydrogenase activity" FT /biological_process="metabolism" FT /translation="MSVPVQHPMYIDGQFVTWR… » FT CDS complement(1487737..1488389) FT /pseudo="{EMBL:U00096}" FT CDS join(complement(1487997..1488737), FT complement(1487737..1487994)) FT /evidence="{BLASTALL 2.2.6/ALIGN 2.0u}" FT /product="Glyceraldehyde-3-phosphate dehydrogenase C FT {UniProt/Swiss-Prot:P33898}" FT /EC_number="1.2.1.12 {UniProt/Swiss-Prot:P33898}" FT /insertion="1487994^1487995,seq:G FT /transl_except=(pos:1488621..1488623,aa:Lys) FT {UniProt/Swiss-Prot:P33898} FT /translation="MSKVGINGFGRIGRLVLGRLLEVKSNI… UniProtKB/Swiss-Prot entry P33898 Entered in Swiss-Prot in Release 28, February 1994 CAUTION : In the K12 strain this gene is disrupted by a stop codon and a frameshift. It seems to be intact in a number of wild strains.

Les 3 composantes de MicroScope Situation en France et objectif de MicroScope CAATBox AGMIAL iANT (S. meliloti, R. solanacearum) (génomes bactériens d’intérêt agro-alimentaire) (génomes pathogènes séquencés à l’IP) (plateforme de génomique exploratoire) MICADO IMGLib GenoList => Proposer une «assistance» aux biologistes pour l’annotation de génomes bactériens (automatique et experte) Les 3 composantes de MicroScope Pipeline d’annotation automatique (1) Bases de données relationnelles (2) Interface graphique d’annotation MaGe (3)

Composante 1 de MicroScope : outils d’annotation structurale From different authors From the AGC group

Matrice(s) de transitions AMIMat et AMIGene AMIMat : caractériser des groupes de gènes homogènes dans l’usage des codons au sein d’un génome bactérien. http://www.genoscope.cns.fr/agc/tools/micheck/html/database_status.html Class IV (256) AFC Clustering Class III (397) Class II (1551) Class I (1791) P(X/X1...Xk) Matrice(s) de transitions AMIGene : Détecter les gènes de composition atypique / petits gènes http://www.genoscope.cns.fr/agc/tools/amigene w phase 1 phase 2 phase 3 start stop Patterns starts/stops + RBS (RBS-Finder) + Heuristique de sélection des CDSs les plus probables Chevauchements Inclusions, … GeneMark

MICheck : ré-annotation (syntaxique) de génomes bactériens Objectif : Vérifier rapidement si les annotations répertoriées dans les banques de séquences pour un génome donné sont complètes. http://www.genoscope.cns.fr/agc/tools/micheck

Corynebacterium glutamicum Résultats MICheck quelques génomes bactériens Nb Gene Uniques AMIGene Uniques Banque Genome Ori RefSeq GR Ori RefSeq GR Ori RefSeq GR Corynebacterium glutamicum 3099 2993 3099 15 5 15 65 14 65 Aeropyrum pernix 2694 1843 2694 18 35 18 941 186 941

Résultats MICheck sur A. pernix (status Reviewed Refseq) CDS UNIQUES AMIGene CDS UNIQUES Banques CDS communes 18 1565 941 BA000002 35 1569 186 NC_000854 Genbank ‘original’ (BA000002) Fichier ‘Refseq’ (NC_00854) APE1077 APE1097 rplX APE1087a APE1088a APE1089

Corynebacterium glutamicum Oceanobacillus iheyensis Résultats MICheck quelques génomes bactériens Nb Gene Uniques AMIGene Uniques Banque Genome Ori RefSeq GR Ori RefSeq GR Ori RefSeq GR Corynebacterium glutamicum 3099 2993 3099 15 5 15 65 14 65 Aeropyrum pernix 2694 1843 2694 18 35 18 941 186 941 Oceanobacillus iheyensis 3497 3502 3497 2 14 2 18 18 18 Haemophilus influenzae Buchnera sp. 572 564 10 1739 1716 1709 2 4 47 Shewanella oneidensis 4757 4438 4630 20 7 150 175 15

Fichier d’annotation original et fichier EMBL (GR) gene 3266258..3268062 /gene="dctB" /locus_tag="SO3137" /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift" gene 3268059..3269438 /gene="dctD" /locus_tag="SO3138" CDS 3268059..3269438 /note="similar to GB:X14046, SP:P11049, and PID:29794; identified by sequence similarity; putative" /codon_start=1 /transl_table=11 /product="C4-dicarboxylate transport transcriptional regulatory protein" gene complement(3269514..3272585) /locus_tag="SO3139" is not the result of a sequencing artifact; conserved hypothetical protein; identified by Glimmer2; putative" gene complement(3273023..3273601) /locus_tag="SO3140" CDS complement(3273023..3273601) /note="identified by match to PFAM protein family HMM PF00265" /protein_id="AAN56142.1" /product="thymidine kinase gene 3274138..3276066 /locus_tag="SO3141" /note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP:3628769; identified by sequence similarity; putative" … AE005176 /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift" /note=" This region contains an authentic frame shift and is not the result of a sequencing artifact; … " /note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP:3628769; identified by sequence similarity; putative" FT CDS 3264761..3266158 FT /codon_start=1 FT /gene="dctM {UniProt/TrEMBL:Q8ECK2}" FT /locus_tag="SO3136 {UniProt/TrEMBL:Q8ECK2}" FT /product="C4-dicarboxylate transport protein … FT CDS 3268059..3269438 FT /gene="dctD {UniProt/TrEMBL:Q8ECK1}" FT /locus_tag="SO3138 {UniProt/TrEMBL:Q8ECK1}" FT /product="C4-dicarboxylate transport FT transcriptional regulatory protein FT {UniProt/TrEMBL:Q8ECK1} » FT CDS complement(3273023..3273601) FT /gene="tdk {UniProt/Swiss-Prot:Q8ECK0}" FT /locus_tag="SO3140 {UniProt/SwissProt:Q8ECK0}" FT /product="Thymidine kinase {UniProt/Swiss- FT Prot:Q8ECK0}" FT /EC_number="2.7.1.21 {UniProt/Swiss-Prot:Q8…}" FT /function="ATP binding {GO:0005524} » FT /function="thymidine kinase activity {GO:0004797}" FT /biological_process="DNA metabolism FT {GO:0006259}" FT CDS 3276288..3278438 FT /gene="dcp-1 {UniProt/TrEMBL:Q8ECJ9}" FT /locus_tag="SO3142 {UniProt/TrEMBL:Q8ECJ9}" FT /product="Peptidyl-dipeptidase Dcp" FT /function="metalloendopeptidase activity FT {GO:0004222}" FT /biological_process="proteolysis and peptidolysis FT {GO:0006508}" AE005176_GR

Résultats MICheck quelques génomes bactériens Nb Gene Uniques AMIGene Uniques Banque Genome Ori RefSeq GR Ori RefSeq GR Ori RefSeq GR Corynebacterium glutamicum 3099 2993 3099 15 5 15 65 14 65 Aeropyrum pernix 2694 1843 2694 18 35 18 941 186 941 Oceanobacillus iheyensis 3497 3502 3497 2 14 2 18 18 18 Haemophilus influenzae 1739 1716 1709 2 4 47 4 4 Buchnera sp. 572 572 564 10 Shewanella oneidensis 4757 4438 4630 20 7 150 175 15 175 Xanthomonas oryzae 4637 123 76 Dehalococcoides ethenogenes 1592 6 51

Similar to putative membrane protein from Burkholderia pseudomallei Annotation manquante dans le génome de Xanthomonas oryzae CDS UNIQUES AMIGene CDS UNIQUES Banques CDS communes 123 4323 76 NC_006834 XOO3514 XOO3512 XOO3513 XOO3516 XOO3517 XOO3518 XOO3515 Putative vgr-related protein Similar to putative membrane protein from Burkholderia pseudomallei (Q63QC8) Similar to rhs element vgr protein from Burkholderia mallei (Q62L24)

Composante 1 de MicroScope : outils d’annotation fonctionnelle From different authors From the AGC group

Syntonizer : Groupes de synténies dans les génomes bactériens Objectif : Détecter des groupes de gènes ‘localement’ conserver dans les génomes bactériens. Rearrangement Fusion Duplication Insertion Inversion A B Synteny Group #2 Synteny Group #1 http://www.genoscope.cns.fr/agc/tools/syntonizer

Prédiction d’activités enzymatiques (PRIAM) Reconstition de voies métaboliques Prédiction d’activités enzymatiques (PRIAM) Pathway de Référence Organisme X Relation : numéros EC Correspondances simples par EC sur les données d’un génome de référence. Requêtes dynamiques au serveur de Kyoto. Voies prédites dans l ’organisme X Peter Karp (SRI International) Base métabolique construite pour chaque génome annoté (genomeCyc) Pathologic : identifie les voies métaboliques à partir des EC + données métaboliques de MetaCyc. Pathway Hole Filler : recherche de gènes candidats pour les enzymes manquantes.

Composante 2 de MicroScope : Procaryotic Genome DataBase Objectif : données d’annotation ‘propres’, cohérentes, à la source des méthodologies de génomique comparative SGBD relationnel (MySQL) Génomes complets (Refseq NCBI + GR) Intégration dans PkGDB Homogénéité des données Gestion des ‘frameshifts’

Integration des données publiques dans PkGDB Databank file Databank_Annotation Set of original annotations Databank_Annotation Set of original annotations Compare_Annotation ‘valids’ CDSs All the annotated genes : ‘valid’ CDSs (1) + Automatically corrected CDSs and CDSs which need to be manually corrected ‘valid’ CDSs (1) Pre-matrix building up Model gene used to compute coding prediction curves • Check/correction of erroneous CDSs • Pseudogenes annotation

‘complex’ CDS (‘cCDS’ type in PkGDB) Annotation des pseudogènes dans PkGDB kdpB kdpC kdpD kdpE speF gene 622524..624571 /gene="kdpB" /locus_tag="S0610" /note="frameshift" /pseudo /db_xref="GeneID:1077039" gene 624580..625152 /gene="kdpC" /locus_tag="S0611" CDS 624580..625152 /function="enzyme; Transport of small molecules: Cations" /codon_start=1 /transl_table=11 /product="potassium-transporting ATPase" gene 625145..627825 /gene="kdpD" /locus_tag="S0612" gene 627822..628507 /gene="kdpE" /locus_tag="S0613" gene 629197..631394 /gene="speF" /locus_tag="S0614" … Error type = ‘No3multiple’ ‘complex’ CDS (‘cCDS’ type in PkGDB) ‘fragment’ of CDSs (‘fCDS’ type in PkGDB)

Integration des données publiques dans PkGDB Databank file Databank_Annotation Set of original annotations Databank_Annotation Set of original annotations Compare_Annotation All the CDS with the ‘Checked’ Statut Compare_Annotation ‘valid’ CDSs All the annotated genes : ‘valid’ CDSs (1) + Automatically corrected CDSs and CDSs which need to be manually corrected ‘valid’ CDSs (1) Corrected and valid CDSs (2) Pre-matrix building up AMIMat : Computation of gene models using FCA and clustering methods Model gene used to compute coding prediction curves Syntonizer : Computation of synteny group using complete data set of annotations • Check/correction of erroneous CDSs • Pseudogenes annotation

Composante 2 de MicroScope : Procaryotic Genome DataBase Objectif : données d’annotation ‘propres’, cohérentes, à la source des méthodologies de génomique comparative SGBD relationnel (MySQL) Génomes complets (Refseq NCBI + GR) Intégration dans PkGDB Homogénéité des données Gestion des ‘frameshifts’ Ré-annotation syntaxique Complétion /correction des données Résultats d’analyses : Intrinsèques : gènes, signaux, répétitions,… Génomes nouveaux (projets d’annotation) Extrinsèques : Blast, InterPro, COG, synténies …

Composante 2 de MicroScope : bases thématiques Projet : base de (re)annotation Neisseria intégration des génomes séquencés disponibles : 2 Neisseria meningitidis serogroup A strain Z2491 + serogroup B MC58 (2000) 1 Neisseria gonorrhoeae (2005) 1 Neisseria meningitidis serogroup C strain FAM18 (en cours au Sanger) 1 Neisseria meningitidis NEM8013 (en cours à l’Institut Pasteur) NeisseriaScope Séquences + (re)-annotations + annotations automatiques + synténies (> 230 génomes) MetaCyc DB objet Ocelot ADP1Cyc FalniCyc BraORSCyc CenarCyc PkGDB Yersinia Scope Bacillus Scope ColiScope FrankiaScope AcinetoScope RhizoScope Multigénomes Cyc ColiScope

Composante 3 de MicroScope : interface d’annotation MaGe Début du développement : Oct. 2002 Contexte : annotation du génome de Acinetobacter sp. ADP1 (été 2004) Developpé par des biologistes impliqués eux même dans l’annotation experte (D. Vallenet) Interface graphique permettant de visualiser les résultats de synténie entre protéomes bactériens. Annotation réalisée avec contexte des gènes annotés Editeur d’annotation ‘modulaire’ Les changements sont adaptés aux projets Quelques originalité du système MaGe Comparaison des annotations de plusieurs génomes en utilisant l’organisation des gènes

Connection à MaGe http://www.genoscope.cns.fr/agc/mage/project _name Bacterial annotation projects in progress : Login name and password are required. Available re-annotation and annotation projects : project _name = AcinetoScope (Acinetobacter sp. ADP1) = BacillusScope (Bacillus species) = YersiniaScope (Yersinia species)

Coding prediction curves obtained with Matrix number 1 Carte graphique du génome en cours d’annotation rRNA genes tRNA genes Coding prediction curves obtained with Matrix number 1 CoDing Sequences Repeat (DNA)

Carte graphique du génome en cours d’annotation The overall DNA sequence is loaded The annotation data corresponding to the vizualized region in MaGe (1 bp to 3001 bp) are loaded. Applet JAVA

Carte graphique du génome en cours d’annotation Where are the predicted enzymes in the KEGG pathways ? (complete annotations or only those in the visualized region) Kanehisa (Kyoto University) • Requête dynamique au serveur KEGG • Les enzymes sont coloriées selon le résultat du ‘mapping’ sur les voies métaboliques d’un génome de référence

Carte graphique du génome en cours d’annotations Connection to the BioCyc metabolic database built in the AGC group (genomeCyc): PathoLogic pathway analysis -> list of the identified metabolic pathways Peter Karp (SRI International) Pathway Hole Filler -> list of gene candidates for missing enzymes In the annotator editor of a gene coding an enzyme -> link to the corresponding metabolic pathway(s) Connection à BioCyc sur l’instance de la base du génome en cours d’annotation

Interface graphique des synténies dans MaGe

Low similarity results : High similarity results : Interface graphique des synténies dans MaGe Low similarity results : from 16.5% to 23.5% identity High similarity results : From 52% to 73% identity

Combinaison des synténies et des voies métaboliques ugd 1.1.1.22 ACIAD0075 5.1.3.13 2.7.7.24 4.2.1.46 rmlB rmlD rmlA rmlC 0073 0074 1.1.1.133

Connectivité à la base métabolique KEGG Enzymes encoded by genes in the MaGe region Enzymes encoded by genes elsewhere in the Acinetobacter genome Additional enzymes in E. coli

Combinaison des synténies et des voies métaboliques ugd 1.1.1.22 ACIAD0075 5.1.3.13 2.7.7.24 4.2.1.46 rmlB rmlD rmlA rmlC 0073 0074 1.1.1.133 ACIAD0075 Expert annotation -> “Polysaccharide transport protein” (Automatic annotation -> “Putative transporter”)

Exploration des données d’homologie/synténie Search for Keywords Homologs and synteny groups Specific genes and regions Acinetobacter genes in synteny with genes from PkGDB organisms NCBI RefSeq organisms AND having no hit with genes from PkGDB organisms NCBI RefSeq organims (optional)

MicroScope : Rôle de l’AGC et de l’équipe informatique Développement et maintenance des bases thématiques Analyse complète d’un génome nouvellement séquencé Recherche de synténies avec l’ensemble des procaryotes complets Mise à la disposition des données via l’interface MaGe Construction de la base BioCyc Intégration des génomes ‘proches’ dans PkGDB Optimisation de l’architecture des bases et des ressources machines Gestion efficace des mises à jour des données Avancée du “Finishing” : reconstruction des bases Mise à jour des banques de séquences et des comparaisons Aujourd’hui : 16 projets en cours Formation et suivit des utilisateurs (une journée : outils d’annotation et interface MaGe)

Examples de projets MicroScope Base de Données Bactérie(s) Collaborateurs Séquençage Neisseria meningitidis NEM8013 NeisseriaScope Pathogène Humain C. Rusniok (LGMP, IP, Paris) Institut Pasteur M. Picardeau & C. Bouchier (IP, Paris) Institut Pasteur LeptoScope Leptospira biflexa Pathogène/ Saprophyte H. Burkholderia species BurkholScope Pathogène E. Fialho (Portugal) Sanger Center Frankia alni P. Normand (Lyon) Genoscope FrankiaScope Frankia sp. CcI3 Symbiote de plantes D. Benson (Univ. Connect, USA) DOE JGI Frankia sp. EAN1 L. Tisa (Univ. New H, USA) Escherichia coli B P. Daelegen (Genoscope, Evry) Commensales et Pathogènes ColiScope E. coli D & E Escherichia fergusoni Genoscope E. Denamur (INSERM, Bichat) Cenibacterium arsenoxidans P. Bertin (ULP, Strasbourg) Environnement (Métabolise l’arsenic) CenibaScope Genoscope Consortium GDR Arsenic Thiomonas spp. Bradyrhizobium sp. ORS278 E. Giraud (LSTM, Montpellier) Genoscope BradyrhizoScope Symbiote de plantes G. Stacey (Univ. Missouri, USA) Bradyrhizobium sp. BTAi1 M. Sadovsky (Univ. Minnesota, USA) DOE JGI

Perspectives pour MicroScope Interfaces de requêtes multigénomes : Interfaces génériques et spécifiques (requêtes pré-cablées) Interfaces graphiques -> accès à MaGe/BioCyc/Syntonizer Améliorer l’annotation fonctionnelle automatique : Détection automatique des évènements de fusion/fission Combinaison synténies/voies métaboliques Recherche automatique de candidats d’enzymes manquantes Tirer profit de l’annotation experte : Interface permettant de propager l’annotation experte d’un gène aux orthologues ‘forts’. Formation à l’annotation de génomes bactériens et à la plateforme d’annotation MaGe 4 journées organisées au Genoscope à partir de l’automne 2005 (préparation, au préalable, de la base liée au projet) -> Les outils d’annotation -> Utilisation de MaGe autour du (des) génomes d’intérêt

Le site Web de MicroScope :

Les acteurs de MicroScope David Vallenet Stéphane Cruveiller A l’Atelier de Génomique Comparative : Zoé Rouy Aurélie Lajus Dans le service informatique : Laurent Sainte-Marthe Claude Scarpelli Sylvain Bonneval … avec la complicité pour les bases BioCyc de : François Lefèvre (équipe de V. Schächter) Et sans oublier les retours de nos collaborateurs biologistes !

Je vous remercie de votre attention !… Et pour finir … Paul Kersey de l’EBI vient nous parler des projets Genome Reviews et Integr8 Jeudi prochain à 11h dans cette même salle (le 23 Juin) « Interg8 and Genome reviews: integrated views of complete genomes and proteomes” Je vous remercie de votre attention !…