Bacterial genome annotation in the AGC group

Slides:



Advertisements
Présentations similaires
Les pronoms compléments
Advertisements

Présentation IDP Sondes de détection d’intrusion
Département fédéral de lintérieur DFI Office fédéral de la statistique OFS Implementing the economic classification revision (NACE / ISIC) in the Business.
Journées AReNA, Strasbourg,18-20 Avril 2005 Problèmes liés à lidentification de gènes bactériens exprimant des ARN non traduits en protéines UPRES JE 2311,
1 La bibliométrie pour l'évaluation stratégique des institutions de recherche : usages et limites Indicators for strategic positioning of the research.
L’outil bio-informatique pour la génomique structurale
Revenir aux basiques !. 1 Revenir aux basiques Processus Nécessité daméliorer la Maîtrise les Offres et Projets: lanalyse des causes racines montre un.
Talking about yourself
Cliquez et modifiez le titre Cliquez pour modifier les styles du texte du masque Deuxième niveau Troisième niveau Quatrième niveau Cinquième niveau 23/01/2014©
Status report SOLEIL April 2008
1 Découverte des Outils SI de Cadence Ecole dElectronique Numérique IN2P3 Roscoff 2006 Découverte des Outils dAnalyse dIntégrité du Signal de Cadence ®
Colloque Traitement et Analyse de séquences : compte-rendu
Activités et projets de l’équipe Atelier de Génomique Comparative
Laurent Labarre AGC - UMR Génoscope
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
Université Des Sciences Et De La Technologie DOran Mohamed Boudiaf USTO République Algérienne Démocratique et Populaire Département de linformatique Projet.
Defence R&D Canada R et D pour la défense Canada Novel Concepts for the COP of the Future Denis Gouin Alexandre Bergeron-Guyard DRDC Valcartier.
un crayon un ordinateur un stylo un taille-crayon.
TM.
Electronic Portfolio/ Portfolio électronique QPAT
Defence Research and Development Canada Recherche et développement pour la défense Canada Canada 11-1.
DELF Le 12 au 15 avril POURQUOI DELF? Official French language diplomas (DELF-DALF) - Why take the DELF and the DALF ? The Diplôme dEtudes en Langue.
How to solve biological problems with math Mars 2012.
AFNOR NF Z – "Online Consumer Reviews
Mardi 20 Novembre 2012 Recap I can
Proposition for a new policy for MAPMT Gain Control Sylvie Dagoret-Campagne LAL EUSO-BALLOON 8th Progress meeting1.
The EMPREINTE Project Juillet - octobre 2004
TortoiseSVN N°. Subversion : pour quoi faire ? Avoir un espace de stockage commun – Tous les étudiants du SIGLIS ont un espace svn commun Partager vos.
Les choses que j aime Learning Objective: To know how to use j aime to talk about things I like to do.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Introduction à la génomique structurelle
La pratique factuelle Années 90 un concept médical visant à optimiser les décisions cliniques face aux soins des patients Aujourdhui un concept évolutif,
29e CONFÉRENCE INTERNATIONALE DES COMMISSAIRES À LA PROTECTION DES DONNÉES ET DE LA VIE PRIVÉE 29 th INTERNATIONAL CONFERENCE OF DATA PROTECTION AND PRIVACY.
ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004.
SVP. Bien lire la description des diapositives 1. 1.Une diapositive sur lidentification de létudiant, de sa recherche ainsi que du domaine dexpertise couvert.
Darwinisme universel Multiplication Variation Hérédité Compétition.
Geneva SSED - TECFA Uni Geneva Lombard F. 30 I 07 Biology Teaching Methods : Impossible convergence ? Point in time in my thesis Selected findings A short.
Protein data bank (PDB) : structures (oct 2007) SCOP (Structural Classification Of Proteins): 971 folds (major structural similarity) 1586 super-families.
Passage entre quaternions et matrice des cosinus directeurs Transition from Quaternions to Direction Cosine Matrices.
Cest mercredi le neuf octobre Le plan! 1.Révisions 2.Vocabulaire 3.Jouer 4.Ecouter 5.Parler Il fait beau! Le but! Les couleurs!
Jeudi le 7 novembre. F 3 DUE: Virtual tour in LMS by 7:30 for the 70! DUE: Flashcards also for the 70 today (50 Friday) 1. Poem practice Le dormeur du.
Le Baromètre Zone Cours : un environnement pour la micro-évaluation de ressources pédagogiques* Jacques Raynauld Olivier Gerbé HEC Montréal, MATI Montréal.
Guigage axonal dans le système nerveux ventral chez Drosophila: rôles du récepteur DRL et de son ligand WNT5 Jean-Maurice Dura Institut de Génétique Humaine.
Thematic Alignment of Static Documents with Meeting Dialogs Dalila Mekhaldi Diva Group Department of Computer Science University of Fribourg.
Annotation de génomes complets
Bases de données en biologie (suite)
La banque UniprotKB et le logiciel Blast
Recherche heuristique dans les bases de données L’algorithme BLAST
Différencier: NOMBRE PREMIER vs. NOMBRE COMPOSÉ
Branche Développement Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
KM-Master Course, 2004 Module: Communautés virtuelles, Agents intelligents C3: Collaborative Knowledge construction & knowledge sharing Thierry NABETH.
Quelle heure est-il? What time is it ?.
Pour commencer … Read the statements below and put them into three columns depending on whether they are written in the past, present or future tense.
Ministère de l’Éducation, du Loisir et du Sport Responsables des programmes FLS et ELA: Diane Alain et Michele Luchs Animateurs: Diane Alain et Michael.
Core Module 10 Advocacy: Engaging the Public Association des conseils scolaires des écoles publiques de l’Ontario (ACÉPO) Association franco-ontarienne.
Séminaire Genopole d’Evry du 17 Juin 2005
Le paradoxe Jamais il n’a été aussi facile d’accéder à une masse gigantesque d’information; Jamais il n’a été aussi difficile de ‘trier’ et de synthetiser.
Banques de données en bio-informatique
Recherche heuristique dans les bases de données L’algorithme BLAST
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Bio-Informatique Analyse de séquences nucléotidiques
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Note 1 : Tous les rapports de T. P
L’outil bio-informatique pour la génomique structurale
Transcription de la présentation:

Bacterial genome annotation in the AGC group Meeting on Cenibacterium arsenoxidans annotation - 14/04/05 Bacterial genome annotation in the AGC group Claudine Médigue Atelier de Génomique Comparative GENOSCOPE/CNRS UMR “Structure et évolution des génomes” Dir. Jean Weissenbach

What is genome annotation ? Annotation: A note, added by way of comment, or explanation. Typical genome annotation questions: What genes does this genome contain? What is their location? What proteins do they encode? How are they regulated? In what interactions and in what pathways do the protein products participate?

Static view of the genome What is genome annotation ? Three annotation level Syntaxic/structural annotation • Location of genes (both protein- coding genes and RNA genes) • Location of regulatory signals • Location of other regions (such as repeats, etc) EMBL Static view of the genome Dynamic view of the genome détection par contenu Functionnal annotation • Biological function of the genes • Operators family SWISSPROT Process annotation (or relationnal) • metabolic networks • regulatory processes • molecular assembly  • … How genomic objets are linked to build functionnal module, responsible for specific task in the cell such as : Experimental results L. Stein (2001)

Structural annotation tools Oriloc : Cumulatif GC skew to predict the replication origin and terminus tRNA-scan : tRNA gene prediction (G. Fichant et al.) findrRNA : rRNA gene finding AMIGene : CDS prediction in bacterial genomes ProFED : Procaryotic Frameshift Error Detection AFC/Kmean : Statistical analysis (i.e, codon or oligonucleotide usage) AMIMat : CDS prediction in bacterial genomes Petrin : rho indépendant terminators prediction (C. Term et al.) Spat : Pattern finding such as RBS, promoters, …(A. Viari et al.) Nosferatu : Closest or distants DNA repeats (E. Rocha et al.) From different authors From the AGC group

Gene finding process ORF (Open Reading Frame) Potential coding region GTGGAATTGTGAGCGGATAACAATTTCACACAGGAAACAGCTATGACCGTGATTTTGGATTCA...GTCGTTTAACAACGTCG Stop A D N N S T Q E T A M T V I T D S V V Stop =>ORF more than 300 nt in length: probably not a random ORF Potential coding region GTGGAATTGTGAGCGGATAACAATTTCACACAGGAAACAGCTATGACCGTGATTTTGGATTCA...GTCGTTTAACAACGTCG Stop M T V I T D S V V Stop Coding probablility ? GTGGAATTGTGAGCGGATAACAATTTCACACAGGAAACAGCTATGACCGTGATTTTGGATTCA...GTCGTTTAACAACGTCG Stop M T V I T D S V V Stop rbs Start candidates We are convinced that the object model makes transfer of biological knowledge to a formal representation easier and that the hierarchy of classes enforces formalisation (ontology) So, in this project, we used AROM system to develop knowledge bases dedicated to bacterial genome annotation => We used a statistical property of coding regions based on different compositions in oligonucleotides of length k between coding/non coding region.

Ribosome binding sites (RBS) Start codon http://cwx.prenhall.com/horton/medialib/media_portfolio/ RBS-finder (TIGR)

Transition probabilities Gene finding : methods based on Markov Models • Statistical model i A,C,G,T k P(X/X1...Xk) Transition probabilities The probability that a nucleotide is in position I depends only on the type of the k preceeding nucleotides : Learning step => • Practical use start stop Pcodant w phase 1 phase 2 phase 3 GeneMark (Borodovski) Glimmer (Salzberg) Searching for stop/start codon patterns (RBS) + chaining constraints Gene models -3 -2 -1 +1 +2 +3

How are built reference models in the learning step ? Glimmer GeneMark COMPLETE GENOME Longest ORFs extraction (500 to 1000pb) Set of sequences : Set of sequences : Coding Coding + Non coding "Glimmer-learn" "Make-mat" The matrix of transition probabilities is built by The matrix of transition probabilities is built by assimilation discrimination (coding versus coding) (coding versus non coding) We are convinced that the object model makes transfer of biological knowledge to a formal representation easier and that the hierarchy of classes enforces formalisation (ontology) So, in this project, we used AROM system to develop knowledge bases dedicated to bacterial genome annotation Gene model (matrix) which reflect the codon usage of the coding regions

Example of gene prediction E. coli +3 +2 +1 E. coli gene model C. jejuni +3 +2 +1 -1 the reference matrix used by the gene finding methods is very important !

Heterogeneity in genomis sequences -1 +1 +2 +3 -2 -3 Acinetobacter «natifs» gene model The matrix used does not fit the codon usage of the genes founded in this part of the sequence Horizontal transfer ? Several existing problems • start codon assertion (non-ATG / alternatifs) • small genes detection • « atypical » genes AMIGene (S. Bocs) Annotation of MIcrobial Genes Building one or more gene models : AMIMat Gene prediction using Markov Model (Such as GeneMark) Heuristic for the selection of the most probable CDSs.

AMIGene et les modèles de gènes … http://www.genoscope.cns.fr/agc/tools/amigene Construction d’un modèle de gènes à partir de la séquence utilisateur (> 10 kb) Utilisation des modèles de gènes calculés pour un ensemble de génomes (environ 80)

Gene model construction : AMIMat strategy S. Cruveiller presentation

Annotation fonctionnelle ? « FONCTION » ? • rôle biochimique • rôle physiologique • mécanisme • expérimental (gène rapporteur; expression différentielle...) • par similarité de séquence (criblage de banques) • par contexte (voisinage) • « synténies » • métabolisme . …

Functional annotation tools InterProScan : Searching for functionnal domains in Prosite, PFAM, PRODOM databanks Cognitor : Finding similarities in the Cluster of Orthologous Genes (COG classification) BlastP : Similarities searches in protein databanks and alignments Also used for orthologs and paralogs identification D. Vallenet presentation L. Labarre presentation PRIAM : Finding similarities with enzymatic profiles (enzymatic classification) Pathway tools (BioCyc/P; Karp) : Metabolic pathway reconstruction Syntonizer : Synteny group detection SignalP /TMhmm : Peptide signal and Transmembrane helix predictions AutoFAssign : Automatic functionnal assignation From different authors From the AGC group

 Recherche de similarités : banques de protéines + SWISSALL CDSs traduites = protéome + BlastP FastA Pour une séquence peptidique comparée, liste des protéines des banques les plus “similaires” (= hits blast). • On opère un transfert par similarité de la fonction biologique présumée (identité > 50% sur une longueur de 80% des séquences). • On va propager des annotations du type ‘putative kinase’ à d’autres protéines, ressemblant de moins en moins à la première. => quel est le seuil de ressemblance à partir duquel 2 protéines peuvent avoir la même fonction ? • Similarité en séquence/similarité en structure ou de la fonction We are convinced that the object model makes transfer of biological knowledge to a formal representation easier and that the hierarchy of classes enforces formalisation (ontology) So, in this project, we used AROM system to develop knowledge bases dedicated to bacterial genome annotation => propagation les erreurs d’annotation • annotations des banques incomplètes/fausses  • “Orphelins”

caractéristiques des motifs Recherche de similartiés : banques de motifs protéiques Objectif : tenir compte de la modularité des protéines Banque de domaines protéiques Pour une séquence peptidique, caractéristiques des motifs protéiques les plus probables Programme “ad-hoc” + CDSs traduites = protéome • Domaines répertoriés sous forme de “profiles” • Autant de programmes de recherche que de banques (formats différents) -> PROSITE, BLOCKS, PRINTS, PFAM, etc. • Compléments des résultats de BlastP => éviter une annotation unique dans le cas de protéines modulaires. We are convinced that the object model makes transfer of biological knowledge to a formal representation easier and that the hierarchy of classes enforces formalisation (ontology) So, in this project, we used AROM system to develop knowledge bases dedicated to bacterial genome annotation

Exploration des voisinages : caractérisation d’orthologues Relations : 1 «Best Hits Bidirectionnels» n «Best Hits» Gène orphelin Genome A Genome B Dyn. Prog. 1 2 3 • Une paire d’orthologues vérifie la relation bijective BHB Genes E. coli/B. subtilis BHB=1503 4174 4098 36.0% 35.0% S. aureus/B. subtilis BHB=1552 2593 37.9% 59.8% E. coli/Y. pestis BHB=2402 4017 57.5% Y. pestis/Y.pseudotuberculosis BHB=3518 Genes/CDSs 4347 87.6% 80.9% • Comparaison des protéomes de deux génomes A et B. • Chaque protéine de Gi est alignée avec toutes les protéines de Gj. We are convinced that the object model makes transfer of biological knowledge to a formal representation easier and that the hierarchy of classes enforces formalisation (ontology) So, in this project, we used AROM system to develop knowledge bases dedicated to bacterial genome annotation

Groupes de Gènes Orthologues = COG (Koonin) http://www.ncbi.nlm.nih.gov/COG/ Un COG = ens. de protéines qui devraient dériver d’une protéine ancestrale commune Principe : • comparaisons 2 à 2 des protéomes de 70 génomes bactériens • regroupement des gènes orthologues (BBH) : forment une classe fonctionnelle particulière

PkGDB : Procaryotic Genome DataBase Objectif : données d’annotation ‘propres’, cohérentes, à la source des méthodologies de génomique comparative SGBD relationnel (MySQL) Génomes complets (Refseq NCBI) Intégration dans PkGDB Homogénéité des données Gestion des ‘frameshifts’

Processus d’intégration des données publiques dans PkGDB • Correction/vérification des CDS à ‘problème’ • Annotation des pseudogènes PkGDB Databank_Annotation Données issues des banques Toutes les CDSs : Jeu de CDSs (1) + CDSs dont les bornes ont été corrigées automatiquement OU à corriger manuellement Courbes de probabilité de codage PkGDB Fichiers des banques Databank_Annotation Données issues des banques Compare_Annotation Ens. des CDSs ‘valides’ CDSs ‘valides’ des banques (1) Construction des pré-matrices (probabilités de transition/ modèle markovien)

CDS ‘complexe’ (type cCDS) CDSs ‘fragment’ (type fCDS) Exemple de corrections : annotation des pseudogènes kdpB kdpC kdpD kdpE speF gene 622524..624571 /gene="kdpB" /locus_tag="S0610" /note="frameshift" /pseudo /db_xref="GeneID:1077039" gene 624580..625152 /gene="kdpC" /locus_tag="S0611" CDS 624580..625152 /function="enzyme; Transport of small molecules: Cations" /codon_start=1 /transl_table=11 /product="potassium-transporting ATPase" gene 625145..627825 /gene="kdpD" /locus_tag="S0612" gene 627822..628507 /gene="kdpE" /locus_tag="S0613" gene 629197..631394 /gene="speF" /locus_tag="S0614" … CDS ‘complexe’ (type cCDS) Error type = ‘No3multiple’ CDSs ‘fragment’ (type fCDS)

Processus d’intégration des données publiques dans PkGDB Fichiers des banques Databank_Annotation Données issues des banques Databank_Annotation Données issues des banques Databank_Annotation Données issues des banques Compare_Annotation Ens. des CDSs ‘valides’ Compare_Annotation Annotations banques Statut = ‘Checked’ CDSs ‘valides’ des banques (1) Toutes les CDSs : Jeu de CDSs (1) + CDSs dont les bornes ont été corrigées automatiquement OU à corriger manuellement CDSs corrigées/validées (2) Construction des pré-matrices (probabilités de transition/ modèle markovien) AMIMat : construction des modèles de gènes Courbes de probabilité de codage • Correction/vérification des CDS à ‘problème’ • Annotation des pseudogènes

PkGDB : Procaryotic Genome DataBase Objectif : données d’annotation ‘propres’, cohérentes, à la source des méthodologies de génomique comparative SGBD relationnel (MySQL) Génomes complets (Refseq NCBI) Intégration dans PkGDB Homogénéité des données Gestion des ‘frameshifts’ Ré-annotation syntaxique Complétion /correction des données

MICheck : ré-annotation (syntaxique) de génomes bactériens Objectif : Vérifier rapidement si les annotations répertoriées dans les banques de séquences pour un génome donné sont complètes. Fichier EMBL ou GenBank Séq. nucl Annotations + Modèle(s) de gènes CDS prédites Calcul de la probabilité moyenne de codage Gènes annotés COMPARAISON Position des codons stop CDS communes CDS UNIQUES Banques AMIGene Cruveiller et al. (2005) MICheck : A Web tool to fast check annotations of bacterial genomes. Nucleic Acid Research (en révision) http://www.genoscope.cns.fr/agc/tools/micheck

Projets de ré-annotation de génomes bactériens Base de données CMR (Comprehensive Microbial Resource) du TIGR Gènes en plus «Primary annotation» : annotations originales + « TIGR annotation » : annotations automatiques (disponibles en consultation uniquement) Les banques de séquences publiques NCBI (Genbank) : projet Refseq (Reference Sequence) Gènes en plus/en moins Reviewed RefSeq : annotations automatiques + ‘curation’ manuelle par des experts du NCBI. Provisional RefSeq : Provisional RefSeq : annotations originales annotations automatiques uniquement

Résultats MICheck sur A. pernix (status Reviewed Refseq) CDS UNIQUES AMIGene CDS UNIQUES Banques CDS communes 18 1565 941 BA000002 35 1569 186 NC_000854 Genbank ‘original’ (BA000002) APE1077 APE1097 rplX APE1087a APE1088a APE1089 Fichier ‘Refseq’ (NC_000854)

Résultats MICheck sur O. iheyensis (status Reviewed Refseq) CDS UNIQUES AMIGene CDS UNIQUES Banques CDS communes 2 3406 18 BA000028 14 3392 18 NC_004193 Fichier ‘Refseq’ (NC_004193) gene complement(2047445..2047618) /gene="OB2021" CDS complement(2047445..2047618) /product="hypothetical protein" gene 2047725..2048765 /gene="OB2022" CDS 2047725..2048765 /EC_number="3.5.1.28" /product="N-acetylmuramoyl-L-alanine amidase (partial) " /translation="MKLTTLISTIL… " gene complement(2048799..2049245) /gene="OB2023" CDS complement(2048799..2049245) BA000028 gene complement(2047445..2047618) /locus_tag="OB2021" /db_xref="GeneID:1018510" CDS complement(2047445..2047618) /product="hypothetical protein" misc_feature 2047725..2048765 /note="similar to N-acetylmuramoyl-L-alanine amidase" gene complement(2048799..2049245) /locus_tag="OB2023" /db_xref="GeneID:1018512" CDS complement(2048799..2049245) /note="CDS_ID OB2023 NC_004193

Projets de ré-annotation de génomes bactériens Base de données CMR (Comprehensive Microbial Resource) du TIGR Gènes en plus «Primary annotation» : annotations originales + « TIGR annotation » : annotations automatiques (disponibles en consultation uniquement) Les banques de séquences publiques NCBI (Genbank) : projet Refseq (Reference Sequence) Reviewed RefSeq : annotations automatiques + ‘curation’ manuelle par des experts du NCBI. Provisional RefSeq : annotations automatiques uniquement Provisional RefSeq : annotation originales Gènes en plus/en moins EBI (EMBL) : projet Genome Reviews Enrichissement/correction des annotations fonctionnelles originales (Données UniProt, Genome Ontology, InterPro, etc) Standardisation/homogénéisation des annotations originales Détection et élimination des annotations ‘erronées’ (système Xanthippe) Gènes en moins

Résultats MICheck sur S. oneidensis (status Reviewed Refseq) CDS communes CDS UNIQUES Banques AMIGene AE005176 4114 4144 20 150 216 AE005176_GR Genbank ‘original’ (AE005176) Fichier Genome Review (AE005176_GR)

Fichier d’annotation original et fichier EMBL (GR) gene 3266258..3268062 /gene="dctB" /locus_tag="SO3137" /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift" gene 3268059..3269438 /gene="dctD" /locus_tag="SO3138" CDS 3268059..3269438 /note="similar to GB:X14046, SP:P11049, and PID:29794; identified by sequence similarity; putative" /codon_start=1 /transl_table=11 /product="C4-dicarboxylate transport transcriptional regulatory protein" gene complement(3269514..3272585) /locus_tag="SO3139" is not the result of a sequencing artifact; conserved hypothetical protein; identified by Glimmer2; putative" gene complement(3273023..3273601) /locus_tag="SO3140" CDS complement(3273023..3273601) /note="identified by match to PFAM protein family HMM PF00265" /protein_id="AAN56142.1" /product="thymidine kinase gene 3274138..3276066 /locus_tag="SO3141" /note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP:3628769; identified by sequence similarity; putative" … AE005176 /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift" /note=" This region contains an authentic frame shift and is not the result of a sequencing artifact; … " /note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP:3628769; identified by sequence similarity; putative" FT CDS 3264761..3266158 FT /codon_start=1 FT /gene="dctM {UniProt/TrEMBL:Q8ECK2}" FT /locus_tag="SO3136 {UniProt/TrEMBL:Q8ECK2}" FT /product="C4-dicarboxylate transport protein … FT CDS 3268059..3269438 FT /gene="dctD {UniProt/TrEMBL:Q8ECK1}" FT /locus_tag="SO3138 {UniProt/TrEMBL:Q8ECK1}" FT /product="C4-dicarboxylate transport FT transcriptional regulatory protein FT {UniProt/TrEMBL:Q8ECK1} » FT CDS complement(3273023..3273601) FT /gene="tdk {UniProt/Swiss-Prot:Q8ECK0}" FT /locus_tag="SO3140 {UniProt/SwissProt:Q8ECK0}" FT /product="Thymidine kinase {UniProt/Swiss- FT Prot:Q8ECK0}" FT /EC_number="2.7.1.21 {UniProt/Swiss-Prot:Q8…}" FT /function="ATP binding {GO:0005524} » FT /function="thymidine kinase activity {GO:0004797}" FT /biological_process="DNA metabolism FT {GO:0006259}" FT CDS 3276288..3278438 FT /gene="dcp-1 {UniProt/TrEMBL:Q8ECJ9}" FT /locus_tag="SO3142 {UniProt/TrEMBL:Q8ECJ9}" FT /product="Peptidyl-dipeptidase Dcp" FT /function="metalloendopeptidase activity FT {GO:0004222}" FT /biological_process="proteolysis and peptidolysis FT {GO:0006508}" AE005176_GR

PkGDB : Procaryotic Genome DataBase Objectif : données d’annotation ‘propres’, cohérentes, à la source des méthodologies de génomique comparative SGBD relationnel (MySQL) Génomes complets (Refseq NCBI) Intégration dans PkGDB Homogénéité des données Gestion des ‘frameshifts’ Ré-annotation syntaxique Complétion /correction des données Résultats d’analyses : Intrinsèques : gènes, signaux, répétitions,… Génomes nouveaux (projets d’annotation) Extrinsèques : Blast, InterPro, COG, synténies …

Stratégie générale de l’annotation des génomes bactériens -1- Séquençage Prédiction automatique de gènes Annotation fonctionnelle (auto) Prediction of coding regions, promoters, terminators, RNAs Similarity searches, assignments to protein families, sequence features, … Suggestion of function, classification Annotation manuelle Intégration dans d’autres plateformes d’analyse Validation of automatic annotations, Additional database and literature searches, Contextual analysis, gene fusions, protein interactions, Phylogenetic profiles Biological databases Ré-annotation Validation and update of previous annotations Expression data, knock-out phenotypes, etc.

Biological databases Effort manuel Stratégie générale de l’annotation des génomes bactériens -2- Sequençage Lab work + Bioinformatics Prédiction automatique de gènes Bioinformatics AUTOMATION needed Annotation fonctionnelle (auto) Bioinformatics Biological databases Effort manuel Annotation manuelle VISUALIZATION needed Intégration dans d’autres plateformes d’analyse Bioinformatics Ré-annotation Lab work + Bioinformatics

Schéma général du système MaGe MySQL DB Specialized databases Public databanks «Private» sequences PkGDB AcinetoDB Yersinia Scope HaloplanktisDB Bacillus ColiScope FrankiaDB Databases for annotation and re-annotation projects Blast tRNAscan-SE InterProScan PRIAM COGnitor TMHMM Automatic functional assignment combining multiple evidence and synteny results «AutoFunc» GRAPHICAL ANNOTATION INTERFACE (Web server connected to the data base) Validation and completion of the automatic annotation (Re) Annotation using synteny results

Module d’assignation fonctionnelle automatique (AutoFunc) -1- /label CDS name (very different from gene name !) = CENARnumber Genomes de Référence : E. coli et Acinetobacter ADP1 IF identity > 40% AND alignment on 80% of the protein lengths OR identity > 30% AND alignment on 80% of the protein lengths AND SYNTENY DA = « Definitive_Annotation » /product Description of the best hit : DA_SWALL OR the one of Monica R. (EcoGene database) IF one E. coli protein is similar to the annotated gene : DA_COLI /gene Gene name and synonyms from the EcoGene database IF one E. coli protein is similar to the annotated gene. /function Functionnal Classification (E. coli) /EC_number PRIAM EC number(s) IF identity > 40% AND partial alignment PM = Partial_Match /product Description of the best hit : PM_SWALL OR the one of Monica R. (EcoGene database) IF one E. coli protein is similar to the annotated gene : PM_COLI + (partial match) (>80% of the databank protein length) Query protein Databank protein We are convinced that the object model makes transfer of biological knowledge to a formal representation easier and that the hierarchy of classes enforces formalisation (ontology) So, in this project, we used AROM system to develop knowledge bases dedicated to bacterial genome annotation

Module d’assignation fonctionnelle automatique (AutoFunc) -2- IF identity > 40% AND partial alignment FO= Fragment_Of /product Description of the best hit : PM_SWALL OR the one of Monica R. (EcoGene database) IF one E. coli protein is similar to the annotated gene : PM_COLI + (partial) (>80% of the query protein lenght) Query protein Databank protein IF 30% < identity < 40% AND alignment on 80% of the protein lengths /product Putative/Probable (?) + description of the best hit PA_SWALL OR the one of E. coli PA_COLI IF identity < 30% : no significant databank similarity Hypothetical protein / Orphan Protein ? /note Summary of the 3 SWALL best hits PA = Putative_Annotation HP = Hypothetical_Protein

Annotation définitive : example 2.1.1: DNA replication

Annotation définitive, partial match : example Ratio of alignment lengths with Lmatch (length of match), Lprot1 (length of protein 1) and Lprot2 (length of protein 2) minL = Lmatch/ min(Lprot1, Lprot2) and maxL = Lmatch /max(Lprot1, Lprot2)

Visualisation sous MaGe de CENAR0426

Annotation définitive, partial : example

Visualisation sous MaGe de CENAR0361 Erreur de séquence probable -> il manque le début du gène (mettre CENAR361 à CheckSeq)

« Partial » and « partial match » : other cases CENAR3153 3150 3151 « partial  match» CENAR3149 CENAR3156 « partial » mdoH mdoH mdoG CENAR3149/3950 : « CheckSeq » CENAR3153/56 : Ajuster le codon start