La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bacterial genome annotation in the AGC group GENOSCOPE/CNRS UMR Structure et évolution des génomes Dir. Jean Weissenbach Claudine Médigue Atelier de Génomique.

Présentations similaires


Présentation au sujet: "Bacterial genome annotation in the AGC group GENOSCOPE/CNRS UMR Structure et évolution des génomes Dir. Jean Weissenbach Claudine Médigue Atelier de Génomique."— Transcription de la présentation:

1 Bacterial genome annotation in the AGC group GENOSCOPE/CNRS UMR Structure et évolution des génomes Dir. Jean Weissenbach Claudine Médigue Atelier de Génomique Comparative Meeting on Cenibacterium arsenoxidans annotation - 14/04/05

2 Annotation: A note, added by way of comment, or explanation. What genes does this genome contain? What is their location? What proteins do they encode? How are they regulated? In what interactions and in what pathways do the protein products participate? Typical genome annotation questions : What is genome annotation ?

3 détection par contenu Three annotation level Syntaxic/structural annotation Location of genes (both protein- coding genes and RNA genes) Location of regulatory signals Location of other regions (such as repeats, etc) EMBL Functionnal annotation Biological function of the genes Operators family SWISSPROT Static view of the genome Dynamic view of the genome Process annotation (or relationnal) metabolic networks regulatory processes molecular assembly … How genomic objets are linked to build functionnal module, responsible for specific task in the cell such as : Experimental results L. Stein (2001) What is genome annotation ?

4 AMIGene : CDS prediction in bacterial genomes tRNA-scan : tRNA gene prediction (G. Fichant et al.) findrRNA : rRNA gene finding ProFED : Procaryotic Frameshift Error Detection From the AGC group AFC/Kmean : Statistical analysis (i.e, codon or oligonucleotide usage) AMIMat : CDS prediction in bacterial genomes From different authors Petrin : rho indépendant terminators prediction (C. Term et al.) Nosferatu : Closest or distants DNA repeats (E. Rocha et al.) Spat : Pattern finding such as RBS, promoters, …(A. Viari et al.) Oriloc : Cumulatif GC skew to predict the replication origin and terminus Structural annotation tools

5 =>ORF more than 300 nt in length: probably not a random ORF GTGGAATTGTGAGCGGATAACAATTTCACACAGGAAACAGCTATGACCGTGATTTTGGATTCA...GTCGTTTAACAACGTCG Stop A D N N S T Q E T A M T V I T D S V V Stop GTGGAATTGTGAGCGGATAACAATTTCACACAGGAAACAGCTATGACCGTGATTTTGGATTCA...GTCGTTTAACAACGTCG Stop M T V I T D S V V Stop ORF (Open Reading Frame) Potential coding region => We used a statistical property of coding regions based on different compositions in oligonucleotides of length k between coding/non coding region. GTGGAATTGTGAGCGGATAACAATTTCACACAGGAAACAGCTATGACCGTGATTTTGGATTCA...GTCGTTTAACAACGTCG Stop M T V I T D S V V Stop Coding probablility ? rbsStart candidates Gene finding process

6 Start codon Ribosome binding sites (RBS) RBS-finder (TIGR)

7 Statistical model i A,C,G,T k P(X/X 1...X k ) Transition probabilities The probability that a nucleotide is in position I depends only on the type of the k preceeding nucleotides : Learning step => Practical use startstop Pcodant w phase 1 phase 2 phase 3 GeneMark (Borodovski) Glimmer (Salzberg) Searching for stop/start codon patterns (RBS) + chaining constraints Gene models Gene finding : methods based on Markov Models

8 Longest ORFs extraction "Glimmer-learn" GeneMark COMPLETE GENOME assimilation (coding versus coding) (500 to 1000pb) "Make-mat" Coding Set of sequences : Coding + Non coding The matrix of transition probabilities is built by discrimination (coding versus non coding) Glimmer Gene model (matrix) which reflect the codon usage of the coding regions Set of sequences : The matrix of transition probabilities is built by How are built reference models in the learning step ?

9 E. coli C. jejuni E. coli gene model the reference matrix used by the gene finding methods is very important ! Example of gene prediction

10 Acinetobacter «natifs» gene model The matrix used does not fit the codon usage of the genes founded in this part of the sequence Horizontal transfer ? Several existing problems start codon assertion (non-ATG / alternatifs) small genes detection « atypical » genes AMIGene (S. Bocs) Annotation of MIcrobial Genes Building one or more gene models : AMIMat Gene prediction using Markov Model (Such as GeneMark) Heuristic for the selection of the most probable CDSs. Heterogeneity in genomis sequences

11 AMIGene et les modèles de gènes … Construction dun modèle de gènes à partir de la séquence utilisateur (> 10 kb) Utilisation des modèles de gènes calculés pour un ensemble de génomes (environ 80)

12 S. Cruveiller presentation Gene model construction : AMIMat strategy

13 ? « FONCTION » ? rôle biochimique rôle physiologique mécanisme par similarité de séquence (criblage de banques) expérimental (gène rapporteur; expression différentielle...) par contexte (voisinage) « synténies » métabolisme. … Annotation fonctionnelle

14 From the AGC group From different authors AutoFAssign : Automatic functionnal assignation Syntonizer : Synteny group detection InterProScan : Searching for functionnal domains in Prosite, PFAM, PRODOM databanks Cognitor : Finding similarities in the Cluster of Orthologous Genes (COG classification) BlastP : Similarities searches in protein databanks and alignments Also used for orthologs and paralogs identification SignalP /TMhmm : Peptide signal and Transmembrane helix predictions D. Vallenet presentation Functional annotation tools PRIAM : Finding similarities with enzymatic profiles (enzymatic classification) Pathway tools (BioCyc/P; Karp) : Metabolic pathway reconstruction L. Labarre presentation

15 SWISSALL CDSs traduites = protéome + BlastP FastA Pour une séquence peptidique comparée, liste des protéines des banques les plus similaires (= hits blast). On opère un transfert par similarité de la fonction biologique présumée ( identité > 50% sur une longueur de 80% des séquences). On va propager des annotations du type putative kinase à dautres protéines, ressemblant de moins en moins à la première. => quel est le seuil de ressemblance à partir duquel 2 protéines peuvent avoir la même fonction ? Similarité en séquence/similarité en structure ou de la fonction => propagation les erreurs dannotation annotations des banques incomplètes/fausses Orphelins Recherche de similarités : banques de protéines

16 Objectif : tenir compte de la modularité des protéines Banque de domaines protéiques CDSs traduites = protéome + Programme ad-hoc Pour une séquence peptidique, caractéristiques des motifs protéiques les plus probables Domaines répertoriés sous forme de profiles Autant de programmes de recherche que de banques (formats différents) -> PROSITE, BLOCKS, PRINTS, PFAM, etc. Compléments des résultats de BlastP => éviter une annotation unique dans le cas de protéines modulaires. Recherche de similartiés : banques de motifs protéiques

17 Gène orphelin Genome A Genome B Dyn. Prog Comparaison des protéomes de deux génomes A et B. Chaque protéine de Gi est alignée avec toutes les protéines de Gj. Relations : 1 1 «Best Hits Bidirectionnels» 1 n «Best Hits» Une paire dorthologues vérifie la relation bijective BHB Genes E. coli/B. subtilis BHB= Genes % 35.0% S. aureus/B. subtilis BHB= Genes %59.8% E. coli/Y. pestis BHB= % 59.8% Y. pestis/Y.pseudotuberculosis BHB= Genes/CDSs % 80.9% Exploration des voisinages : caractérisation dorthologues

18 Principe : comparaisons 2 à 2 des protéomes de 70 génomes bactériens regroupement des gènes orthologues (BBH) : forment une classe fonctionnelle particulière Un COG = ens. de protéines qui devraient dériver dune protéine ancestrale commune Groupes de Gènes Orthologues = COG (Koonin)

19 SGBD relationnel (MySQL) SGBD relationnel (MySQL) PkGDB : Procaryotic Genome DataBase Objectif : données dannotation propres, cohérentes, à la source des méthodologies de génomique comparative Génomes complets (Refseq NCBI) Génomes complets (Refseq NCBI) Intégration dans PkGDB Gestion des frameshifts Homogénéité des données

20 PkGDB Construction des pré-matrices (probabilités de transition/ modèle markovien) Compare_Annotation Ens. des CDSs valides Databank_Annotation Données issues des banques CDSs valides des banques (1) Correction/vérification des CDS à problème Annotation des pseudogènes PkGDB Databank_Annotation Données issues des banques Toutes les CDSs : Jeu de CDSs (1) + CDSs dont les bornes ont été corrigées automatiquement OU à corriger manuellement Courbes de probabilité de codage Fichiers des banques Processus dintégration des données publiques dans PkGDB

21 Exemple de corrections : annotation des pseudogènes CDSs fragment (type fCDS) CDS complexe (type cCDS) Error type = No3multiple kdpB kdpC kdpDkdpE speF gene /gene="kdpB" /locus_tag="S0610" /note="frameshift" /pseudo /db_xref="GeneID: " gene /gene="kdpC" /locus_tag="S0611" CDS /gene="kdpC" /locus_tag="S0611" /function="enzyme; Transport of small molecules: Cations" /codon_start=1 /transl_table=11 /product="potassium-transporting ATPase" gene /gene="kdpD" /locus_tag="S0612" /note="frameshift" /pseudo gene /gene="kdpE" /locus_tag="S0613" /note="frameshift" /pseudo gene /gene="speF" /locus_tag="S0614" /note="frameshift" /pseudo …

22 PkGDB Construction des pré-matrices (probabilités de transition/ modèle markovien) Correction/vérification des CDS à problème Annotation des pseudogènes Compare_Annotation Ens. des CDSs valides Databank_Annotation Données issues des banques PkGDB Databank_Annotation Données issues des banques CDSs valides des banques (1) Toutes les CDSs : Jeu de CDSs (1) + CDSs dont les bornes ont été corrigées automatiquement OU à corriger manuellement Courbes de probabilité de codage PkGDB Compare_Annotation Annotations banques Statut = Checked Databank_Annotation Données issues des banques Fichiers des banques Processus dintégration des données publiques dans PkGDB CDSs corrigées/validées (2) AMIMat : construction des modèles de gènes

23 SGBD relationnel (MySQL) SGBD relationnel (MySQL) PkGDB : Procaryotic Genome DataBase Objectif : données dannotation propres, cohérentes, à la source des méthodologies de génomique comparative Génomes complets (Refseq NCBI) Génomes complets (Refseq NCBI) Intégration dans PkGDB Gestion des frameshifts Homogénéité des données Ré-annotation syntaxique Complétion /correction des données

24 MICheck : ré-annotation (syntaxique) de génomes bactériens Objectif : Vérifier rapidement si les annotations répertoriées dans les banques de séquences pour un génome donné sont complètes. Cruveiller et al. (2005) MICheck : A Web tool to fast check annotations of bacterial genomes. Nucleic Acid Research (en révision) Fichier EMBL ou GenBank Séq. nucl Annotations + Modèle(s) de gènes CDS prédites Calcul de la probabilité moyenne de codage Gènes annotés COMPARAISON Position des codons stop CDS communes CDS UNIQUES Banques CDS UNIQUES AMIGene

25 Projets de ré-annotation de génomes bactériens Base de données CMR (Comprehensive Microbial Resource) du TIGR Gènes en plus «Primary annotation» : annotations originales + « TIGR annotation » : annotations automatiques (disponibles en consultation uniquement) Les banques de séquences publiques NCBI (Genbank) : projet Refseq (Reference Sequence) Gènes en plus/en moins Reviewed RefSeq : annotations automatiques + curation manuelle par des experts du NCBI. Provisional RefSeq : Provisional RefSeq : annotations originales annotations automatiques uniquement

26 Genbank original (BA000002) Résultats MICheck sur A. pernix (status Reviewed Refseq) APE1077 APE1097 rplX APE1087a APE1088a APE1089 Fichier Refseq (NC_000854) CDS communes CDS UNIQUES Banques CDS UNIQUES AMIGene BA NC_000854

27 Résultats MICheck sur O. iheyensis (status Reviewed Refseq) CDS communes CDS UNIQUES Banques CDS UNIQUES AMIGene BA NC_ Fichier Refseq (NC_004193) gene complement( ) /gene="OB2021" CDS complement( ) /gene="OB2021" /product="hypothetical protein" gene /gene="OB2022" CDS /gene="OB2022" /EC_number=" " /product="N-acetylmuramoyl-L-alanine amidase (partial) " /translation="MKLTTLISTIL… " gene complement( ) /gene="OB2023" CDS complement( ) /gene="OB2023" BA gene complement( ) /locus_tag="OB2021" /db_xref="GeneID: " CDS complement( ) /locus_tag="OB2021" /product="hypothetical protein" misc_feature /note="similar to N-acetylmuramoyl-L-alanine amidase" gene complement( ) /locus_tag="OB2023" /db_xref="GeneID: " CDS complement( ) /locus_tag="OB2023" /note="CDS_ID OB2023 NC_004193

28 Projets de ré-annotation de génomes bactériens EBI (EMBL) : projet Genome Reviews Gènes en moins Base de données CMR (Comprehensive Microbial Resource) du TIGR Gènes en plus «Primary annotation» : annotations originales + « TIGR annotation » : annotations automatiques (disponibles en consultation uniquement) Les banques de séquences publiques NCBI (Genbank) : projet Refseq (Reference Sequence) Gènes en plus/en moins Reviewed RefSeq : annotations automatiques + curation manuelle par des experts du NCBI. Provisional RefSeq : Provisional RefSeq : annotation originales annotations automatiques uniquement Enrichissement/correction des annotations fonctionnelles originales (Données UniProt, Genome Ontology, InterPro, etc) Standardisation/homogénéisation des annotations originales Détection et élimination des annotations erronées (système Xanthippe)

29 Résultats MICheck sur S. oneidensis (status Reviewed Refseq) CDS communes CDS UNIQUES Banques CDS UNIQUES AMIGene AE AE005176_GR Fichier Genome Review (AE005176_GR) Genbank original (AE005176)

30 Fichier dannotation original et fichier EMBL (GR) FT CDS FT /codon_start=1 FT /gene="dctM {UniProt/TrEMBL:Q8ECK2}" FT /locus_tag="SO3136 {UniProt/TrEMBL:Q8ECK2}" FT /product="C4-dicarboxylate transport protein … FT CDS FT /codon_start=1 FT /gene="dctD {UniProt/TrEMBL:Q8ECK1}" FT /locus_tag="SO3138 {UniProt/TrEMBL:Q8ECK1}" FT /product="C4-dicarboxylate transport FTtranscriptional regulatory protein FT{UniProt/TrEMBL:Q8ECK1} » FT CDS complement( ) FT /codon_start=1 FT /gene="tdk {UniProt/Swiss-Prot:Q8ECK0}" FT /locus_tag="SO3140 {UniProt/SwissProt:Q8ECK0}" FT /product="Thymidine kinase {UniProt/Swiss- FTProt:Q8ECK0}" FT /EC_number=" {UniProt/Swiss-Prot:Q8…}" FT /function="ATP binding {GO: } » FT /function="thymidine kinase activity {GO: }" FT /biological_process="DNA metabolism FT{GO: }" FT CDS FT /codon_start=1 FT /gene="dcp-1 {UniProt/TrEMBL:Q8ECJ9}" FT /locus_tag="SO3142 {UniProt/TrEMBL:Q8ECJ9}" FT /product="Peptidyl-dipeptidase Dcp" FT /function="metalloendopeptidase activity FT{GO: }" FT /biological_process="proteolysis and peptidolysis FT {GO: }" AE005176_GR gene /gene="dctB" /locus_tag="SO3137" /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift" gene /gene="dctD" /locus_tag="SO3138" CDS /gene="dctD" /locus_tag="SO3138" /note="similar to GB:X14046, SP:P11049, and PID:29794; identified by sequence similarity; putative" /codon_start=1 /transl_table=11 /product="C4-dicarboxylate transport transcriptional regulatory protein" gene complement( ) /locus_tag="SO3139" /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; conserved hypothetical protein; identified by Glimmer2; putative" gene complement( ) /locus_tag="SO3140" CDS complement( ) /locus_tag="SO3140" /note="identified by match to PFAM protein family HMM PF00265" /codon_start=1 /transl_table=11 /protein_id="AAN " /product="thymidine kinase gene /locus_tag="SO3141" /note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP: ; identified by sequence similarity; putative" … AE /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift" /note=" This region contains an authentic frame shift and is not the result of a sequencing artifact; … " /note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP: ; identified by sequence similarity; putative"

31 SGBD relationnel (MySQL) SGBD relationnel (MySQL) PkGDB : Procaryotic Genome DataBase Objectif : données dannotation propres, cohérentes, à la source des méthodologies de génomique comparative Génomes complets (Refseq NCBI) Génomes complets (Refseq NCBI) Intégration dans PkGDB Gestion des frameshifts Homogénéité des données Ré-annotation syntaxique Complétion /correction des données Résultats danalyses : Résultats danalyses : Intrinsèques : gènes, signaux, répétitions,… Génomes nouveaux (projets dannotation) Génomes nouveaux (projets dannotation) Extrinsèques : Blast, InterPro, COG, synténies …

32 Biological databases Stratégie générale de lannotation des génomes bactériens -1- Séquençage Prédiction automatique de gènes Annotation fonctionnelle (auto) Prediction of coding regions, promoters, terminators, RNAs Similarity searches, assignments to protein families, sequence features, … Suggestion of function, classification Ré-annotation Validation and update of previous annotations Expression data, knock-out phenotypes, etc. Annotation manuelle Intégration dans dautres plateformes danalyse Validation of automatic annotations, Additional database and literature searches, Contextual analysis, gene fusions, protein interactions, Phylogenetic profiles

33 Lab work + Bioinformatics Effort manuel Bioinformatics Lab work + Bioinformatics AUTOMATION needed VISUALIZATION needed Biological databases Sequençage Prédiction automatique de gènes Annotation fonctionnelle (auto) Annotation manuelle Ré-annotation Intégration dans dautres plateformes danalyse Bioinformatics Stratégie générale de lannotation des génomes bactériens -2-

34 GRAPHICAL ANNOTATION INTERFACE (Web server connected to the data base) Validation and completion of the automatic annotation (Re) Annotation using synteny results Schéma général du système MaGe PkGDB AcinetoDB Yersinia Scope HaloplanktisDB Bacillus Scope ColiScope FrankiaDB Databases for annotation and re-annotation projects MySQL DB Specialized databases Public databanks «Private» sequences Blast tRNAscan-SE InterProScan PRIAM COGnitor TMHMM Automatic functional assignment combining multiple evidence and synteny results «AutoFunc»

35 /product /gene /label CDS name (very different from gene name !) = CENARnumber Description of the best hit : DA_SWALL OR the one of Monica R. (EcoGene database) IF one E. coli protein is similar to the annotated gene : DA_COLI Gene name and synonyms from the EcoGene database IF one E. coli protein is similar to the annotated gene. /function Functionnal Classification (E. coli) IF identity > 40% AND alignment on 80% of the protein lengths OR identity > 30% AND alignment on 80% of the protein lengths AND SYNTENY DA = « Definitive_Annotation » /EC_number PRIAM EC number(s) Module dassignation fonctionnelle automatique (AutoFunc) -1- IF identity > 40% AND partial alignment PM = Partial_Match /product Description of the best hit : PM_SWALL OR the one of Monica R. (EcoGene database) IF one E. coli protein is similar to the annotated gene : PM_COLI + (partial match) (>80% of the databank protein length) Query protein Databank protein Genomes de Référence : E. coli et Acinetobacter ADP1

36 IF 30% < identity < 40% AND alignment on 80% of the protein lengths /product Putative/Probable (?) + description of the best hit PA_SWALL OR the one of E. coli PA_COLI IF identity < 30% : no significant databank similarity /product Hypothetical protein / Orphan Protein ? /noteSummary of the 3 SWALL best hits PA = Putative_Annotation HP = Hypothetical_Protein Module dassignation fonctionnelle automatique (AutoFunc) -2- IF identity > 40% AND partial alignmentFO= Fragment_Of /product Description of the best hit : PM_SWALL OR the one of Monica R. (EcoGene database) IF one E. coli protein is similar to the annotated gene : PM_COLI + (partial) (>80% of the query protein lenght) Query protein Databank protein

37 Annotation définitive : example 2.1.1: DNA replication

38 Annotation définitive, partial match : example Ratio of alignment lengths with Lmatch (length of match), Lprot1 (length of protein 1) and Lprot2 (length of protein 2) minL = Lmatch/ min(Lprot1, Lprot2) and maxL = Lmatch /max(Lprot1, Lprot2)

39 Visualisation sous MaGe de CENAR0426 CENAR0426

40 Annotation définitive, partial : example

41 Visualisation sous MaGe de CENAR0361 CENAR0361 Erreur de séquence probable -> il manque le début du gène (mettre CENAR361 à CheckSeq)

42 « Partial » and « partial match » : other cases CENAR3149 « partial » mdoG mdoH « partial match» CENAR3156 CENAR3153 CENAR3149/3950 : « CheckSeq » CENAR3153/56 : Ajuster le codon start


Télécharger ppt "Bacterial genome annotation in the AGC group GENOSCOPE/CNRS UMR Structure et évolution des génomes Dir. Jean Weissenbach Claudine Médigue Atelier de Génomique."

Présentations similaires


Annonces Google