Annotation de séquences génomiques: gènes Olivier Garsmeur Gaétan Droc Franc-Christophe Baurens Dominique This Stéphanie Sidibé-Bocs
Annotation des séquences génomiques Une fois le séquençage et l’assemblage du génome d’un organisme achevé, 2 principales questions : 1) Où sont les gènes et comment sont-ils distribués ? Distinguer gènes et éléments transposables Annotation structurale 2) Quelle est la fonction de ces gènes ? Annotation fonctionnelle
Les gènes ● Ou sont les gènes? ● Les prédictions sont basées sur la structure (motifs, signatures ): intron, exon, splice site, UTR. Gène prédit fonctionnel Structure complète Codon initiateur M (ATG) Stop codon TAA, TAG or TGA GT (GC) / AG splicing site Pas de stop dans les exons prédits Pseudogene (non fonctionnel) Structure NON complete missing_acceptor missing_donor missing_start_codon missing_stop_codon multiple_stop_in_frame ATG Stop GT AG The first question is : where are the gene on the sequence ? All the the gene finder sotfwares, are based on the structure of the gene and they try to delimited, or to recognize regions of the genome correponding to intron, exon, splice site and more... Here you can see representation of the structure of a gene, Well everybody know here how is constituted a gene, but just for remining, in plants, 98% of intron start with a GC and finish by an AG. The 2 reming % corresponds to intron that begin with an GC instead of a GT. When we will perform the annotation, we will find complete structure of gene, with start codon, stop codon at the end of the coding sequence , and no stop codon in the coding sequence. This kind of structure can be attributed to gene witch are predicted as functional. in the other hand, we will also find structure corresponding to pseudogenes, not functionals, often because we will find stop codon or frameshift in the coding sequence. CDS (CoDing Sequence) Exon1 Exon2 Gene
Annotation automatique Deux méthodes d'annotation automatique : 1. Méthodes intrinsèques (ab-initio) 2. Méthodes extrinsèques
1. Méthode intrinsèque d'annotation automatique Basée uniquement sur des analyses informatiques avec des modèles statistiques Modèles probabilistes (Hidden Markov Models - Modèles de chaîne de Markov cachées - HMM) pour faire la distinction entre les régions codantes et non-codantes du génome - Besoin d'un set d'entraînement de gènes annotés pour être efficace "apprentissage"
1. Méthode intrinsèque d'annotation automatique brin direct brin complémentaire Lukashin & Borodovsky, 1998 ensemble des transitions possibles entre états cachés (cercles)
Outils d'annotation automatique des gènes Exemples de logiciels de prédiction des gènes Plantes: GeneMark.HMM GeneFinder Eugene FgeneSH GlimmerA Augustus Animaux: Genie HMMgene MagPie GenID Grail Humain: Genescan GeneFinder GeneWise
2. Méthodes extrinsèques Approche comparative basée sur les similarités de séquences -> la séquence à annoter est comparée aux bases de données 3 types de comparaison Protéine ADNc ADNg The second methods used to annotate sequences are extrinsic methods. they are based on a comparative approach with sequence similarities. The sequence to annotate is compared with databases. The mostly used algorithm to compare sequences with database is the blast. They are several kind of blast. They are presented in this table. For example, if we want to compare a protein sequence against a protein database, we will use the BlastP. All these sequences comparison will be used to find the best homologies with the genes already identified. The Functional annotation will be always deducted of these similarities. ADNg Alignement ADNg - Protéine Alignement ADNg - ADNc Alignement ADNg - ADNg 8
2. Méthodes extrinsèques L'annotation fonctionnelle sera toujours déduite des similarités (homologies) avec les éléments prédits dans les bases de données sequence (query) target (Subject) database BLASTN nucleotide nucleotide NR , EST, genomes BLASTX translated nucleotide protein Swissprot-Trembl BLASTP protein protein Swissprot-Trembl TBLASTX translated nucleotide translated nucleotide NR , EST, genomes TBLASTN protein translated nucleotide NR , EST, genomes
2. Méthodes extrinsèques Domaines protéiques conservés = signatures Bases de Données de signatures de domaines protéiques qui peuvent être utilisées pour la classification et l'annotation automatique des protéines Interproscan : classe les séquences en superfamilles, familles et sous-familles; prédit l'occurrence des domaines fonctionnels et des sites importants BD de domaines utilisées par Interproscan : Prosite patterns Pfam ProDom Superfamily TIGRFAMs GENE3D HAMAP PANTHER PIRSF Other extrinsic methods can be used to help the annotation. We can look for conserved protein domains corresponding to signatures of genes. The best tool to perform this is interproscan. This tool use several databases like Prosite, PFAM or Panther to predict the presence of conserved protein domains. http://www.ebi.ac.uk/interpro/ 10
Bases de données…oui, mais… Les bases séquences protéiques sont pour la grande majorité uniquement le résultat de la traduction in-silico de séquences nucléiques (pas de certitude biologique) exemple: Trembl database = traduction automatique de NR database. (protéines incomplètes, fragments). Swissprot contient un nombre moins important de protéines que Trembl, mais les séquences sont vérifiées manuellement par des bio-curateurs Les séquences EST sont souvent de mauvaise qualité (séquencage simple brin, erreurs) Cluster d’ESTs disponibles, detection de structures correspondant à des gènes Les séquences de génomes complets sont très utiles pour faire du transfert d’annotation. Mais seules les espèces proches (phylogénie) donnent une annotation pertinente (divergence, évolution)
Eléments répétés Les gènes ne représentent qu’une petite portion du génome ● Les éléments répétés peuvent représenter plus de 80% du génome (blé) différents types Genes represent only a little part of the genome The aim of the annotation is also to predict the structure of the others component of the genome and notably the transposable elements. Here we can see a table of the TE classification. This classification has been suggested and published by wicker et al in 2007. In fact, TE are like usually classified in class, order, superfamily and family. And Like there was no clear rules for choosing transposable elements names, wicker et al suggested to use a code to maintain the traceability and origine of TE. For example, the name RLC_Rhum_Sh53A11 R means Retrotransposon class, L means Order LTR C means Copia superfamily Rhum is the name of the element And Sh53A11 is the Saccharum hybrid BAC clone from where the TE was annotated. If the sequence is published, the accession number can be attributed. Classification from Wicker et al (2007). A unified classification system for eukaryotic transposable elements. Nat Rev Genet, 8, 973-982.
LTR-Retrotransposons, Ty1 (copia) & Ty3 (gypsy) Chez les plantes, les éléments répétés les plus abondants (en terme de % de couverture du génome) sont les LTR retrotranposons In plants, the most frequent mobile elements are LTR retrotranposons Here we have a representation of the structure of a complete retrotransposon from the copia superfamily. The gap pol is flanking by 2 Long terminal repeat sequences LTR. these sequences can have a lenght of several thousand base pair. On each side of the element, we can see also, two little sequences composed of 3 to 6 nucleotides and they correspond to Target Site duplications TSD. The gag pol code for severals proteins and In the Gypsy superfamily compared to the copia superfamily, the order of these protein is not exactly the same. If fact for the gypsy, the integrase is at the end of the polyprotein.
On peut filtrer les éléments répétés avant l'annotation des gènes Masquer les séquences répétées On peut filtrer les éléments répétés avant l'annotation des gènes les TEs peuvent être confondus avec des gènes codant pour des protéines (transposases et traces) les TEs perturbent la structure des modèles de gène, en s'insérant dans les introns par exemple (longues insertions, le modèle de gène est coupé fréquemment) Mais ce n’est pas une obligation, surtout si on veut pouvoir décrire l’ensemble des éléments d’une région donnée Repeat masker est l'outil le plus utilisé pour masquer les répétitions Before to annotate the genes, we need generally to filtering out the repeats because the presence of repeats make the gene modelling more difficult. There are severals raisons, TEs may look like protein encoding genes (transposase and remains) TEs perturb the gene struture prediction, e.g. If a TE is inserting in a intron of a gene, that will make a long insertion, and the gene model will be cut in many parts, so the prediction will not be good) Repeat masker is the tool the mostly used to mask repeats. A web server of repeatmasker is available at this adress. http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker 14
Annotation automatique Annotation automatique pratique, mais à vérifier manuellement ! Réalisée avec des programmes informatiques, algorithmes statistiques travail humain, donc : - le résultat est un équilibre entre faux positifs et faux négatifs - le transfert peut induire des erreurs ou des aberrations - lent ! - également source d'erreur ! Annoter manuellement les gènes dans les régions d'intérêt Pour faciliter l'annotation manuelle, utilisation de systèmes d'annotation contrôlés et "universels" (chaînes de traitement de prédictions automatiques, stockage des annotations, interfaces web graphiques de requête, d'exploration et de validation)
Méthode intégrative d'annotation automatique Méthode intégrative = ab-initio + approches comparatives Prédictions ab-initio des gènes couplées aux résultats de similarité avec les bases de données pour améliorer significativement l'annotation (les méthodes intrinsèques et extrinsèques se complémentent)
Evaluation de la pertinence de l’annotation Exemple de l’évaluation de l’annotation sur des séquences de clones BAC Medicago VP (vrais positifs) gènes prédits, réellement présents = bonne prédiction FP (faux positifs) gènes prédits, mais réellement non présents = sur prédiction FN (faux négatifs) gènes non prédits, mais normalement présents = sous prédiction VN (vrais négatifs) gènes non prédits, et réellement absents = bonne prédiction la pertinence est mesurée par le rapport Sensibilité/spécificité : Sn/Sp Sensibilité = Spécificité =
Combiner d'annotation automatique http://eugene.toulouse.inra.fr/ EuGène is an free gene finder and Compared to most existing gene finders, it has the ability to simply integrate several sources of information in its prediction process. EuGène can exploit probabilistic models like Markov models It’s alos Integrate information from several signal (splice site, translation start...), similarity with existing sequences (EST, proteins, genomic sequences) Integrate predictions from others gene finder (eg, FgeneSH) So this tool use integrative methods to perform the annotation. Eugene will produce severals files containing the results of predictions. Fichiers statistiques = coding or non-coding Files corresponding to Genes locations and structure (exons, intron, splice site) Files containing results of comparison with databases: 1 file per database File with the masked repeats regions. It will produce graphical output with all the predictions. 18
Eugene: fonctionnement DNA sequence Eugene Blastx FGenesH Genome Threader SpliceMachine Eugene HMM A B C STRUCTURAL blastx Gth Exonerate blastp tblastn Interproscan BBMH Greenphyl blastp tblastn Interproscan BBMH Greenphyl blastx GTh Exonerate Each analysis need an output EMBL or GFF for loading in Artemis 1 RepeatMasker 2 format CDS to embl (header, features, sequence) 3 Write gene.fna, CDS.fna, prot.faa files 4 GeneMark / Prokov 5 tRNAscan-SE 6 rRNA 7 Rfam 8 Geneseqer EST intra & interspecies 9 Prokov_ORF, translate, Interpro on translated ORF predicted in the six frames 9 split BAC in genic region For each region 4 Sim4 EST intraspecies (cognate), createCluster (keep best per cluster), compute absolute coordinates 6 Blastx, createCluster, Exonerate, compute absolute coordinates SP-perso (kinase) 7 Blastx, createCluster, Exonerate , compute absolute coordinates SP-monocot 8 Blastx , createCluster, Exonerate , compute absolute coordinates SP 9 Blastx , createCluster, Exonerate , compute absolute coordinates TrEMBL-perso (kinase) 10 Blastx , createCluster, Exonerate , compute absolute coordinates TrEMBL-monocot 11 Blastx , createCluster, Exonerate , compute absolute coordinates TrEMBL 17 Blastp SP 18 Blastp TrEMBL 19 Interpro on prot.faa 20 tBlastn prot.faa against EST, exonerate of translated EST against genic region, compute absolute coordinates 21 Tree to decide functionnal annotation FUNCTIONAL
EuGène : fichier graphique de sortie
Annotation manuelle exemple de logiciel d'annotation : Artemis transposon gène (7 exons) séquence nucléotidique Eléments annotés http://www.sanger.ac.uk/resources/software/artemis/
Plateforme d'annotation GNPAnnot au CIRAD Annotation automatique Annotation manuelle Annotateur intégration vérification croisement analyse Now I’m going to present the GNPANNOT platform of CIRAD. This platform is available on the South Green bioinformatics portal of CIRAD : http://southgreen.cirad.fr GNPAnnot is a community system for structural and functional annotation dedicated to plants and bio-aggressor genomes allowing both automatic predictions and manual curations of annotations. This platform use Generic Model Organism Database components (it’s that we call GMOD components) : That means that it’s composed only of a collection of open source softwares or tools and theses tools are connected each others to build the pipeline. Here we can see a representation of the platform. There are all the tools and software that I present before to perfom automatic annotations of genes and transposables elements. For example that include Eugene, FgeneSH, splice machine and all the extrinsic medoths like blastt for sequences comparisons. That also include all the tool needs for automatic predictions of transposables elements, like repeatmasker, censor, LTR struct …. In the other side, we have the genome editors like artemis for manual curations of annotations, genomes browser like Gbrowse to have a friendly view of sequences annotations on a web page, and some tools to perform comparative genomics like ACT for artemis comparative tool. In the central part of the platform there is a Chado database. This database contains : all the genes databanks (swissprot, genbank…and more) Transposable elements databases (repbase, trep, specific plant repeat databases ..) This database Store also all the results from automatic predictions and from manual curations The originality of this platform is that we developed a CHADO controller. It’s a kind of data inspector. First this controller permits to have an Access Restriction for confidential data . So, We need a password to see or to modify annotations. The controller also fills, an History report of Manual Annotations to keep tracks of user actions like the date of modifications, modifications themselves and the name of the curator. And the main aspect of the inspector is to checks the actions of users. For example If during a curation step, an user do an unexpeted action, the inspector show a warning windows to ask if the action has to be validate or not. We developed also severals scripts to query the database and to export the results in various formats. For example to produce automatically EMBL submission files. http://southgreen.cirad.fr/ Dr Stéphanie Sidibe Bocs 22
Plateforme d'annotation GNPAnnot au CIRAD http://www.gnpannot.org/
GBrowse : outil de visualisation de l'annotation nom et taille de la séquence Espèce, plateforme d'annotation utilisée séquence Gènes annotés
GBrowse : outil de visualisation de l'annotation nom et taille de la séquence Espèce, plateforme d'annotation utilisée séquence Eléments répétés annotés
A vous de jouer …