Annotation de séquences génomiques: gènes

Slides:



Advertisements
Présentations similaires
Un aperçu de la bioinformatique moléculaire
Advertisements

Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.
Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin
Informatique en Biologie Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :
L’outil bio-informatique pour la génomique structurale
Les données et les banques de données
OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.
Colloque Traitement et Analyse de séquences : compte-rendu
Discrimination Validation
Initiation à la bioinformatique
Le remplacement moléculaire
Génomique et post-génomique végétale
Les bases de données biologiques au LBBE
Bioinformatique: prédiction de gènes
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Bioinformatique =?? génomique protéomique
Licence professionnelle de Génomique
La Régulation génétique chez les Procaryotes
Yoann Beausse Journée Bioinformatique des Génopoles
1. L’ADN et l’information génétique
Le code génétique Biologie 122.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
IGL301 - Spécification et vérification des exgiences 1 Chapitre 2 Le processus dingénierie des exigences (ref : Bray chapitre 2)
Expression du Génome Le transcriptome.
LA SYNTHÈSE DES PROTÉINES
Protein data bank (PDB) : structures (oct 2007) SCOP (Structural Classification Of Proteins): 971 folds (major structural similarity) 1586 super-families.
Les bactéries Gram négatives possèdent plusieurs systèmes pour transférer le matériel génétique. L’un de ces mécanismes est le système de conjugaison.
Annotation de génomes complets
BIOS – – Mise en œuvre Projet RosEST Développements Sebastien Carrere, LIPM Thibaut Hourlier, LIPM Coordination.
La banque UniprotKB et le logiciel Blast
Recherche heuristique dans les bases de données L’algorithme BLAST
printemps des sciences
Méthodes et usages de l’analyse de la modularité des protéines
Génétique moléculaire
Etienne Danchin & Amandine Campan Présentation interne, pôle Santé des Plantes, Sophia - Antipolis Mercredi 21 avril 2010 Grille PACA ProActive : retour.
"POLYMORPHISME" Plusieurs Formes
UML.
Induction de l’expression de la frataxine avec des protéines TALEs ciblant son promoteur Dr. Jacques P. Tremblay Université Laval Québec., Canada.
Université Hassan II AIN CHOCK Faculté de Médecine et de Pharmacie Casablanca - Cours de Biologie - Pr. Tahiri Jouti N. Année Universitaire
La génétique et la biométrie
Sous la tutelle de Laurence Casalot Diagnostic Moléculaire
Optimisation par les algorithmes génétiques
Probabilités et cannabis
Analyses phylogénétiques
Introduction à la Pathologie Moléculaire du Gène
Familles de gènes Nadia El-Mabrouk.
Les subtélomères des chromosomes des hémiascomycètes Nantes, octobre 2006 Cécile Fairhead Génétique Moléculaire des Levures Institut Pasteur, Paris.
E.R. Gauthier, Ph.D.CHMI 3216F – A20091 Bioingénierie de l’A.D.N. CHMI 3216 F 14 Septembre 2009 Boîte à outils, 2 ième partie (suite). Plasmides, clonage.
CHMI 2227F Biochimie I Expression des gènes
Recherche par automates finis
Banques de données en bio-informatique
STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004.
Gène Séquence d'acides nucléïques contenant une information codée pour la production régulée d'un ARN (transcription), ce dernier pouvant être traduit.
OBJECTIFS FouDanGA : Fouille de données pour l’annotation de génomes d’actinomycètes CONTEXTE Mise en œuvre de méthodes.
Institut Universitaire de Technologie de Clermont-Ferrand
La génétique et la biométrie
Recherche heuristique dans les bases de données L’algorithme BLAST
L’analyse d’ADN et la génomique
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
ED diagnostic et dépistage
RASAHOLIARISON Nomena Interne 1 er semestre en Neurologie USFR Neurologie CHU-JRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO Cours du 01 avril 2015.
Bio-Informatique Analyse de séquences nucléotidiques
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Définition de la transpotion La transposition correspond au déplacement aléatoire, sur le chromosome, de fragments d’ADN nommés éléments génétique mobile.
L’outil bio-informatique pour la génomique structurale
Transcription de la présentation:

Annotation de séquences génomiques: gènes Olivier Garsmeur Gaétan Droc Franc-Christophe Baurens Dominique This Stéphanie Sidibé-Bocs

Annotation des séquences génomiques Une fois le séquençage et l’assemblage du génome d’un organisme achevé, 2 principales questions : 1) Où sont les gènes et comment sont-ils distribués ?  Distinguer gènes et éléments transposables  Annotation structurale 2) Quelle est la fonction de ces gènes ?  Annotation fonctionnelle

Les gènes ● Ou sont les gènes? ● Les prédictions sont basées sur la structure (motifs, signatures ): intron, exon, splice site, UTR. Gène prédit fonctionnel  Structure complète Codon initiateur M (ATG) Stop codon TAA, TAG or TGA GT (GC) / AG splicing site Pas de stop dans les exons prédits Pseudogene (non fonctionnel)  Structure NON complete missing_acceptor missing_donor missing_start_codon missing_stop_codon multiple_stop_in_frame ATG Stop GT AG The first question is : where are the gene on the sequence ? All the the gene finder sotfwares, are based on the structure of the gene and they try to delimited, or to recognize regions of the genome correponding to intron, exon, splice site and more... Here you can see representation of the structure of a gene, Well everybody know here how is constituted a gene, but just for remining, in plants, 98% of intron start with a GC and finish by an AG. The 2 reming % corresponds to intron that begin with an GC instead of a GT. When we will perform the annotation, we will find complete structure of gene, with start codon, stop codon at the end of the coding sequence , and no stop codon in the coding sequence. This kind of structure can be attributed to gene witch are predicted as functional. in the other hand, we will also find structure corresponding to pseudogenes, not functionals, often because we will find stop codon or frameshift in the coding sequence. CDS (CoDing Sequence) Exon1 Exon2 Gene

Annotation automatique Deux méthodes d'annotation automatique : 1. Méthodes intrinsèques (ab-initio) 2. Méthodes extrinsèques

1. Méthode intrinsèque d'annotation automatique Basée uniquement sur des analyses informatiques avec des modèles statistiques Modèles probabilistes (Hidden Markov Models - Modèles de chaîne de Markov cachées - HMM) pour faire la distinction entre les régions codantes et non-codantes du génome - Besoin d'un set d'entraînement de gènes annotés pour être efficace "apprentissage"

1. Méthode intrinsèque d'annotation automatique brin direct brin complémentaire Lukashin & Borodovsky, 1998 ensemble des transitions possibles entre états cachés (cercles)

Outils d'annotation automatique des gènes Exemples de logiciels de prédiction des gènes Plantes: GeneMark.HMM GeneFinder Eugene FgeneSH GlimmerA Augustus Animaux: Genie HMMgene MagPie GenID Grail Humain: Genescan GeneFinder GeneWise

2. Méthodes extrinsèques Approche comparative basée sur les similarités de séquences -> la séquence à annoter est comparée aux bases de données 3 types de comparaison Protéine ADNc ADNg The second methods used to annotate sequences are extrinsic methods. they are based on a comparative approach with sequence similarities. The sequence to annotate is compared with databases. The mostly used algorithm to compare sequences with database is the blast. They are several kind of blast. They are presented in this table. For example, if we want to compare a protein sequence against a protein database, we will use the BlastP. All these sequences comparison will be used to find the best homologies with the genes already identified. The Functional annotation will be always deducted of these similarities. ADNg Alignement ADNg - Protéine Alignement ADNg - ADNc Alignement ADNg - ADNg 8

2. Méthodes extrinsèques L'annotation fonctionnelle sera toujours déduite des similarités (homologies) avec les éléments prédits dans les bases de données sequence (query) target (Subject) database BLASTN nucleotide nucleotide NR , EST, genomes BLASTX translated nucleotide protein Swissprot-Trembl BLASTP protein protein Swissprot-Trembl TBLASTX translated nucleotide translated nucleotide NR , EST, genomes TBLASTN protein translated nucleotide NR , EST, genomes

2. Méthodes extrinsèques Domaines protéiques conservés = signatures Bases de Données de signatures de domaines protéiques qui peuvent être utilisées pour la classification et l'annotation automatique des protéines Interproscan : classe les séquences en superfamilles, familles et sous-familles; prédit l'occurrence des domaines fonctionnels et des sites importants BD de domaines utilisées par Interproscan : Prosite patterns Pfam ProDom Superfamily TIGRFAMs GENE3D HAMAP PANTHER PIRSF Other extrinsic methods can be used to help the annotation. We can look for conserved protein domains corresponding to signatures of genes. The best tool to perform this is interproscan. This tool use several databases like Prosite, PFAM or Panther to predict the presence of conserved protein domains. http://www.ebi.ac.uk/interpro/ 10

Bases de données…oui, mais… Les bases séquences protéiques sont pour la grande majorité uniquement le résultat de la traduction in-silico de séquences nucléiques (pas de certitude biologique) exemple: Trembl database = traduction automatique de NR database. (protéines incomplètes, fragments).  Swissprot contient un nombre moins important de protéines que Trembl, mais les séquences sont vérifiées manuellement par des bio-curateurs Les séquences EST sont souvent de mauvaise qualité (séquencage simple brin, erreurs) Cluster d’ESTs disponibles, detection de structures correspondant à des gènes Les séquences de génomes complets sont très utiles pour faire du transfert d’annotation. Mais seules les espèces proches (phylogénie) donnent une annotation pertinente (divergence, évolution)

Eléments répétés Les gènes ne représentent qu’une petite portion du génome ● Les éléments répétés peuvent représenter plus de 80% du génome (blé) différents types Genes represent only a little part of the genome The aim of the annotation is also to predict the structure of the others component of the genome and notably the transposable elements. Here we can see a table of the TE classification. This classification has been suggested and published by wicker et al in 2007. In fact, TE are like usually classified in class, order, superfamily and family. And Like there was no clear rules for choosing transposable elements names, wicker et al suggested to use a code to maintain the traceability and origine of TE. For example, the name RLC_Rhum_Sh53A11 R means Retrotransposon class, L means Order LTR C means Copia superfamily Rhum is the name of the element And Sh53A11 is the Saccharum hybrid BAC clone from where the TE was annotated. If the sequence is published, the accession number can be attributed. Classification from Wicker et al (2007). A unified classification system for eukaryotic transposable elements. Nat Rev Genet, 8, 973-982.

LTR-Retrotransposons, Ty1 (copia) & Ty3 (gypsy) Chez les plantes, les éléments répétés les plus abondants (en terme de % de couverture du génome) sont les LTR retrotranposons In plants, the most frequent mobile elements are LTR retrotranposons Here we have a representation of the structure of a complete retrotransposon from the copia superfamily. The gap pol is flanking by 2 Long terminal repeat sequences  LTR. these sequences can have a lenght of several thousand base pair. On each side of the element, we can see also, two little sequences composed of 3 to 6 nucleotides and they correspond to Target Site duplications  TSD. The gag pol code for severals proteins and In the Gypsy superfamily compared to the copia superfamily, the order of these protein is not exactly the same. If fact for the gypsy, the integrase is at the end of the polyprotein.

On peut filtrer les éléments répétés avant l'annotation des gènes Masquer les séquences répétées On peut filtrer les éléments répétés avant l'annotation des gènes les TEs peuvent être confondus avec des gènes codant pour des protéines (transposases et traces) les TEs perturbent la structure des modèles de gène, en s'insérant dans les introns par exemple (longues insertions, le modèle de gène est coupé fréquemment) Mais ce n’est pas une obligation, surtout si on veut pouvoir décrire l’ensemble des éléments d’une région donnée  Repeat masker est l'outil le plus utilisé pour masquer les répétitions Before to annotate the genes, we need generally to filtering out the repeats because the presence of repeats make the gene modelling more difficult. There are severals raisons, TEs may look like protein encoding genes (transposase and remains) TEs perturb the gene struture prediction, e.g. If a TE is inserting in a intron of a gene, that will make a long insertion, and the gene model will be cut in many parts, so the prediction will not be good) Repeat masker is the tool the mostly used to mask repeats. A web server of repeatmasker is available at this adress. http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker 14

Annotation automatique Annotation automatique pratique, mais à vérifier manuellement ! Réalisée avec des programmes informatiques, algorithmes statistiques travail humain, donc : - le résultat est un équilibre entre faux positifs et faux négatifs - le transfert peut induire des erreurs ou des aberrations - lent ! - également source d'erreur !  Annoter manuellement les gènes dans les régions d'intérêt  Pour faciliter l'annotation manuelle, utilisation de systèmes d'annotation contrôlés et "universels" (chaînes de traitement de prédictions automatiques, stockage des annotations, interfaces web graphiques de requête, d'exploration et de validation)

Méthode intégrative d'annotation automatique Méthode intégrative = ab-initio + approches comparatives Prédictions ab-initio des gènes couplées aux résultats de similarité avec les bases de données pour améliorer significativement l'annotation (les méthodes intrinsèques et extrinsèques se complémentent)

Evaluation de la pertinence de l’annotation Exemple de l’évaluation de l’annotation sur des séquences de clones BAC Medicago VP (vrais positifs) gènes prédits, réellement présents = bonne prédiction FP (faux positifs) gènes prédits, mais réellement non présents = sur prédiction FN (faux négatifs) gènes non prédits, mais normalement présents = sous prédiction VN (vrais négatifs) gènes non prédits, et réellement absents = bonne prédiction la pertinence est mesurée par le rapport Sensibilité/spécificité : Sn/Sp Sensibilité = Spécificité =

Combiner d'annotation automatique http://eugene.toulouse.inra.fr/ EuGène is an free gene finder and Compared to most existing gene finders, it has the ability to simply integrate several sources of information in its prediction process. EuGène can exploit probabilistic models like Markov models It’s alos Integrate information from several signal (splice site, translation start...), similarity with existing sequences (EST, proteins, genomic sequences) Integrate predictions from others gene finder (eg, FgeneSH) So this tool use integrative methods to perform the annotation. Eugene will produce severals files containing the results of predictions. Fichiers statistiques = coding or non-coding Files corresponding to Genes locations and structure (exons, intron, splice site) Files containing results of comparison with databases: 1 file per database File with the masked repeats regions. It will produce graphical output with all the predictions. 18

Eugene: fonctionnement DNA sequence Eugene Blastx FGenesH Genome Threader SpliceMachine Eugene HMM A B C STRUCTURAL blastx Gth Exonerate blastp tblastn Interproscan BBMH Greenphyl blastp tblastn Interproscan BBMH Greenphyl blastx GTh Exonerate Each analysis need an output EMBL or GFF for loading in Artemis 1 RepeatMasker 2 format CDS to embl (header, features, sequence) 3 Write gene.fna, CDS.fna, prot.faa files 4 GeneMark / Prokov 5 tRNAscan-SE 6 rRNA 7 Rfam 8 Geneseqer EST intra & interspecies 9 Prokov_ORF, translate, Interpro on translated ORF predicted in the six frames 9 split BAC in genic region For each region 4 Sim4 EST intraspecies (cognate), createCluster (keep best per cluster), compute absolute coordinates 6 Blastx, createCluster, Exonerate, compute absolute coordinates SP-perso (kinase) 7 Blastx, createCluster, Exonerate , compute absolute coordinates SP-monocot 8 Blastx , createCluster, Exonerate , compute absolute coordinates SP 9 Blastx , createCluster, Exonerate , compute absolute coordinates TrEMBL-perso (kinase) 10 Blastx , createCluster, Exonerate , compute absolute coordinates TrEMBL-monocot 11 Blastx , createCluster, Exonerate , compute absolute coordinates TrEMBL 17 Blastp SP 18 Blastp TrEMBL 19 Interpro on prot.faa 20 tBlastn prot.faa against EST, exonerate of translated EST against genic region, compute absolute coordinates 21 Tree to decide functionnal annotation FUNCTIONAL

EuGène : fichier graphique de sortie

Annotation manuelle exemple de logiciel d'annotation : Artemis transposon gène (7 exons) séquence nucléotidique Eléments annotés http://www.sanger.ac.uk/resources/software/artemis/

Plateforme d'annotation GNPAnnot au CIRAD Annotation automatique Annotation manuelle Annotateur intégration vérification croisement analyse Now I’m going to present the GNPANNOT platform of CIRAD. This platform is available on the South Green bioinformatics portal of CIRAD : http://southgreen.cirad.fr GNPAnnot is a community system for structural and functional annotation dedicated to plants and bio-aggressor genomes allowing both automatic predictions and manual curations of annotations. This platform use Generic Model Organism Database components (it’s that we call GMOD components) : That means that it’s composed only of a collection of open source softwares or tools and theses tools are connected each others to build the pipeline. Here we can see a representation of the platform. There are all the tools and software that I present before to perfom automatic annotations of genes and transposables elements. For example that include Eugene, FgeneSH, splice machine and all the extrinsic medoths like blastt for sequences comparisons. That also include all the tool needs for automatic predictions of transposables elements, like repeatmasker, censor, LTR struct …. In the other side, we have the genome editors like artemis for manual curations of annotations, genomes browser like Gbrowse to have a friendly view of sequences annotations on a web page, and some tools to perform comparative genomics like ACT for artemis comparative tool. In the central part of the platform there is a Chado database. This database contains : all the genes databanks (swissprot, genbank…and more) Transposable elements databases (repbase, trep, specific plant repeat databases ..) This database Store also all the results from automatic predictions and from manual curations The originality of this platform is that we developed a CHADO controller. It’s a kind of data inspector. First this controller permits to have an Access Restriction for confidential data . So, We need a password to see or to modify annotations. The controller also fills, an History report of Manual Annotations to keep tracks of user actions like the date of modifications, modifications themselves and the name of the curator. And the main aspect of the inspector is to checks the actions of users. For example If during a curation step, an user do an unexpeted action, the inspector show a warning windows to ask if the action has to be validate or not. We developed also severals scripts to query the database and to export the results in various formats. For example to produce automatically EMBL submission files. http://southgreen.cirad.fr/ Dr Stéphanie Sidibe Bocs 22

Plateforme d'annotation GNPAnnot au CIRAD http://www.gnpannot.org/

GBrowse : outil de visualisation de l'annotation nom et taille de la séquence Espèce, plateforme d'annotation utilisée séquence Gènes annotés

GBrowse : outil de visualisation de l'annotation nom et taille de la séquence Espèce, plateforme d'annotation utilisée séquence Eléments répétés annotés

A vous de jouer …