Annotation de génomes complets Séminaire IN’Tech - Octobre 2003 - Lyon Annotation de génomes complets Anne Morgat Fondation Rhône-Alpes Futur
Après le séquençage … Séquençage = « décryptage » du support physique de l’information génétique Il faut donner un sens au texte du génome : trouver les mots, la ponctuation, le sens de chaque phrase et les liens entre elles …
Après le séquençage… l’annotation séquence ADN brute Annotation syntaxique Eléments génétiques (features) • CDSs, ARNs • Signaux de régulation • Répétitions... etc détection par contenu Annotation fonctionelle Attribution de « fonction(s) » Objets « individuels » BD • produits des gènes • familles d ’opérateurs • Similarité de séquences A brief overview of the different levels in the process of genome annotation: First: the syntactic level aims at detect features. A feature is an entity associated to a nucleic sequence. For instance, CDSs, Regulation signals and so on. Features are detected by content. Then, the functional annotation level, which correpond to function attribution to the features previously detected.For instance, function associated to gene products, ... Usually, this is done by similarity. These entities can be represented by objects. Finally, relational annotation consists in establishing the relations which exist between these entities. It allows, analysis of metabolic pathways or genetic networks. Generally, only the first 2 levels: syntactic annotation and functional annotation are described in sequence databases, like gb, EMBL or SP. Our objective, is to integrate these heterogenous data into a single system in order to represent …. • Annotation contextuelle / relationnelle analyse des relations entre les entités
Annotation contextuelle/relationnelle • Génomique comparative • Réseaux de régulation • Assemblages moléculaires ABC tranporters Fichant et al. • Voies métaboliques
Annotation syntaxique : Recherche de gènes (1) • Biologie : usage du code génétique ............ A L G W A ........ ............ CGA CTA GGA TGG CGG ........ phase 1 ............ CGA CTA GGA TGG CGG ........ phase 1 ............CGACTAGGATGGCGG........ . code génétique + usage des acides-aminés . usage des codons synonymes (biais d’usage du code) . ARNt disponibles, taux d’expressions des gènes
Matrice(s) de transitions Annotation syntaxique : Recherche de gènes (1) • Biologie : usage du code génétique ............ A L G W A ........ ............ CGA CTA GGA TGG CGG ........ phase 1 . code génétique + usage des acides-aminés . usage des codons synonymes (biais d’usage du code) . ARNt disponibles, taux d’expressions des gènes P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G) • Modèle mathématique : Chaînes de Markov i A,C,G,T k P(X/X1...Xk) Matrice(s) de transitions Apprentissage • Utilisations w phase 1 phase 2 phase 3 start stop Pcodant
Annotation syntaxique : Recherche de gènes (2) • Procaryotes GenMark (Borodovski) Glimmer (Salzberg) Problèmes en suspens • assertion des starts (non-ATG / alternatifs) • protéines « atypiques » (membranaires) • gènes « atypiques » (transfert horizontal)
Annotation syntaxique : Recherche de gènes (3) E. coli +3 +2 +1 Modèle des gènes «natifs» de E. coli C. jejuni +3 +2 +1 -1 Importance de la matrice de référence utilisée…
Usage des codons et Analyse Factorielle des Correspondances Gènes -1- tableau des effectifs en codons gene1 gene2 gene3 A C T . etc... profil moyen o d n s (distance du chi2) -2- distance entre les distributions -3- « meilleure » représentation plane
Usage des codons et Analyse Factorielle des Correspondances Table de contingence
Usage des codons et Analyse Factorielle des Correspondances Table de contingence AFC Manipulation Visualisation
Usage des codons et Analyse Factorielle des Correspondances Table de contingence AFC Visualisation Manipulation localisation des gènes sur le chromosome
Annotation fonctionnelle ? • rôle biochimique • rôle physiologique • mécanisme « FONCTION » ? • expérimental (gène rapporteur; expression différentielle...) • par similarité de séquence (criblage de banques) • par contexte (voisinage) • « synténies » • métabolisme . …
Annotation fonctionnelle : similarité de séquences (2) ? Bases «spécialisées» PFAM, SMART, COGs, EcoGene NCBI NR, SwissProt, … Bases «généralistes» Similarités de séquence : Alignement de séquences (prog. dynamique) Recherche de patterns, profils domaines conservés familles d’homologues génomes de « référence » Analyse de séquences (aa) : • peptides signaux, régions transmembranaires • structures 3D (PDB)
Annotation fonctionnelle : similarité de séquences (1) 2549 2552 2550 2551 ACIAD2549 : « Conserved hypothetical protein » - propagation des « erreurs » - « orphelins » Synténies bactériennes Utilisation du contexte :
Annotation fonctionnelle : utilisation du contexte (2) Principe: recherche de synténies bactériennes Genome A Genome B Blast + Prog. Dyn. Etape 1 homologues Genome A Genome B « synton » Etape 2 distribution chromosomique
Synténies bactériennes B. subtilis (168) E. coli (K12)
Quelles sont les fonctions associées à ces gènes?
B. subtilis (168) E. coli (K12)
Voie de biosynthèse de la ménaquinone
B. subtilis (168) E. coli (K12) menC
ytfD: First identified as an N-acylamino acid racemase (by similarity) Using genomic context, ytfD was expected to be an o-succinyl-CoA synthase (menC) (enzymatic activity confirmed experimentally, Palmer et al; 1999) ytfD Low similarity menC
Annotation fonctionnelle : intégration de données hétérogènes données protéiques métabolite bases de séquences … EC réaction biochimique complexe moléculaire enzyme EC polypeptide signal gène pathway données métaboliques chromosome opéron données génomiques
Annotation fonctionnelle : intégration de données hétérogènes organism gene protein ? enzyme GenoLink : outil generique pas de modele de donnees GEB: modele de donnees (donnees genomiques et post-genomiques bacteriennes) problèmes de représentation - des objets - des relations - n-aires - requêtes
Environnement logiciel d’annotation Environnement d’expertise Environnement logiciel intégré pour : l’exécution de méthodes (production de nouvelles données) l’accès aux données (propriétés, relations) la visualisation des données (visualiseurs specialisés) l’exploration des données (requêtes, navigation) Turning genomic and post-genomic data into biological knowledge is a highly exploratory process. GS: Integrated bioinformatic environment for exploratory genomics