La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Annotation de génomes complets

Présentations similaires


Présentation au sujet: "Annotation de génomes complets"— Transcription de la présentation:

1 Annotation de génomes complets
Séminaire IN’Tech - Octobre Lyon Annotation de génomes complets Anne Morgat Fondation Rhône-Alpes Futur

2 Après le séquençage … Séquençage
= « décryptage » du support physique de l’information génétique Il faut donner un sens au texte du génome : trouver les mots, la ponctuation, le sens de chaque phrase et les liens entre elles …

3 Après le séquençage… l’annotation
séquence ADN brute Annotation syntaxique Eléments génétiques (features) • CDSs, ARNs • Signaux de régulation • Répétitions... etc détection par contenu Annotation fonctionelle Attribution de « fonction(s) » Objets « individuels » BD • produits des gènes • familles d ’opérateurs • Similarité de séquences A brief overview of the different levels in the process of genome annotation: First: the syntactic level aims at detect features. A feature is an entity associated to a nucleic sequence. For instance, CDSs, Regulation signals and so on. Features are detected by content. Then, the functional annotation level, which correpond to function attribution to the features previously detected.For instance, function associated to gene products, ... Usually, this is done by similarity. These entities can be represented by objects. Finally, relational annotation consists in establishing the relations which exist between these entities. It allows, analysis of metabolic pathways or genetic networks. Generally, only the first 2 levels: syntactic annotation and functional annotation are described in sequence databases, like gb, EMBL or SP. Our objective, is to integrate these heterogenous data into a single system in order to represent …. • Annotation contextuelle / relationnelle analyse des relations entre les entités

4 Annotation contextuelle/relationnelle
• Génomique comparative • Réseaux de régulation • Assemblages moléculaires ABC tranporters Fichant et al. • Voies métaboliques

5 Annotation syntaxique : Recherche de gènes (1)
• Biologie : usage du code génétique A L G W A CGA CTA GGA TGG CGG phase 1 CGA CTA GGA TGG CGG phase 1 CGACTAGGATGGCGG . code génétique + usage des acides-aminés . usage des codons synonymes (biais d’usage du code) . ARNt disponibles, taux d’expressions des gènes

6 Matrice(s) de transitions
Annotation syntaxique : Recherche de gènes (1) • Biologie : usage du code génétique A L G W A CGA CTA GGA TGG CGG phase 1 . code génétique + usage des acides-aminés . usage des codons synonymes (biais d’usage du code) . ARNt disponibles, taux d’expressions des gènes P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G) • Modèle mathématique : Chaînes de Markov i A,C,G,T k P(X/X1...Xk) Matrice(s) de transitions Apprentissage • Utilisations w phase 1 phase 2 phase 3 start stop Pcodant

7 Annotation syntaxique : Recherche de gènes (2)
• Procaryotes GenMark (Borodovski) Glimmer (Salzberg) Problèmes en suspens • assertion des starts (non-ATG / alternatifs) • protéines « atypiques » (membranaires) • gènes « atypiques » (transfert horizontal)

8 Annotation syntaxique : Recherche de gènes (3)
E. coli +3 +2 +1 Modèle des gènes «natifs» de E. coli C. jejuni +3 +2 +1 -1 Importance de la matrice de référence utilisée…

9 Usage des codons et Analyse Factorielle des Correspondances
Gènes -1- tableau des effectifs en codons gene1 gene2 gene3 A C T . etc... profil moyen o d n s (distance du chi2) -2- distance entre les distributions -3- « meilleure » représentation plane

10 Usage des codons et Analyse Factorielle des Correspondances
Table de contingence

11 Usage des codons et Analyse Factorielle des Correspondances
Table de contingence AFC Manipulation Visualisation

12 Usage des codons et Analyse Factorielle des Correspondances
Table de contingence AFC Visualisation Manipulation localisation des gènes sur le chromosome

13 Annotation fonctionnelle
? • rôle biochimique • rôle physiologique • mécanisme « FONCTION » ? • expérimental (gène rapporteur; expression différentielle...) • par similarité de séquence (criblage de banques) • par contexte (voisinage) • « synténies » • métabolisme . …

14 Annotation fonctionnelle : similarité de séquences (2)
? Bases «spécialisées» PFAM, SMART, COGs, EcoGene NCBI NR, SwissProt, Bases «généralistes» Similarités de séquence : Alignement de séquences (prog. dynamique) Recherche de patterns, profils domaines conservés familles d’homologues génomes de « référence » Analyse de séquences (aa) : • peptides signaux, régions transmembranaires • structures 3D (PDB)

15  Annotation fonctionnelle : similarité de séquences (1)
2549 2552 2550 2551 ACIAD2549 : « Conserved hypothetical protein » - propagation des « erreurs » - « orphelins » Synténies bactériennes Utilisation du contexte :

16 Annotation fonctionnelle : utilisation du contexte (2)
Principe: recherche de synténies bactériennes Genome A Genome B Blast + Prog. Dyn. Etape 1 homologues Genome A Genome B « synton » Etape 2 distribution chromosomique

17 Synténies bactériennes
B. subtilis (168) E. coli (K12)

18 Quelles sont les fonctions associées à ces gènes?

19

20

21 B. subtilis (168) E. coli (K12)

22 Voie de biosynthèse de la ménaquinone

23 B. subtilis (168) E. coli (K12) menC

24 ytfD: First identified as an N-acylamino acid racemase (by similarity) Using genomic context, ytfD was expected to be an o-succinyl-CoA synthase (menC) (enzymatic activity confirmed experimentally, Palmer et al; 1999) ytfD Low similarity menC

25 Annotation fonctionnelle : intégration de données hétérogènes
données protéiques métabolite bases de séquences EC réaction biochimique complexe moléculaire enzyme EC polypeptide signal gène pathway données métaboliques chromosome opéron données génomiques

26 Annotation fonctionnelle : intégration de données hétérogènes
organism gene protein ? enzyme GenoLink : outil generique pas de modele de donnees GEB: modele de donnees (donnees genomiques et post-genomiques bacteriennes) problèmes de représentation - des objets - des relations - n-aires - requêtes

27 Environnement logiciel d’annotation Environnement d’expertise
Environnement logiciel intégré pour : l’exécution de méthodes (production de nouvelles données) l’accès aux données (propriétés, relations) la visualisation des données (visualiseurs specialisés)  l’exploration des données (requêtes, navigation) Turning genomic and post-genomic data into biological knowledge is a highly exploratory process. GS: Integrated bioinformatic environment for exploratory genomics


Télécharger ppt "Annotation de génomes complets"

Présentations similaires


Annonces Google