La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur.

Présentations similaires


Présentation au sujet: "Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur."— Transcription de la présentation:

1 Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre Lyon Fondation Rhône-Alpes Futur

2 Séquençage = « décryptage » du support physique de linformation génétique Après le séquençage …

3 séquence ADN brute Annotation syntaxique Eléments génétiques (features) CDSs, ARNs Signaux de régulation Répétitions... etc détection par contenu Après le séquençage… lannotation Objets « individuels » BDBD Annotation fonctionelle Attribution de « fonction(s) » produits des gènes familles d opérateurs Similarité de séquences Annotation contextuelle / relationnelle analyse des relations entre les entités

4 Génomique comparative Réseaux de régulation Assemblages moléculaires ABC tranporters Fichant et al. Voies métaboliques relation Annotation contextuelle/relationnelle

5 CGACTAGGATGGCGG CGA CTA GGA TGG CGG phase A L G W A CGA CTA GGA TGG CGG phase 1. code génétique + usage des acides-aminés. usage des codons synonymes (biais dusage du code) Biologie : usage du code génétique Annotation syntaxique : Recherche de gènes (1). ARNt disponibles, taux dexpressions des gènes

6 A L G W A CGA CTA GGA TGG CGG phase 1. code génétique + usage des acides-aminés. usage des codons synonymes (biais dusage du code) P(G/CG(1)) P(G/TG(1)) P(G) Modèle mathématique : Chaînes de Markov i A,C,G,T k P(X/X 1...X k ) Matrice(s) de transitions Biologie : usage du code génétique Utilisations startstop Pcodant Apprentissage w phase 1 phase 2 phase 3 Annotation syntaxique : Recherche de gènes (1). ARNt disponibles, taux dexpressions des gènes

7 Procaryotes Problèmes en suspens assertion des starts (non-ATG / alternatifs) protéines « atypiques » (membranaires) gènes « atypiques » (transfert horizontal) GenMark (Borodovski) Glimmer (Salzberg) Annotation syntaxique : Recherche de gènes (2)

8 E. coli C. jejuni Modèle des gènes «natifs» de E. coli Importance de la matrice de référence utilisée… Annotation syntaxique : Recherche de gènes (3)

9 (distance du chi2) -2- distance entre les distributions -3- « meilleure » représentation plane Gènes -1- tableau des effectifs en codons gene1 gene2 gene3 AAAAAC AAT... etc... profil moyen Codons Usage des codons et Analyse Factorielle des Correspondances

10 Table de contingence Usage des codons et Analyse Factorielle des Correspondances

11 Table de contingenceAFCVisualisation Manipulation Usage des codons et Analyse Factorielle des Correspondances

12 Table de contingenceAFCVisualisation localisation des gènes sur le chromosome Manipulation Usage des codons et Analyse Factorielle des Correspondances

13 ? « FONCTION » ? rôle biochimique rôle physiologique mécanisme par similarité de séquence (criblage de banques) expérimental (gène rapporteur; expression différentielle...) par contexte (voisinage) « synténies » métabolisme. … Annotation fonctionnelle

14 ? Annotation fonctionnelle : similarité de séquences (2) - domaines conservés - familles dhomologues - génomes de « référence » NCBI NR, SwissProt, … Bases «généralistes» Bases «spécialisées» PFAM, SMART, COGs, EcoGene Similarités de séquence : Analyse de séquences (aa) : peptides signaux, régions transmembranaires structures 3D (PDB) Alignement de séquences (prog. dynamique) Recherche de patterns, profils

15 ACIAD2549 : « Conserved hypothetical protein » Synténies bactériennes Utilisation du contexte : Annotation fonctionnelle : similarité de séquences (1) - propagation des « erreurs » - « orphelins »

16 Principe: recherche de synténies bactériennes Etape 1 homologues Genome A Genome B « synton » Genome AGenome B Blast + Prog. Dyn. Etape 2 distribution chromosomique Annotation fonctionnelle : utilisation du contexte (2)

17 B. subtilis (168) E. coli (K12) Synténies bactériennes

18 Quelles sont les fonctions associées à ces gènes?

19

20

21 B. subtilis (168) E. coli (K12)

22 Voie de biosynthèse de la ménaquinone

23 menC B. subtilis (168) E. coli (K12)

24 Low similarity ytfD: First identified as an N-acylamino acid racemase (by similarity) Using genomic context, ytfD was expected to be an o-succinyl-CoA synthase (menC) (enzymatic activity confirmed experimentally, Palmer et al; 1999) menC ytfD

25 Annotation fonctionnelle : intégration de données hétérogènes EC données métaboliques données protéiques données génomiques chromosome polypeptide pathway complexe moléculaire enzyme gène signal réaction biochimique métabolite opéron bases de séquences …

26 Annotation fonctionnelle : intégration de données hétérogènes organism gene protein enzyme - n-aires - requêtes problèmes de représentation - des objets - des relations ?

27 Environnement dexpertise Environnement logiciel intégré pour : lexécution de méthodes (production de nouvelles données) laccès aux données (propriétés, relations) la visualisation des données (visualiseurs specialisés) lexploration des données (requêtes, navigation) Environnement logiciel dannotation


Télécharger ppt "Annotation de génomes complets Anne Morgat Séminaire INTech - Octobre 2003 - Lyon Fondation Rhône-Alpes Futur."

Présentations similaires


Annonces Google