Annotation de génomes complets

Slides:



Advertisements
Présentations similaires
Du gène à la protéine A. Les molécules
Advertisements

Un aperçu de la bioinformatique moléculaire
Système de représentation et dexploration de données biologiques hétérogènes.
Les données et les banques de données
Biologie Moléculaire des Hépatites Virales
Protéines fonctionnelles
Transcription de l’ADN
UML - Présentation.
L'INFORMATION GENETIQUE
I. Support et organisation de l'IG II. Méca
Colloque Traitement et Analyse de séquences : compte-rendu
Mécanisme de la traduction
Initiation à la bioinformatique
Laurent Labarre AGC - UMR Génoscope
Introduction à la bioinformatique
Les bases de données biologiques au LBBE
ADN.
LA SYNTHÈSE DES PROTÉINES
Bioinformatique =?? génomique protéomique
La synthèse des protéines
Biochimie structurale
Champs de Markov cachés pour la classification de gènes..
Synthèse des protéines
TP 5 Du génome au protéome
Le ribosome.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
La Bioinformatique à Nancy
LA SYNTHÈSE DES PROTÉINES
L’arbre du vivant.
L'information génétique
Les bactéries Gram négatives possèdent plusieurs systèmes pour transférer le matériel génétique. L’un de ces mécanismes est le système de conjugaison.
LA SYNTHÈSE DES PROTÉINES
LA REGULATION DE L’EXPRESSION DES GENES
Solution Athena accès sémantique à linformation MATI Montréal, Avril 2012.
Bases de données en biologie (suite)
Génétique moléculaire
Figure 65 : aminoacyl-ARNt et fidélité de la traduction
Université Hassan II AIN CHOCK Faculté de Médecine et de Pharmacie Casablanca - Cours de Biologie - Pr. Tahiri Jouti N. Année Universitaire
Ordre des chapitres : 1 – 3 – 2 – 4 1.
Chaque module comprends 2 niveaux :
Introduction à la Pathologie Moléculaire du Gène
Familles de gènes Nadia El-Mabrouk.
CHMI 2227F Biochimie I Expression des gènes
La traduction La traduction de l’ARNm permet la synthèse cytoplasmique de chaînes polypeptidiques. La traduction nécessite un code : le code génétique.
Réseau d’interactions Développement, reproduction,
Banques de données en bio-informatique
Protéine.
Gène Séquence d'acides nucléïques contenant une information codée pour la production régulée d'un ARN (transcription), ce dernier pouvant être traduit.
4.6 – La synthèse des protéines
Introduction à la Bio-Informatique
PAA 1140 Biochimie vétérinaire, cours 9
Institut Universitaire de Technologie de Clermont-Ferrand
LA RÉGULATION DES GÈNES
Les -omiques ENSPS 2 TIC-Santé
Le code génétique et Traduction
Chapitre 2 : La nature du vivant.
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
REGULATION DE L’EXPRESSION DES GENES
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Régulation de l’expression génétique: la transcription
Les banques de séquences nucléiques
Régulation de l’expression génétique: la traduction
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
répresseur-inducteur Régulation de l ’initiation de la transcription chez les procaryotes promoteur Gène régulateur opérateur Gènes de structure 5 ’
ULBI 101 Biologie Cellulaire L1 Le Système Membranaire Interne.
RASAHOLIARISON Nomena Interne 1 er semestre en Neurologie USFR Neurologie CHU-JRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO Cours du 01 avril 2015.
Chapitre 2 2ème partie Transcription et traduction titre.
Transcription de la présentation:

Annotation de génomes complets Séminaire IN’Tech - Octobre 2003 - Lyon Annotation de génomes complets Anne Morgat Fondation Rhône-Alpes Futur

Après le séquençage … Séquençage = « décryptage » du support physique de l’information génétique Il faut donner un sens au texte du génome : trouver les mots, la ponctuation, le sens de chaque phrase et les liens entre elles …

Après le séquençage… l’annotation séquence ADN brute Annotation syntaxique Eléments génétiques (features) • CDSs, ARNs • Signaux de régulation • Répétitions... etc détection par contenu Annotation fonctionelle Attribution de « fonction(s) » Objets « individuels » BD • produits des gènes • familles d ’opérateurs • Similarité de séquences A brief overview of the different levels in the process of genome annotation: First: the syntactic level aims at detect features. A feature is an entity associated to a nucleic sequence. For instance, CDSs, Regulation signals and so on. Features are detected by content. Then, the functional annotation level, which correpond to function attribution to the features previously detected.For instance, function associated to gene products, ... Usually, this is done by similarity. These entities can be represented by objects. Finally, relational annotation consists in establishing the relations which exist between these entities. It allows, analysis of metabolic pathways or genetic networks. Generally, only the first 2 levels: syntactic annotation and functional annotation are described in sequence databases, like gb, EMBL or SP. Our objective, is to integrate these heterogenous data into a single system in order to represent …. • Annotation contextuelle / relationnelle analyse des relations entre les entités

Annotation contextuelle/relationnelle • Génomique comparative • Réseaux de régulation • Assemblages moléculaires ABC tranporters Fichant et al. • Voies métaboliques

Annotation syntaxique : Recherche de gènes (1) • Biologie : usage du code génétique ............ A L G W A ........ ............ CGA CTA GGA TGG CGG ........ phase 1 ............ CGA CTA GGA TGG CGG ........ phase 1 ............CGACTAGGATGGCGG........ . code génétique + usage des acides-aminés . usage des codons synonymes (biais d’usage du code) . ARNt disponibles, taux d’expressions des gènes

Matrice(s) de transitions Annotation syntaxique : Recherche de gènes (1) • Biologie : usage du code génétique ............ A L G W A ........ ............ CGA CTA GGA TGG CGG ........ phase 1 . code génétique + usage des acides-aminés . usage des codons synonymes (biais d’usage du code) . ARNt disponibles, taux d’expressions des gènes P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G) • Modèle mathématique : Chaînes de Markov i A,C,G,T k P(X/X1...Xk) Matrice(s) de transitions Apprentissage • Utilisations w phase 1 phase 2 phase 3 start stop Pcodant

Annotation syntaxique : Recherche de gènes (2) • Procaryotes GenMark (Borodovski) Glimmer (Salzberg) Problèmes en suspens • assertion des starts (non-ATG / alternatifs) • protéines « atypiques » (membranaires) • gènes « atypiques » (transfert horizontal)

Annotation syntaxique : Recherche de gènes (3) E. coli +3 +2 +1 Modèle des gènes «natifs» de E. coli C. jejuni +3 +2 +1 -1 Importance de la matrice de référence utilisée…

Usage des codons et Analyse Factorielle des Correspondances Gènes -1- tableau des effectifs en codons gene1 gene2 gene3 A C T . etc... profil moyen o d n s (distance du chi2) -2- distance entre les distributions -3- « meilleure » représentation plane

Usage des codons et Analyse Factorielle des Correspondances Table de contingence

Usage des codons et Analyse Factorielle des Correspondances Table de contingence AFC Manipulation Visualisation

Usage des codons et Analyse Factorielle des Correspondances Table de contingence AFC Visualisation Manipulation localisation des gènes sur le chromosome

Annotation fonctionnelle ? • rôle biochimique • rôle physiologique • mécanisme « FONCTION » ? • expérimental (gène rapporteur; expression différentielle...) • par similarité de séquence (criblage de banques) • par contexte (voisinage) • « synténies » • métabolisme . …

Annotation fonctionnelle : similarité de séquences (2) ? Bases «spécialisées» PFAM, SMART, COGs, EcoGene NCBI NR, SwissProt, … Bases «généralistes» Similarités de séquence : Alignement de séquences (prog. dynamique) Recherche de patterns, profils domaines conservés familles d’homologues génomes de « référence » Analyse de séquences (aa) : • peptides signaux, régions transmembranaires • structures 3D (PDB)

 Annotation fonctionnelle : similarité de séquences (1) 2549 2552 2550 2551 ACIAD2549 : « Conserved hypothetical protein » - propagation des « erreurs » - « orphelins »  Synténies bactériennes Utilisation du contexte :

Annotation fonctionnelle : utilisation du contexte (2) Principe: recherche de synténies bactériennes Genome A Genome B Blast + Prog. Dyn. Etape 1 homologues Genome A Genome B « synton » Etape 2 distribution chromosomique

Synténies bactériennes B. subtilis (168) E. coli (K12)

Quelles sont les fonctions associées à ces gènes?

B. subtilis (168) E. coli (K12)

Voie de biosynthèse de la ménaquinone

B. subtilis (168) E. coli (K12) menC

ytfD: First identified as an N-acylamino acid racemase (by similarity) Using genomic context, ytfD was expected to be an o-succinyl-CoA synthase (menC) (enzymatic activity confirmed experimentally, Palmer et al; 1999) ytfD Low similarity menC

Annotation fonctionnelle : intégration de données hétérogènes données protéiques métabolite bases de séquences … EC réaction biochimique complexe moléculaire enzyme EC polypeptide signal gène pathway données métaboliques chromosome opéron données génomiques

Annotation fonctionnelle : intégration de données hétérogènes organism gene protein ? enzyme GenoLink : outil generique pas de modele de donnees GEB: modele de donnees (donnees genomiques et post-genomiques bacteriennes) problèmes de représentation - des objets - des relations - n-aires - requêtes

Environnement logiciel d’annotation Environnement d’expertise Environnement logiciel intégré pour : l’exécution de méthodes (production de nouvelles données) l’accès aux données (propriétés, relations) la visualisation des données (visualiseurs specialisés)  l’exploration des données (requêtes, navigation) Turning genomic and post-genomic data into biological knowledge is a highly exploratory process. GS: Integrated bioinformatic environment for exploratory genomics