Banques de données de séquences biologiques

Slides:



Advertisements
Présentations similaires
EvoLyon 2009 L’arbre de la vie Manolo Gouy
Advertisements

Un aperçu de la bioinformatique moléculaire
Informatique en Biologie 2004, Institut Pasteur
L’outil bio-informatique pour la génomique structurale
La génétique bactérienne cours 5
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
I. Recherche du gène correspondant aux séquences initiales.
Les données et les banques de données
PhyloJava : une application de phylogénie sur la grille DATAGRID
Grille Régionale Rhône-Alpes Institut des Grilles du CNRS Yonny CARDENAS CC-IN2P3 Réunion du groupe de travail grilles Projet CIRA Grenoble, le 2 Juin.
Initiation à la bioinformatique
BIOINFORMATIQUE La bioinformatique : stocker, analyser et visualiser pour découvrir L’exemple du séquençage d’un génome Les banques de données Les banques.
Laurent Labarre AGC - UMR Génoscope
Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -
Les bases de données biologiques au LBBE
BIOMETRIE La biométrie : La gestion d’accès de demain
Bioinformatique =?? génomique protéomique
Licence professionnelle de Génomique
Yoann Beausse Journée Bioinformatique des Génopoles
<? Le PHP appliqué à la BioInformatique ?>
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Alphy XIV – GTGC Rencontres Alignements et Phylogénie &
Département Génétique et Génomique Evolutives
The origin and evolution of synapses
La Bioinformatique à Nancy
Ingrid Geretschläger and Jocelyne Jerdelet/CERN ETT-SIS-DM1 La litterature grise : importation et gestion au SIS u Dans le passé, échange entre.
Introduction à la bioinformatique
LA SYNTHÈSE DES PROTÉINES
Annotation de génomes complets
SITRANS – Système d’information Transcriptome pour la plate-forme de la Genopole Rhône-Alpes Daniel CRISAN
The Chlamydomonas genome reveals the evolution of key
Bases de données en biologie (suite)
Solvent eXtraction Database - INTERNET -
La banque UniprotKB et le logiciel Blast
Bases de données phénotypique et ontologie
Introduction à la Bio-Informatique
Etienne Danchin & Amandine Campan Présentation interne, pôle Santé des Plantes, Sophia - Antipolis Mercredi 21 avril 2010 Grille PACA ProActive : retour.
Modèles et Algorithmes pour la Bioinformatique et la Visualisation d'informations Guy Melançon Pascal Ferraro David Auber David Sherman.
La génétique et la biométrie
Initiation à l’informatique
Analyses phylogénétiques
Familles de gènes Nadia El-Mabrouk.
Historique Juillet 2000 : Dépôt d'un dossier Génopole Ouest auprès du Ministère Mars 2001 : expertise sur site par des experts internationaux Juillet 2001.
CHMI 2227F Biochimie I Expression des gènes
Réseau d’interactions Développement, reproduction,
Banques de données en bio-informatique
Délégation Rhône Auvergne ||| TALENTS CNRS 2012.
Étude de la régulation des protéines Rho3 et Rho4: recherche des kinases responsables de la phosphorylation de la RhoGAP Rgd1 chez la levure Saccharomyces.
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.
Intégration des données sur le transcriptome
Introduction à la Bio-Informatique
Bin Hiver 2005 Intégration biosciences/informatique Sylvie Hamel Département d’informatique et de recherche opérationnelle André-Aisenstadt: 3161.
Interprétation de données d’analyses protéomiques sur une grille de calcul : Utilisation d’algorithmes libres pour l’identification MS/MS. Christine CARAPITO.
GenoToul2007 Présentation Bilan 2007 Perspectives Plateforme bioinformatique C. Gaspin, C. Klopp, D. Laborie, J.-M. Larré, C. Noirot.
Institut Universitaire de Technologie de Clermont-Ferrand
Révision ADN et protéines
Recherche heuristique dans les bases de données L’algorithme BLAST
Cartographie génomes entiers
Jocelyne Jerdelet - Sandrine Reyes CERN-DSU-SI 1 La Théorie sur la "voie verte" de l'Open Access.
Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique.
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
Bio-Informatique Analyse de séquences nucléotidiques
I nformatisation et N umérisation des A rchives D épartementales des P yrénées A tlantiques Avant projet sommaire.
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Calcul Intensif en Génomique Comparative Laurent Duret Laboratoire de Biométrie et Biologie Evolutive.
Analyse de séquences nucléotidiques séance n°2 Bio-Informatique.
Transcription de la présentation:

Banques de données de séquences biologiques Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS 5558

Projets génomes Génomes eucaryotes séquencés et publiés : Bactéries 124 92 286 502 Terminés et publiés Terminés non publiés Séquençage en cours Total Archées 16 3 20 39 Eucaryotes 9 241 (133) 266 (158) Génomes eucaryotes séquencés et publiés : A. gambiae, A. thaliana, C. elegans, C. intestinalis, D. melanogaster, E. cuniculi, G. theta, H. sapiens, M. musculus, N. crassa, O. sativa ssp. indica, O. sativa ssp. japonica, P. falciparum, P. yoelii, S. cerevisiae, S. pombe.

Banques de séquences Premières compilations papier dès 1965 (Atlas of Protein Sequences). Développement de banques de données informatisées au début des années 80 : Rapidité d’accès. Premières analyses bioinformatiques réalisées sur de nombreuses séquences : Usage des codons (Grantham et al., 1981).

Les banques généralistes Plusieurs banques ont été conçues dans différents laboratoires au début des années 80 : Nucléotides EMBL GenBank DDBJ Protéines (1) TrEMBL GenPept Protéines (2) SWISS-PROT PIR† La disponibilité de toutes ces banques pose plu-sieurs problèmes : Incompatibilité des formats, quelle banque utiliser ?

Banques composites Une solution a la prolifération des banques est de créer des banques composites. Malheureusement, plusieurs banques de ce type ont également été développées ! NRDB SWISS-PROT PIR GenPept PDB OWL† NRL_3D SP/TrEMBL TrEMBL NRDB et SWISS-PROT/TrEMBL suppriment uniquement la redondance exacte.

Provenance des séquences Les données proviennent de soumissions directes par les auteurs : Numéro d’accession délivré par les centres de saisie (EMBL / GenBank / DDBJ). Les soumissions sont réalisées par l’inter-médiaire du réseau Internet. Les séquences recueillies sont échangées quotidiennement : Le contenu des trois banques est identique.

Croissance des données 5 6 7 8 9 10 11 Log(Nb. résidus) 08/83 11/84 02/86 05/87 08/88 11/89 02/91 05/92 08/93 11/94 02/96 05/97 08/98 11/99 02/01 05/02 08/03 Date GenBank EMBL PIR SWISS-PROT

Contenu de GenBank 35,6109 nucléotides. 29,8106 séquences. 1 470 659 gènes (protéines et ARN). 329 891 références bibliographiques. 120,8 giga-octets sur disque. Augmentation de 34,2 % en 12 mois. 18-24 h pour transférer l’intégralité de Gen-Bank via Internet.

Échantillonnage taxonomique 145 371 espèces pour lesquelles on a au moins une séquence. Dix espèces (0,07 ‰) représentent 63,3 % du nombre total. 76 053 espèces ne sont représentées que par une séquence ! Homo sapiens Mus musculus Zea mays Canis familiaris Rattus norvegicus Bos taurus Gallus gallus Brassica oleacera Arabidopsis thaliana Danio rerio 24,1 % 17,4 % 6,2 % 3,0 % 2,8 % 2,1 % 2,0 % 1,9 % 1,8 % Les dix espèces les plus représentées dans GenBank

La redondance Un problème majeur est celui de la redon-dance. De nombreuses en-trées sont dupliquées : 20 % des séquences de vertébrés. Les doublons présen-tent souvent des dif-férences.  {  {  { Duplications partielles ou complètes dans les séquences

Erreurs dans les banques De nombreuses erreurs figurent dans les banques de séquences nucléotidiques : Au niveau des annotations : Imprécisions, omissions et erreurs. Incohérences entre différents champs. Dans les séquences elles-mêmes : Erreurs de séquençage. Compression, lecture des gels. Insertion de vecteurs de clonage.

Banques spécialisées De très nombreuses banques spécialisées ont été développées : Génomes complets ou en cours de séquençage : Association à des projets de cartographie (euca-ryotes pluricellulaires). Familles de gènes : Consacrées à certains organismes (procaryotes, vertébrés) ou à des familles particulières (immuno-globulines, récepteurs nucléaires). Domaines et signatures.

Banques génomiques Banques disponibles SubtiList Colibri ECDC (E. coli Database Collection) GenoList PkGDB (Prokaryotic Genomes Database) CMR (Comprehensive Microbial Resource) EMGLib (Enhanced Microbial Genomes Libray) Micado (Microbial Advanced Database Organization) MYGD (MIPS Yeast Genome Database) SGD (Saccharomyces Genome Database) YPD (Yeast Proteome Database) PlasmoDB (P. falciparum Database) WormBase WormPD (Worm Protein Database) TAIR (The Arabidopsis Information Resource) Organisme Bacillus subtilis Escherichia coli Procaryotes divers Saccharomyces cerevisiae Plasmodium falciparum Caenorhabditis elegans Arabidopsis thaliana

Banques de familles de gènes De nombreuses études requièrent de dispo-ser de séquences homologues : Recherche de parties codantes. Détection des erreurs de séquençage. Études des voies métaboliques. Phylogénie moléculaire. Transferts horizontaux. Structure des protéines.

Banques disponibles Banque ProtoMap ProClass CluSTr SYSTERS COGs HOBACGEN HOGENOME HOVERGEN RTKdb NuReBase ABCdb Basée sur SWISS-PROT PIR/PROSITE SWISS-PROT/TrEMBL SWISS-PROT/PIR Genome GenPept Contenu Tous organismes Génomes complets Bactéries et archées Vertébrés Recepteurs à tyrosine kinases Recepteurs nucléaires de métazoaires Transporteurs ABC de bactéries

Consultation et interrogation Se font essentiellement par accès à des serveurs au travers d’Internet : Pas de prise en compte des problèmes de gestion des banques par les utilisateurs : Stockage des données. Mises à jour. Simplicité d’utilisation. Moyens d’accès : Logiciels clients dédiés (Entrez, FamFetch). Comptes utilisateurs (INFOBIOGEN). Sites Web.

Le serveur du PBIL Accès à un ensemble d’outils pour l’analyse des séquences nucléiques et protéiques : Banques de séquences généralistes (GenBank, EMBL, SWISS-PROT, PIR). Banques spécialisées développées dans notre groupe (HOBACGEN, HOVERGEN, HOGENOME, RTKdb, NuReBase). Programmes de recherche de similarités et d’alignement (BLAST, -BLAST, FASTA, SSEARCH) Programmes de modélisation moléculaire (12 méthodes différentes).

Accès aux banques Requêtes sur les séquences : Nom, numéros d’accession, mots-clés, références bibliographiques, taxonomie, etc. Requêtes sur les familles : Numéros d’accession, critères taxonomiques. Visualisation des données : Séquences, alignements et arbres phylogéné-tiques.

Requêtes sur les séquences Sequence list

Accès aux séquences

Accès aux familles

Visualisation des données

Pour conclure… Les données figurant dans ces banques sont en accès libre (soumission et consultation) : Fond commun utilisable par l’ensemble de la communauté des chercheurs. Problèmes de la qualité des données : Nécessité de disposer de personnes en charge du contrôle des annotations. Il existe de très nombreuses banques disponibles (863 recensées par Lion Biosciences !) : Problèmes de l’interconnection et de l’interopérabilité des données.

Remerciements Laboratoire de Biométrie et Biologie Évolutive : Simon Penel, Laurent Duret, Manolo Gouy, Céline Delucinge. Unité de Recherche INRIA Rhône-Alpes: Jean-François Dufayard. Centre de Génétique Moléculaire et Cellulaire : Julien Grassot, Frédéric Tingaud. Laboratoire de Biologie Moléculaire et Cellulaire : Marc Robinson, Jorge Duarte, David Ruau.