Banques de données de séquences biologiques Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS 5558
Projets génomes Génomes eucaryotes séquencés et publiés : Bactéries 124 92 286 502 Terminés et publiés Terminés non publiés Séquençage en cours Total Archées 16 3 20 39 Eucaryotes 9 241 (133) 266 (158) Génomes eucaryotes séquencés et publiés : A. gambiae, A. thaliana, C. elegans, C. intestinalis, D. melanogaster, E. cuniculi, G. theta, H. sapiens, M. musculus, N. crassa, O. sativa ssp. indica, O. sativa ssp. japonica, P. falciparum, P. yoelii, S. cerevisiae, S. pombe.
Banques de séquences Premières compilations papier dès 1965 (Atlas of Protein Sequences). Développement de banques de données informatisées au début des années 80 : Rapidité d’accès. Premières analyses bioinformatiques réalisées sur de nombreuses séquences : Usage des codons (Grantham et al., 1981).
Les banques généralistes Plusieurs banques ont été conçues dans différents laboratoires au début des années 80 : Nucléotides EMBL GenBank DDBJ Protéines (1) TrEMBL GenPept Protéines (2) SWISS-PROT PIR† La disponibilité de toutes ces banques pose plu-sieurs problèmes : Incompatibilité des formats, quelle banque utiliser ?
Banques composites Une solution a la prolifération des banques est de créer des banques composites. Malheureusement, plusieurs banques de ce type ont également été développées ! NRDB SWISS-PROT PIR GenPept PDB OWL† NRL_3D SP/TrEMBL TrEMBL NRDB et SWISS-PROT/TrEMBL suppriment uniquement la redondance exacte.
Provenance des séquences Les données proviennent de soumissions directes par les auteurs : Numéro d’accession délivré par les centres de saisie (EMBL / GenBank / DDBJ). Les soumissions sont réalisées par l’inter-médiaire du réseau Internet. Les séquences recueillies sont échangées quotidiennement : Le contenu des trois banques est identique.
Croissance des données 5 6 7 8 9 10 11 Log(Nb. résidus) 08/83 11/84 02/86 05/87 08/88 11/89 02/91 05/92 08/93 11/94 02/96 05/97 08/98 11/99 02/01 05/02 08/03 Date GenBank EMBL PIR SWISS-PROT
Contenu de GenBank 35,6109 nucléotides. 29,8106 séquences. 1 470 659 gènes (protéines et ARN). 329 891 références bibliographiques. 120,8 giga-octets sur disque. Augmentation de 34,2 % en 12 mois. 18-24 h pour transférer l’intégralité de Gen-Bank via Internet.
Échantillonnage taxonomique 145 371 espèces pour lesquelles on a au moins une séquence. Dix espèces (0,07 ‰) représentent 63,3 % du nombre total. 76 053 espèces ne sont représentées que par une séquence ! Homo sapiens Mus musculus Zea mays Canis familiaris Rattus norvegicus Bos taurus Gallus gallus Brassica oleacera Arabidopsis thaliana Danio rerio 24,1 % 17,4 % 6,2 % 3,0 % 2,8 % 2,1 % 2,0 % 1,9 % 1,8 % Les dix espèces les plus représentées dans GenBank
La redondance Un problème majeur est celui de la redon-dance. De nombreuses en-trées sont dupliquées : 20 % des séquences de vertébrés. Les doublons présen-tent souvent des dif-férences. { { { Duplications partielles ou complètes dans les séquences
Erreurs dans les banques De nombreuses erreurs figurent dans les banques de séquences nucléotidiques : Au niveau des annotations : Imprécisions, omissions et erreurs. Incohérences entre différents champs. Dans les séquences elles-mêmes : Erreurs de séquençage. Compression, lecture des gels. Insertion de vecteurs de clonage.
Banques spécialisées De très nombreuses banques spécialisées ont été développées : Génomes complets ou en cours de séquençage : Association à des projets de cartographie (euca-ryotes pluricellulaires). Familles de gènes : Consacrées à certains organismes (procaryotes, vertébrés) ou à des familles particulières (immuno-globulines, récepteurs nucléaires). Domaines et signatures.
Banques génomiques Banques disponibles SubtiList Colibri ECDC (E. coli Database Collection) GenoList PkGDB (Prokaryotic Genomes Database) CMR (Comprehensive Microbial Resource) EMGLib (Enhanced Microbial Genomes Libray) Micado (Microbial Advanced Database Organization) MYGD (MIPS Yeast Genome Database) SGD (Saccharomyces Genome Database) YPD (Yeast Proteome Database) PlasmoDB (P. falciparum Database) WormBase WormPD (Worm Protein Database) TAIR (The Arabidopsis Information Resource) Organisme Bacillus subtilis Escherichia coli Procaryotes divers Saccharomyces cerevisiae Plasmodium falciparum Caenorhabditis elegans Arabidopsis thaliana
Banques de familles de gènes De nombreuses études requièrent de dispo-ser de séquences homologues : Recherche de parties codantes. Détection des erreurs de séquençage. Études des voies métaboliques. Phylogénie moléculaire. Transferts horizontaux. Structure des protéines.
Banques disponibles Banque ProtoMap ProClass CluSTr SYSTERS COGs HOBACGEN HOGENOME HOVERGEN RTKdb NuReBase ABCdb Basée sur SWISS-PROT PIR/PROSITE SWISS-PROT/TrEMBL SWISS-PROT/PIR Genome GenPept Contenu Tous organismes Génomes complets Bactéries et archées Vertébrés Recepteurs à tyrosine kinases Recepteurs nucléaires de métazoaires Transporteurs ABC de bactéries
Consultation et interrogation Se font essentiellement par accès à des serveurs au travers d’Internet : Pas de prise en compte des problèmes de gestion des banques par les utilisateurs : Stockage des données. Mises à jour. Simplicité d’utilisation. Moyens d’accès : Logiciels clients dédiés (Entrez, FamFetch). Comptes utilisateurs (INFOBIOGEN). Sites Web.
Le serveur du PBIL Accès à un ensemble d’outils pour l’analyse des séquences nucléiques et protéiques : Banques de séquences généralistes (GenBank, EMBL, SWISS-PROT, PIR). Banques spécialisées développées dans notre groupe (HOBACGEN, HOVERGEN, HOGENOME, RTKdb, NuReBase). Programmes de recherche de similarités et d’alignement (BLAST, -BLAST, FASTA, SSEARCH) Programmes de modélisation moléculaire (12 méthodes différentes).
Accès aux banques Requêtes sur les séquences : Nom, numéros d’accession, mots-clés, références bibliographiques, taxonomie, etc. Requêtes sur les familles : Numéros d’accession, critères taxonomiques. Visualisation des données : Séquences, alignements et arbres phylogéné-tiques.
Requêtes sur les séquences Sequence list
Accès aux séquences
Accès aux familles
Visualisation des données
Pour conclure… Les données figurant dans ces banques sont en accès libre (soumission et consultation) : Fond commun utilisable par l’ensemble de la communauté des chercheurs. Problèmes de la qualité des données : Nécessité de disposer de personnes en charge du contrôle des annotations. Il existe de très nombreuses banques disponibles (863 recensées par Lion Biosciences !) : Problèmes de l’interconnection et de l’interopérabilité des données.
Remerciements Laboratoire de Biométrie et Biologie Évolutive : Simon Penel, Laurent Duret, Manolo Gouy, Céline Delucinge. Unité de Recherche INRIA Rhône-Alpes: Jean-François Dufayard. Centre de Génétique Moléculaire et Cellulaire : Julien Grassot, Frédéric Tingaud. Laboratoire de Biologie Moléculaire et Cellulaire : Marc Robinson, Jorge Duarte, David Ruau.