Télécharger la présentation
1
Applications en biologie
Bases de données Applications en biologie
2
Explosion des données Croissance de Genbank 03/02/2006
Hervé PHILIPPE – BIN1001
3
Nombreux Domaines d’application
Séquences Nucléiques Protéiques Familles de protéines Séquences immunologiques Interrogation multi-banques Soumission de séquences aux banques Génomes Organismes modèles Virus Archées Bactérie Champignons Plantes Animaux Homme Organites cellulaires Données comparatives Données métaboliques Répertoires Biotechnologies Lignées cellulaires Ressources médicales Banques de données médicales Données toxicologiques Données bibliographiques Bioinformatique Médecine Biologie moléculaire Biologie & agriculture Ressources-Portails Serveurs FTP de séquences Banques de banques de données Répertoires de banques de données Banques de données des logiciels 03/02/2006 Hervé PHILIPPE – BIN1001
4
Types de données Les séquences
GENBANK, methDb (DNA methylation database), Human SNP Database Les données cartographiques GENATLAS Les données structurales NDB (Nucleic Acids Database), PDB (Proteins Database) Les données d'expression KEGG (Kyoto Encyclopedia of Genes and Genomes) Les données génomiques GNN (Genome News Network), ENSEMBL Les données fonctionnelles KEGG , UM-BBD (The University of Minnesota Biocatalysis/Biodegradation Database) 03/02/2006 Hervé PHILIPPE – BIN1001
5
Enjeux des bases de données
Diffusion des connaissances : rapidité d’accès à l’information facilité d’interrogation mise à jour régulière Gestion de l’explosion des entrées Gestion de l’hétérogénéité des données Réponse à des besoins très divers 03/02/2006 Hervé PHILIPPE – BIN1001
6
Toujours plus de diffusion
Atlas of Protein Sequences (Dayhoff) mise à jour annuelle – 50 protéines bandes magnétiques sur abonnement CD sur abonnement EMBL, genbank serveurs FTP → bases de données locales sites web mise à jour quotidienne – plusieurs millions de séquences 1968 ≈1970 ≈1980 ≈1990 ≈2000 2005 03/02/2006 Hervé PHILIPPE – BIN1001
7
Faiblesses des banques généralistes
Hétérogénéité dans la nature des séquences ADN nucléaire ou mitochondrial, ARN (t, r, m, ….), génome Variabilité de l’état des connaissances caractérisation biologique beaucoup plus lente que le séquençage Erreurs dans les séquences origine du fragment liées à la technologie : séquençage des extrémités difficile liées à la méthodologie : 3% d’erreur lors du séquençage des EST Biais d’échantillonnage des espèces des gènes redondance des données → création de banques spécialisées 03/02/2006 Hervé PHILIPPE – BIN1001
8
Intégration des données
données hétérogènes interopérabilité : exploitation conjointe de différentes bases pour un besoin unique représentation unifiée des données détection de nouvelles corrélations environnement informatique homogène définition d’ontologies thésaurus de nommage interface répondant à une diversité de besoins 03/02/2006 Hervé PHILIPPE – BIN1001
9
faciliter l’utilisation des bases de données et des logiciels
créée en 1988 1982 : Genbank faciliter l’utilisation des bases de données et des logiciels accès unique à des données diverses séquences génomes structures 03/02/2006 Hervé PHILIPPE – BIN1001
10
Intégration des données
Formats standards de sauvegarde FASTA, NEXUS, PUZZLE … Interrogation multi-bases DBGET EMBL, Genbank, Swissprot, PIR, PRF, LITDB, PDB, PDBSTR, EPD, Prosite, Ligand, PMD, AA-Index, OMIM Entrez Medline, GenBank, EMBL, DDBJ, PIR, SwissProt, PRF et PDB 03/02/2006 Hervé PHILIPPE – BIN1001
11
créée en 1971 depuis 1998, gérée par le RCSB, Research Collaboratory for Structural Bioinformatics base de données unifiée pour collecter et distribuer TOUTES les informations ayant trait à la structure tertiaire des protéines et des acides nucléiques ≈ structures 2004 (par mois) : de fichiers téléchargés 400 structures déposées 03/02/2006 Hervé PHILIPPE – BIN1001
12
GPGRDB 03/02/2006 Hervé PHILIPPE – BIN1001
13
« CSI » Auckland : une base de données pour la conservation et l’identification des espèces de Cétacés par analyses ADN Ross, H. A., G. M. Lento, M. L. Dalebout, M. Goode, G. Ewing, P. McLaren, A. G. Rodrigo, S. Lavery, and C. S. Baker. (2003) DNA Surveillance: Web-based molecular identification of whales, dolphins and porpoises. J. Hered. 94: Baker, C. S., M. L. Dalebout, S. Lavery, and H. A. Ross. (2003) applied molecular taxonomy for species conservation and discovery. Trends Ecol. Evol. 18: 03/02/2006 Hervé PHILIPPE – BIN1001
14
Origines et buts Origine : Identification des espèces de Cétacés chassées illégalement par l’analyse ADN d’échantillons achetés sur les marchés Coréens et Japonais Baker CS, Palumbi S (1994). Which whales are hunted - A molecular genetic approach to monitoring whaling. Science 265: Buts : Fournir une base de données de séquences d’ADN de référence afin d’identifier formellement les espèces de Cétacés à des fins taxonomiques et de conservation 03/02/2006 Hervé PHILIPPE – BIN1001
15
Principe Échantillons « biologiques »
Séquençage d’ADN (ex. gène du Cytochrome b) >inconnu cytb ATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT Comparaison à la base de données de séquences de références obtenues à partir de spécimens formellement identifiés par construction d’un arbre phylogénétique 03/02/2006 Hervé PHILIPPE – BIN1001
16
Exemple d’applications
Découverte d’une nouvelle espèce de baleine à bec (Ziphiidae) à partir de l’analyse ADN de spécimens échoués Mesoplodon perrini >inconnu cytb ATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT Dalebout ML, Mead JG, Baker CS, Baker AN & van Helden AL (2002). A new species of beaked whale Mesoplodon perrini sp. n. (Cetacea: Ziphiidae) discovered through phylogenetic analyses of mitochondrial DNA sequences. Marine Mammal Science 18: 03/02/2006 Hervé PHILIPPE – BIN1001
17
« Barcoding Life » : une base de données pour inventorier la biodiversité par le séquençage de gènes « Code-barres » Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes. Proc R Soc Lond BS 270: 03/02/2006 Hervé PHILIPPE – BIN1001
18
Origines et buts Idée Originale : Utiliser la séquence d’un gène ubiquiste comme « code-barre » afin d’inventorier la diversité biologique par son séquençage chez toutes les espèces vivantes Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes. Proc R Soc Lond BS 270: Buts : Fournir une base de données permettant d’identifier chaque espèce animale par la séquence d’environ 600 nucléotides du gène mitochondrial de la Cytochrome Oxydase I et d’informations associées 03/02/2006 Hervé PHILIPPE – BIN1001
19
Contenu de la base de données
03/02/2006 Hervé PHILIPPE – BIN1001
20
Exemple d’application
Distinction de 10 espèces différentes correspondant à la spécialisation alimentaire des chenilles d’un papillon tropical (Astraptes fulgerator) Hebert PD, Penton EH, Burns JM, Janzen DH, Hallwachs W (2004). Ten species in one: DNA barcoding reveals cryptic species in the neotropical skipper butterfly Astraptes fulgerator. Proc Natl Acad Sci USA 101: 03/02/2006 Hervé PHILIPPE – BIN1001
21
Quelques exemples 03/02/2006 Hervé PHILIPPE – BIN1001
22
GPCRDB 03/02/2006 Hervé PHILIPPE – BIN1001
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.