Bases de données en biologie

Slides:



Advertisements
Présentations similaires
Un aperçu de la bioinformatique moléculaire
Advertisements

Publication électronique des résultats de la recherche 29 mars Paris.
Atelier CDS, 1er 2 avril 2004
Les données et les banques de données
Colloque Traitement et Analyse de séquences : compte-rendu
Les ressources documentaires électroniques : Cemadoc et le portail IST Emilie Gentilini Journée des nouveaux arrivants 3 mai 2010.
Institut national du cancer Mise en place de la veille sur le cancer Lyon, 26 octobre 2005 Ingrid Aubry.
Les bases de données biologiques au LBBE
Projet BICTEL/e Présentation au Conseil Académique Du 16 juin 2003.
PubMed Trucs et astuces…
ASA Algerian scientific Abstracts المستخلصات العلمية الجزائرية
Septembre Interconnexion entre HAL et dautres systèmes dinformation.
Communication Scientifique
Bioinformatique =?? génomique protéomique
Introduction à la Bioinformatique David Perret INSERM U564
L'ORIENTATION UN CHANTIER A PARTAGER
« Génome, adaptation et environnement »
Initiation aux outils de recherche bibliographique dans le cadre de la réalisation dune séquence de formation à la recherche documentaire Luc Verdebout.
BIO1530 Lab2 Littérature scientifique. Objectifs de lexercice Après avoir complété cet exercice, vous devriez être en mesure de: Déterminer si une publication.
Introduction à la littérature scientifique
Kahina RAMDANI Master I : Biologie et Ecologie Marine
Introduction à la bioinformatique
Annotation de génomes complets
Projet TEMPUS-ISTMAG Archives institutionnelles des universités maghrébines LRHOUL Hanae Coordinatrice nationale du projet ISTeMag Maroc
Bases de données en biologie (suite)
La banque UniprotKB et le logiciel Blast
Vers une génération automatique du mapping de sources biomédicales
La bibliothèque électronique. Préambule. Dans tous les cas, tout se passe toujours à partir de la page d’accueil du site web des BU.
Méthodologie documentaire
Web Citation Index. Copyright 2006 Thomson Corporation 2 Qu’est ce que le Web Citation Index? Index multidisciplinaire de citations de publications accessibles.
Littérature scientifique
Bordeaux - Juin HAL – Le contenu / Les acteurs
La recherche en biologie et le décisionnel Chantal Mordoh Francis Guinant Marc Xicluna CNAM , Ingénierie des systèmes décisionnels.
Formation nationale CHM, 2012, Antananarivo, Madagascar
Information Scientifique et Technique à l’IN2P3 LAL Orsay 25 janvier 2006 Dominique Jarroux-Déclais Responsable IST IN2P3.
Septembre Introduction aux archives ouvertes
Historique Juillet 2000 : Dépôt d'un dossier Génopole Ouest auprès du Ministère Mars 2001 : expertise sur site par des experts internationaux Juillet 2001.
ARPIST – Bordeaux – 15 nov D’un bulletin de veille à une activité de veille : l’expérience de l’ADEME1 Laurent MORICE ADEME Service valorisation.
LES ARCHIVES OUVERTES. L’accès à l’information scientifique : un enjeu majeur pour les chercheurs.
Banques de données en bio-informatique
Formation nationale CHM, 2013, Abidjan, Côte d’Ivoire Le Centre d’échange d’information de la Convention sur la diversité biologique Par: Han de Koeijer.
La veille à l’Institut national du cancer Identifier des sources d’information fiables Rencontre De la veille à la gestion des connaissances, Bordeaux,
Le Centre d’échange d’information de la Convention sur la diversité biologique Par: Han de Koeijer et Marie -Lucie Susini; Institut royal des Sciences.
Intégration des données sur le transcriptome
Les Politiques de la santé au Canada: Survol des ressources en statistiques Katrine Mallan et Kim Frail Bibliothèque Saint-Jean Automne 2006.
Applications en biologie
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
Banques de données de séquences biologiques
Le labyrinthe des publications scientifiques. La notion de « bouquet » de périodiques Regroupement de revues ou de journaux d'un ou de plusieurs éditeurs.
Cartographie génomes entiers
BASES ET BANQUES DE DONNEES Objectifs de l’enseignement
Jocelyne Jerdelet - Sandrine Reyes CERN-DSU-SI 1 La Théorie sur la "voie verte" de l'Open Access.
Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique.
Introduction à la bioinformatique « Génomique Nouvelle Génération »
Présentation des différents types de documents scientifiques imprimés
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Pr B. AITABDELKADER CPMC
Les banques de séquences nucléiques
Diane Le Hénaff, Equipe ProdInra 5 janvier 2015 Politique de dépôt et de services dans ProdInra.
CHMI 4206 Bioinformatique appliquée
Qualités et défauts des mémoires Les qualités à rechercher Le fond La forme.
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Bibliothèque Centrale de l’École Polytechnique La Recherche Documentaire Economie - HSS Session pratique Ressources Documentaires en Economie-Gestion Vanessa.
Gabrion Thomas 1. Sommaire I Présentation du LAPP - LAPTH II Contexte du stage III Réalisation du stage IV Bilan 2.
Master 1 « diffusion de la culture » Formation à la maîtrise de l’information scientifique et technique Séance 2 Jeudi 02/10/2014 SID2 1.
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
L’histoire du gène depuis le début du 20 e siècle jusqu’à aujourd’hui Michel Morange, Centre Cavaillès, République des savoirs USR 3608, Ecole normale.
Université d’Angers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey Angers Cedex 01.
Introduction aux Bases de Données
Transcription de la présentation:

Bases de données en biologie anne.morgat@inrialpes.fr Institut National de Recherche en Informatique et en Automatique

Plan du cours : Bases de données en biologie Historique BD séquences généralistes - séquences nucléotidiques - séquences protéiques Rappels de BIO BD spécialisées - par organisme - par thématique (problématique bio) BD bibliographiques Violaine Pillet + Extraction d ’information à partir de textes Des bases de données aux bases de connaissances

Bases de données en biologie Bases de données dédiées à la biologie moléculaire Complément essentiel aux données de la littérature scientifique spécialisée Premier point de contact avec l’informatique pour les biologistes Outil essentiel pour la recherche en biologie

Bases de données en biologie PLAN Historique BD séquences généralistes - séquences nucléotidiques - séquences protéiques BD spécialisées - par organisme - par thématique (problématique bio)

Historique (1) 1954: Première séquence de protéine (insuline, Sanger) 1958: Première structure 3D de protéine (myoglobine, Kendrew) 1965: Première compilation de protéines Margaret Dayhoff: Atlas of Protein Sequences (50 entrées) Imprimé jusqu ’en 1978, puis format électronique 1971: PDB - Protein Data Bank (struct. 3D macromolécules) Début des années 80: premières grandes banques de séquences généralistes 1985: CABIOS (première revue de bioinformatique)

Historique (2) 1988 : Processus de double publication Dépôt des séquences aux banques avant soumission de l ’article associé aux revues scientifiques 1992: Séquence du Chromosome III de la levure (3 105 bp) 1995: Premier génome bactérien entièrement séquencé Haemophilus influenzae (2 106 bp) 1999: Premier organisme multicellulaire Caenorhabditis elegans (108 bp) Juin 2000: A grand renfort de publicité séquence du génome humain (3 109 bp)

Banques de données Banque : les séquences sont déposés directement par les chercheurs qui les ont obtenues, sous leur seule responsabilité.

Base de données Collection de données Outils associés structurées requêtable (index) périodiquement mises à jour (release) références croisées (hyperliens) Outils associés - accès à la base - mise à jour (insertion, délétion,…) Système de gestion - fichiers à plat (ASCII) - SGBD relationnel …

Difficile d ’identifier le nombre exact de BD. Quelques stats Difficile d ’identifier le nombre exact de BD. > 1000 Taille variable : < 100 Ko to > 10 Go Seq. nucléique: > 10 Go Seq. protéique: 1 Go Structures 3D: 5 Go Fréquence de mise à jour: - jour  année

Bases de données - biologie moléculaire AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage, BioMagResBank, BIOMDB, BLOCKS, BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS- MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc, etc, etc...... !!!!

Nucleic Acids Research Bases de données - accessibilité (1) Généralement accessibles au travers du web Attention toutes ne sont pas gratuites Numéro de janvier de la revue: Nucleic Acids Research http://nar.oupjournals.org > 100 articles décrivant les bases les plus importantes et introduisant les nouvelles. La version électronique de la revue permet d’accéder à une liste de ~ 300 BD http://www3.oup.co.uk/nar/database/c/

Bases de données - accessibilité (2) Plusieurs sites Web ont pour vocation de répertorier l’ensemble des bases disponibles.

Bases de données - accessibilité (3) www.infobiogen.fr/services/dbcat

Bases de données - accessibilité (4) www.expasy.ch/alinks.html

Bases de données en biologie PLAN Historique BD séquences généralistes - séquences nucléotidiques - séquences protéiques Rappels de BIO BD spécialisées - par organisme - par thématique (problématique bio)

 Dogme central de la biologie moléculaire BD séquences La séquence: élément central autour duquel les banques de données se sont constituées  Dogme central de la biologie moléculaire

BD séquences

Banques de séquences généralistes (nt) Séquences nucléiques ADN / ARN gènes (CDS, ARNr, ARNt,..) signaux de régulation Banques de séquences nucléotidiques Genbank EMBL DDBJ Mission rendre publiques les données issues des fonds publics, donc collectives

Banques nucléiques: Genbank + EMBL + DDBJ Depuis 1987, les banques Genbank, EMBL et DDBJ s ’échangent systématiquement leur contenu adoptent un système de conventions communes (The DDBJ/EMBL/Genbank feature Table Definition)

Banques nucléiques: Genbank + EMBL + DDBJ

Banques nucléiques: Genbank + EMBL + DDBJ Ces grandes banques généralistes, internationales, sont devenues indispensables à la communauté scientifique Mémoire des données produites dans les laboratoires - scientifiques - projet de séquençage d ’un génome - centres de séquençages - bureau des brevets (EPO: European Pantent Office)  gènes, ESTs, génomes complets,... Gisement de connaissances à explorer Diversité des organismes (> 50 ’000 espèces différentes)  analyse de type évolutif (phylogénie moléculaire)

Banques nucléiques: Genbank + EMBL + DDBJ Mais... Données hétérogènes génomes, variants, fragments taille min: 10 bp taille max: 300,000 bp (fragments de génomes) Genome division (http://www.ebi.ac.uk/genomes/) Données redondantes Archive : pas de vérification Qualité variable Erreurs: séquences, annotations Annotations (données associées aux séquences) hétérogènes = responsabilité de l ’auteur données incomplètes pas de remise à jour Problème de propagation des erreurs = effet boule de neige