La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bases de données en biologie

Présentations similaires


Présentation au sujet: "Bases de données en biologie"— Transcription de la présentation:

1 Bases de données en biologie
Institut National de Recherche en Informatique et en Automatique

2 Plan du cours : Bases de données en biologie
Historique BD séquences généralistes - séquences nucléotidiques - séquences protéiques Rappels de BIO BD spécialisées - par organisme - par thématique (problématique bio) BD bibliographiques Violaine Pillet + Extraction d ’information à partir de textes Des bases de données aux bases de connaissances

3 Bases de données en biologie
Bases de données dédiées à la biologie moléculaire Complément essentiel aux données de la littérature scientifique spécialisée Premier point de contact avec l’informatique pour les biologistes Outil essentiel pour la recherche en biologie

4 Bases de données en biologie
PLAN Historique BD séquences généralistes - séquences nucléotidiques - séquences protéiques BD spécialisées - par organisme - par thématique (problématique bio)

5 Historique (1) 1954: Première séquence de protéine (insuline, Sanger) 1958: Première structure 3D de protéine (myoglobine, Kendrew) 1965: Première compilation de protéines Margaret Dayhoff: Atlas of Protein Sequences (50 entrées) Imprimé jusqu ’en 1978, puis format électronique 1971: PDB - Protein Data Bank (struct. 3D macromolécules) Début des années 80: premières grandes banques de séquences généralistes 1985: CABIOS (première revue de bioinformatique)

6 Historique (2) 1988 : Processus de double publication Dépôt des séquences aux banques avant soumission de l ’article associé aux revues scientifiques 1992: Séquence du Chromosome III de la levure (3 105 bp) 1995: Premier génome bactérien entièrement séquencé Haemophilus influenzae (2 106 bp) 1999: Premier organisme multicellulaire Caenorhabditis elegans (108 bp) Juin 2000: A grand renfort de publicité séquence du génome humain (3 109 bp)

7 Banques de données Banque : les séquences sont déposés directement par les chercheurs qui les ont obtenues, sous leur seule responsabilité.

8 Base de données Collection de données Outils associés
structurées requêtable (index) périodiquement mises à jour (release) références croisées (hyperliens) Outils associés - accès à la base - mise à jour (insertion, délétion,…) Système de gestion - fichiers à plat (ASCII) - SGBD relationnel …

9 Difficile d ’identifier le nombre exact de BD.
Quelques stats Difficile d ’identifier le nombre exact de BD. > 1000 Taille variable : < 100 Ko to > 10 Go Seq. nucléique: > 10 Go Seq. protéique: 1 Go Structures 3D: 5 Go Fréquence de mise à jour: - jour  année

10 Bases de données - biologie moléculaire
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage, BioMagResBank, BIOMDB, BLOCKS, BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS- MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc, etc, etc !!!!

11 Nucleic Acids Research
Bases de données - accessibilité (1) Généralement accessibles au travers du web Attention toutes ne sont pas gratuites Numéro de janvier de la revue: Nucleic Acids Research > 100 articles décrivant les bases les plus importantes et introduisant les nouvelles. La version électronique de la revue permet d’accéder à une liste de ~ 300 BD

12 Bases de données - accessibilité (2)
Plusieurs sites Web ont pour vocation de répertorier l’ensemble des bases disponibles.

13 Bases de données - accessibilité (3)

14 Bases de données - accessibilité (4)

15 Bases de données en biologie
PLAN Historique BD séquences généralistes - séquences nucléotidiques - séquences protéiques Rappels de BIO BD spécialisées - par organisme - par thématique (problématique bio)

16  Dogme central de la biologie moléculaire
BD séquences La séquence: élément central autour duquel les banques de données se sont constituées  Dogme central de la biologie moléculaire

17 BD séquences

18 Banques de séquences généralistes (nt)
Séquences nucléiques ADN / ARN gènes (CDS, ARNr, ARNt,..) signaux de régulation Banques de séquences nucléotidiques Genbank EMBL DDBJ Mission rendre publiques les données issues des fonds publics, donc collectives

19 Banques nucléiques: Genbank + EMBL + DDBJ
Depuis 1987, les banques Genbank, EMBL et DDBJ s ’échangent systématiquement leur contenu adoptent un système de conventions communes (The DDBJ/EMBL/Genbank feature Table Definition)

20 Banques nucléiques: Genbank + EMBL + DDBJ

21 Banques nucléiques: Genbank + EMBL + DDBJ
Ces grandes banques généralistes, internationales, sont devenues indispensables à la communauté scientifique Mémoire des données produites dans les laboratoires - scientifiques - projet de séquençage d ’un génome - centres de séquençages - bureau des brevets (EPO: European Pantent Office)  gènes, ESTs, génomes complets,... Gisement de connaissances à explorer Diversité des organismes (> 50 ’000 espèces différentes)  analyse de type évolutif (phylogénie moléculaire)

22 Banques nucléiques: Genbank + EMBL + DDBJ
Mais... Données hétérogènes génomes, variants, fragments taille min: 10 bp taille max: 300,000 bp (fragments de génomes) Genome division ( Données redondantes Archive : pas de vérification Qualité variable Erreurs: séquences, annotations Annotations (données associées aux séquences) hétérogènes = responsabilité de l ’auteur données incomplètes pas de remise à jour Problème de propagation des erreurs = effet boule de neige


Télécharger ppt "Bases de données en biologie"

Présentations similaires


Annonces Google