La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction aux Bases de Données

Présentations similaires


Présentation au sujet: "Introduction aux Bases de Données"— Transcription de la présentation:

1 Introduction aux Bases de Données
Université Evry Val d'Essonne décembre 2017 Nathalie Boudet

2 Introduction Contexte: Définition:
Organiser et stocker une grande quantité d'informations dans le but de les consulter et des les exploiter. On trouve des bases de données « partout » aujourd'hui. Définition: Une base de données est un ensemble structuré de données géré à l'aide d'un ordinateur. En biologie: on a de plus en plus besoin de bases de données. Exemples: en génomique pour stocker les séquences, les données d'expression,...

3 Banques de données / Bases de données
- Collection de données en « fichier texte » ou « fichier à plat »: organisation séquentielle des données -format simple, lisible -Données portables dans différents environnements informatiques -interrogation difficile

4 Banques de données / Bases de données
-Notion de tables (objet défini) et de relations entre les tables -Modélisation avec des liens logiques entre les données (sans redondance) -Requêtes multi-critères (langage de requête et de manipulation de données) -Exploitées à l'aide de Systèmes de Gestion de Bases de Données(SGBD)

5 Banques de données / Bases de données
GENE REFERENCES CHROMOSOME GO ANNOTATION ID_Entrez_Gene ID HGNC Gene Num_chiom Taille chiom ID_GO Definition_GO Go Slim POS T ON REFERENCER Debut ANNOTER GO MP GO OC GO BP Sens GENE F AM LLE ID ENSEMBL G INTERACTION APPAR EN INTERAGITI Num Famille Taille_gene Ex p erimenta ISy stem Tai e Famille Nomqene Ex p erimenta ISy stTy p e Description VO S NAGE ET Reg ion_Fla nq u a nte Taille_Region_Flq APPARTI E VO S NAGE CODE Nb_copie_ET_P Ta ite ET Nb_cop¡e_ET_C Taille ET PROTE NE Densite ID ENSEMBL P S NE ET L NE ET LT R ET DNA ET Nbr_copie_SINE Nbr_copie_LTR Nbr_copie_DNA

6 Rôle des Banques/Bases de données
Collecter les informations: -séquences, cartographie physique, génétique ... -Données structurales, relationnelles, réseaux. -Auprès de biologistes, littératures, autres bases de données Stocker et organiser -Notion logique cohérente entre les données Distribuer l'information -large diffusion (libre, Internet) -Plusieurs personnes/autres bases peuvent accéder aux données en même temps Faciliter l'exploitation des données -Interfaces conviviales -Définition de critères de recherche -Comparaison de données

7

8 Les banques de données de séquences biologiques : accessibilité sur Internet
Banques généralistes : GenBank (Etats-Unis ) : DNA DataBank of Japan (Japon ) : EMBL (Europe ) : Banques spécialisées : ProSite : Pfam : BrookHaven Protein DataBank (PDB) : FlyBase : 8

9 EMBL/ GENBANK / DDBJ -Les 3 banques nucléotidiques principales coexistent et coopèrent. -Elles collectent des informations de séquences (associées ou non à une publication) par soumission directe des auteurs (95% des cas) mais également par balayage systématique de la littérature scientifique. -Depuis 1987, elles échangent quotidiennement leurs fichiers afin de garantir dans chacune d'elles un ensemble de données le plus complet possible -Chaque enregistrement ou « entrée » correspond à une séquence nucléique

10

11

12

13

14 ENA Statistiques http://www.ebi.ac.uk/ena/about/statistics
Bases

15 ENA Statistiques http://www.ebi.ac.uk/ena/about/statistics

16 Les banques de données de séquences biologiques : structure d’une entrée de la banque
Identification de la séquence ID IL6_HUMAN STANDARD; PRT; AA. AC P05231; DT 13-AUG-1987 (Rel. 05, Created) DT 13-AUG-1987 (Rel. 05, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2) DE (Interferon beta-2) (Hybridoma growth factor). GN IL6 OR IFNB2. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T., RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S., RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.; RT "Complementary DNA for a novel human interleukin (BSF-2) that induces RT B lymphocytes to produce immunoglobulin."; RL Nature 324:73-76(1986). CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION CC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS. CC -!- SUBCELLULAR LOCATION: Secreted. CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY. DR EMBL; X04430; CAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; M14584; AAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] .. DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB] DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB] ... DR Pfam; PF00489; IL6; 1. KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism; KW 3D-structure. Numéro unique d’accession (Accession Number - AC) Données taxinomiques Références bibliographiques Annotations Références croisées avec d’autres banques de données Mots-clefs 16

17 Les banques de données de séquences biologiques : structure d’une entrée de la banque
FT SIGNAL FT CHAIN INTERLEUKIN-6. FT DISULFID FT DISULFID FT CARBOHYD N-LINKED (GLCNAC...). FT VARIANT P -> S. FT /FTId=VAR_ FT VARIANT D -> V. FT /FTId=VAR_ FT MUTAGEN A->V: ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN W->R: NO LOSS OF ACTIVITY. FT MUTAGEN S->P: 13% ACTIVITY. FT MUTAGEN R->K,E,Q,T,A,P: LOSS OF ACTIVITY. FT MUTAGEN M->T,N,S,R: LOSS OF ACTIVITY. SQ SEQUENCE AA; MW; 1F1ED1FE1B CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM // Annotation de la séquence Séquence Fin de l’entrée La séquence peut être formatée : le format FASTA Entrée de SwissProt Numéro unique d’accession Informations diverses (nom, espèce, …) >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM 17

18 Les features Exemples de Feature key Exemple de Qualifier
Description CDS RBS rep_origin protein_bind tRNA Protein-coding sequence ribosome binding site Origin of replication Protein binding site on DNA mature transfer RNA Exemple de Qualifier Key Location/Qualifiers source promoter mRNA CDS /organism="Mus musculus" /strain="CD1" <1..9 /gene="ubc42" join( , ) join( , ) /product="ubiquitin conjugating enzyme" /function="cell division control" @

19 Les banques de données de séquences biologiques : laquelle choisir ?
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage, BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc ... 19

20 « Défauts » des banques nucléiques
Aucun contrôle des banques les auteurs sont responsables de la qualité des séquences soumises. Hétérogénéité : -ADN nucléaire, mitochondrial, chloroplastique, ARNm, ARNt, chromosomes en entiers... -Gènes , fragments. Variabilité de l'état des connaissances sur les séquences: -Annotations effectuées ou non -Annotation hétérogène: automatique ou expérimentale Erreurs dans les séquences (qualité inégale): -Origine du fragment -Cultures infectées -Présence de séquences de vecteurs de clonage -Erreurs de saisie Redondance des données: plusieurs entrées pour une même séquence -Certains gènes sont séquencés à la fois sous forme d'ARNm et de fragment génomique -Certaines séquences ont été saisies plusieurs fois dans la banque

21 Banques protéiques Les séquences sont issues de données expérimentales (isolation, séquençage) ou d'analyses automatiques (prédiction in silico à partir de la séquence nucléique par traduction automatique, exemple: TrEMBL et GenPept). Il est important de connaître la provenance de la séquence, si la fonction a été attribuée expérimentalement ou non, à partir de quel algorithme la séquence a été prédite... SwissProt: -création en 1986 par Amos Bairoch au SIB de genève -Collaboration avec EMBL -Avantage de SwissProt / autres banques protéiques: expertise manuelle des données

22 UniProtKB/Swiss-Prot protein knowledgebase release 2014_09 statistics
expasy.org/docs/relnotes/relstat.html Nunber of entries in UniProtKB/Smss-Prot 600k 500k - 400k - 300k - 200k - 100k - 1985 1988 1991 1994 1997 2000 2003 2006 2009 2012 2015

23

24 Quelques banques/bases...
• EBI ENA DataBank • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites.. • Phytozome: a database of orthologous and paralogous genes in plants. • Taxonomy, the taxonomy database at the NCBI. • PDB: protein databank, 3D structures database.

25 ENA ENANf^ European Nucleotide Anchive Sequence data Assembly Annotation Archive L’ENA propose un accès à toutes les données de séquences nucléotidiques, parmi lesquelles des données d’assemblage et d’annotation-riche, tout comme les données brutes dès qu’elles sont disponibles, quelle que soit la technologie de séquençage.

26 ENA ENA est composée de 3 banques : l.EMBL-Bank : • Données de séquences assemblées, le soumetteur a assemblé la séquence en une seule contigue. • Annotation qui décrit la fonction biologique de régions spécifiques de la séquence (régions codant pour des protéines, exons et introns), fournit par le soumetteur. 2.Sequence Read Archive (SRA): • Reads de données brutes constitué de typiques fragments de séquences courts et non assemblés générés par la technologie Next Generation Sequencing (NGS). 3.Trace Archive : • Reads de données brutes constitué de fragments de séquence non assemblés générés par la technique de séquençage par capillarité.

27 Quelques banques/bases...
• EBI ENA DataBank • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites. • Phytozome: a database of orthologous and paralogous genes in plants. • PDB: protein databank, 3D structures database.

28 PFAM

29 PFAM

30 PFAM

31

32 Quelques banques/bases...
• EBI ENA DataBank • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites. • Phytozome: a database of orthologous and paralogous genes in plants. • PDB: protein databank, 3D structures database.

33 PROSITE - Database of protein domains, families and functional sites
@) ExPASy - PROSITE - Mozilla Firefox Fichier Edition Affichage Historique Marque-pages Outils Z IU ExPASy - PROSITE •> _V_ | H prosite.expasy.org - e ]' Softonk_France Customized WP # Les plus visités □ Hotmail G Personnaliser les liens '* Windows Media C Windows i^-ËSÈ!***»,** PROSITE Home | Contact Due to maintenance work, this ExPASy service will be unavailable from Sunday January 29th, 2012 to Wednesday February 1st, 2012. Home ScanProsite ProRule Documents Downloads Links Funding Database of protein domains, families and functional sites PROSITE consists of documentation entries describing protein domains, families and functional sites as well as associated patterns and profiles to identify them [More details References / Commercial users] PROSITE is complemented by ProRule, a collection of rules based on profiles and patterns, which increases the discriminatory power of profiles and patterns by providing additional information about functionally and/or structurally critical amino acids [More details] Release 20.78, of 08-Dec-2011 (1631 documentation entries, 1308 patterns, 952 profiles and 946 ProRule) PROSITE access | |e g: PDOC00022, PS50089, SH3,zinc finger Browse: Search ‘p:- • by documentation entry I—I add wildcard'*' • by ProRule description • by taxonomic scope • by number of positive hit PROSITE tools Scan a sequence against PROSITE patterns and profiles - quick scan (Output includes graphical view and feature detection) • ScanProsite - advanced scan • PRATT • allows to interactively generate conserved patterns from a series of unaligned proteins • MyDomains - Image Creator - allows to generate custom domain figures Enter your sequence or a UniProtKB (Swi ss-Prot or TrEMBL) ID or AC [ help ]: Scan | | Clear ] 0 exclude patterns with a high probability of occurrence -

34

35 Quelques banques/bases...
• EBI ENA DataBank • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites. • Phytozome: a database of orthologous and paralogous genes in plants. • PDB: protein databank, 3D structures database.

36 Quelques banques/bases...
• SRS : Sequence Retrieval System • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites. • Phytozome: a database of orthologous and paralogous genes in plants. • PDB: protein databank, 3D structures database.

37

38 Quelques banques/bases...
• EBI ENA DataBank • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites. • Phytozome: a database of orthologous and paralogous genes in plants. • PDB: protein databank, 3D structures database.

39


Télécharger ppt "Introduction aux Bases de Données"

Présentations similaires


Annonces Google