Introduction aux Bases de Données

Slides:



Advertisements
Présentations similaires
Manipulation et traitement de données massives
Advertisements

L’outil bio-informatique pour la génomique structurale
Bioinformatique =?? génomique protéomique
Introduction à la Bioinformatique David Perret INSERM U564
Introduction à la bioinformatique
Bases de données en biologie (suite)
Introduction à la Bioinformatique
Banques de données en bio-informatique
Bases de données en biologie
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
FAIRE SA BIBLIOGRAPHIE DE THESE AVEC ZOTERO Traitements de texte pris en compte: Word et LibreOffice.
PERFORMANCE One important issue in networking is the performance of the network—how good is it? We discuss quality of service, an overall measurement.
GCstar Gestionnaire de collections personnelles Christian Jodar (Tian)
AID - Recherches - Stéphanie Vial & Patrick Johner Page 1 Journée 6 Pour une veille documentaire ou bibliographique.
Le socle commun : des pistes pour la technologie Plan de la présentation : - Introduction - Contexte (socle commun et document eduscol) - Repérage des.
QUEL CADEAU! YOU HAVE BEEN OF GREAT SERVICE TO FRANCE. PRESIDENT HOLLANDE IS VERY GRATEFUL TO YOU! KNOWING OF YOUR INTEREST IN EGYPTOLOGY, THE DIRECTOR.
1- Introduction 1ère partie Le langage SQL 2- Connexion 3- Structure & Contenu 4- Requêtes.
1 Doxygen. 2 Doxygen : qu’est-ce que c’est ? Code C++, Java,... ● Un générateur de documentation – pour C + +, mais aussi C, Java, Fortran,... – Il fonctionne.
MDA ( Model Driven Architecture ). Introduction Model Driven Architecture ● Framework ● Développement de logiciels ● Object Management Group (OMG) ●
Présentation du programme
ANNEE ACADEMIQUE Institut Supérieur Emmanuelle D’Alzon de Butembo COURS: THEORIE DE BASE DE DONNEES : 45H PROMOTION: G2 Gestion Informatique.
Les Bases de données Définition Architecture d’un SGBD
Master II BioInfo - Galaxy – Session Décembre 2016
Cours Initiation aux Bases De Données
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Sujet 1 : Wrapper stats sur les jeux de données ARN non codants
elmousaoui mourad dalli mohammed bouzIane omar Prof. N. Boukhatem
Nicole Arsenault|Gestionnaire à la réussite – comptes majeurs
Bases de données multimédia
COURS D’INFORMATIQUE MEDICALE NIVEAU 1&2
SOMMAIRE 1: ORALE 2: Les 3 systèmes de gestion de base de donnés 3:ORACLE DATA BASE 4:MY SQL 5:Oppen Office.org Base 6:Concurrence Conclusion.
Sous menu de l’application «micro» (‘IHM’)
Base de données: Généralité IFT6800 Jian-Yun Nie.
Information et Système d’Information
Les bases de données et le modèle relationnel
Sujet 1 : Wrapper stats sur les jeux de données ARN non codants
IDL_IDL bridge The IDL_IDLBridge object class allows an IDL session to create and control other IDL sessions, each of which runs as a separate process.
Technologies de l’intelligence d’affaires
Joseph Larmarange – Atelier d’écriture – Abidjan – Octobre 2017
Les répétitions en tandem et l ’étude des génomes
Questions 1- Qu'est ce qu'un réseau informatique ?
Réalisation d’une application web sous le thème: «Mon vétérinaire » par : Benzineb Asmaa et Meftahi Oualid Présentation à Université Saad Dahlab Blida.
CeMEB La plateforme MBB
CeMEB La plateforme MBB
Université d’Angers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey Angers Cedex 01.
Plus de 4000 langages....
Note 1 : Tous les rapports de T. P
Integrated Gasification Combined Cycle Plant By Abhijit Kumar Prasad Submitted to Dr. B.Paul Assistant Professor MNNIT Allahabad.
Bases de données sous Access. Initiation aux bases de données  Structure d’une base de données.
Generating Random Genomic Sequences and Structures with GenRGenS
Expression du Génome Le transcriptome.
Les formes de la communications section IV: Directe ou Médiatisé Sirine Melliti 2018.
SUJET : E C L A T UNIVERSITE GASTON BERGER DE SAINT LOUIS UFR DES SCIENCES APPLIQUEES ET DE TECHNOLOGIE MASTER PROFESSIONNEL EN DÉVELOPPEMENT DE SYSTÈMES.
1-1 Introduction to ArcGIS Introductions Who are you? Any GIS background? What do you want to get out of the class?
Info Bases de données avancées
Lundi 3 décembre Français I
PRESENTATION ACCESS Editeur : Microsoft Environnement Windows (SE)
Base de données Table des clients Table des fournisseurs Table des commandes clients Formulaire des clients Formulaire des fournisseurs Formulaire des.
PLATE FORME DE GESTION ÉLECTRONIQUE DE DOCUMENTS Présenté par: Amine LARIBI.
Expression du Génome Le transcriptome.
Tableau de bord d’un système de recommandation
L’outil bio-informatique pour la génomique structurale
Projet CRImage UNIVERSITE STENDHAL GRENOBLE
ScienceDirect Guide d’utilisation de la base de données : ScienceDirect Pr R. EL OUAHBI.
Données.
Internet Stage – Semaine 5.
Transcription de la présentation:

Introduction aux Bases de Données Université Evry Val d'Essonne décembre 2017 Nathalie Boudet

Introduction Contexte: Définition: Organiser et stocker une grande quantité d'informations dans le but de les consulter et des les exploiter. On trouve des bases de données « partout » aujourd'hui. Définition: Une base de données est un ensemble structuré de données géré à l'aide d'un ordinateur. En biologie: on a de plus en plus besoin de bases de données. Exemples: en génomique pour stocker les séquences, les données d'expression,...

Banques de données / Bases de données - Collection de données en « fichier texte » ou « fichier à plat »: organisation séquentielle des données -format simple, lisible -Données portables dans différents environnements informatiques -interrogation difficile

Banques de données / Bases de données -Notion de tables (objet défini) et de relations entre les tables -Modélisation avec des liens logiques entre les données (sans redondance) -Requêtes multi-critères (langage de requête et de manipulation de données) -Exploitées à l'aide de Systèmes de Gestion de Bases de Données(SGBD)

Banques de données / Bases de données GENE REFERENCES CHROMOSOME GO ANNOTATION ID_Entrez_Gene ID HGNC Gene Num_chiom Taille chiom ID_GO Definition_GO Go Slim POS T ON REFERENCER Debut ANNOTER GO MP GO OC GO BP Sens GENE F AM LLE ID ENSEMBL G INTERACTION APPAR EN INTERAGITI Num Famille Taille_gene Ex p erimenta ISy stem Tai e Famille Nomqene Ex p erimenta ISy stTy p e Description VO S NAGE ET Reg ion_Fla nq u a nte Taille_Region_Flq APPARTI E VO S NAGE CODE Nb_copie_ET_P Ta ite ET Nb_cop¡e_ET_C Taille ET PROTE NE Densite ID ENSEMBL P S NE ET L NE ET LT R ET DNA ET Nbr_copie_SINE Nbr_copie_LTR Nbr_copie_DNA

Rôle des Banques/Bases de données Collecter les informations: -séquences, cartographie physique, génétique ... -Données structurales, relationnelles, réseaux. -Auprès de biologistes, littératures, autres bases de données Stocker et organiser -Notion logique cohérente entre les données Distribuer l'information -large diffusion (libre, Internet) -Plusieurs personnes/autres bases peuvent accéder aux données en même temps Faciliter l'exploitation des données -Interfaces conviviales -Définition de critères de recherche -Comparaison de données

Les banques de données de séquences biologiques : accessibilité sur Internet Banques généralistes : GenBank (Etats-Unis - 1982) : http://www.ncbi.nlm.nih.gov/GenBank/ DNA DataBank of Japan (Japon - 1986) : http://www.ddbj.nig.ac.jp EMBL (Europe - 1980) : http://www.ebi.ac.uk/embl/ Banques spécialisées : ProSite : http://www.expasy.ch/prosite/ Pfam : http://www.sanger.ac.uk/Software/Pfam/index.shtml BrookHaven Protein DataBank (PDB) : http://www.rcsb.org/pdb/ FlyBase : http://flybase.harvard.edu:7081/ 8

EMBL/ GENBANK / DDBJ -Les 3 banques nucléotidiques principales coexistent et coopèrent. -Elles collectent des informations de séquences (associées ou non à une publication) par soumission directe des auteurs (95% des cas) mais également par balayage systématique de la littérature scientifique. -Depuis 1987, elles échangent quotidiennement leurs fichiers afin de garantir dans chacune d'elles un ensemble de données le plus complet possible -Chaque enregistrement ou « entrée » correspond à une séquence nucléique

ENA Statistiques http://www.ebi.ac.uk/ena/about/statistics Bases

ENA Statistiques http://www.ebi.ac.uk/ena/about/statistics

Les banques de données de séquences biologiques : structure d’une entrée de la banque Identification de la séquence ID IL6_HUMAN STANDARD; PRT; 212 AA. AC P05231; DT 13-AUG-1987 (Rel. 05, Created) DT 13-AUG-1987 (Rel. 05, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2) DE (Interferon beta-2) (Hybridoma growth factor). GN IL6 OR IFNB2. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE=87065033; PubMed=3491322; [NCBI, ExPASy, EBI, Israel, Japan] RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T., RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S., RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.; RT "Complementary DNA for a novel human interleukin (BSF-2) that induces RT B lymphocytes to produce immunoglobulin."; RL Nature 324:73-76(1986). CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION CC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS. CC -!- SUBCELLULAR LOCATION: Secreted. CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY. DR EMBL; X04430; CAA28026.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; M14584; AAA52728.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] .. DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB] DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB] ... DR Pfam; PF00489; IL6; 1. KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism; KW 3D-structure. Numéro unique d’accession (Accession Number - AC) Données taxinomiques Références bibliographiques Annotations Références croisées avec d’autres banques de données Mots-clefs 16

Les banques de données de séquences biologiques : structure d’une entrée de la banque FT SIGNAL 1 29 FT CHAIN 30 212 INTERLEUKIN-6. FT DISULFID 72 78 FT DISULFID 101 111 FT CARBOHYD 73 73 N-LINKED (GLCNAC...). FT VARIANT 32 32 P -> S. FT /FTId=VAR_013075. FT VARIANT 162 162 D -> V. FT /FTId=VAR_013076. FT MUTAGEN 173 173 A->V: ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN 185 185 W->R: NO LOSS OF ACTIVITY. FT MUTAGEN 204 204 S->P: 13% ACTIVITY. FT MUTAGEN 210 210 R->K,E,Q,T,A,P: LOSS OF ACTIVITY. FT MUTAGEN 212 212 M->T,N,S,R: LOSS OF ACTIVITY. SQ SEQUENCE 212 AA; 23718 MW; 1F1ED1FE1B734079 CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM // Annotation de la séquence Séquence Fin de l’entrée La séquence peut être formatée : le format FASTA Entrée de SwissProt Numéro unique d’accession Informations diverses (nom, espèce, …) >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM 17

Les features Exemples de Feature key Exemple de Qualifier Description CDS RBS rep_origin protein_bind tRNA Protein-coding sequence ribosome binding site Origin of replication Protein binding site on DNA mature transfer RNA Exemple de Qualifier Key Location/Qualifiers source promoter mRNA CDS 1..1509 /organism="Mus musculus" /strain="CD1" <1..9 /gene="ubc42" join(10..567,789..1320) join(54..567,789..1254) /product="ubiquitin conjugating enzyme" /function="cell division control" @ http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html

Les banques de données de séquences biologiques : laquelle choisir ? AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage, BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc ... 19

« Défauts » des banques nucléiques Aucun contrôle des banques les auteurs sont responsables de la qualité des séquences soumises. Hétérogénéité : -ADN nucléaire, mitochondrial, chloroplastique, ARNm, ARNt, chromosomes en entiers... -Gènes , fragments. Variabilité de l'état des connaissances sur les séquences: -Annotations effectuées ou non -Annotation hétérogène: automatique ou expérimentale Erreurs dans les séquences (qualité inégale): -Origine du fragment -Cultures infectées -Présence de séquences de vecteurs de clonage -Erreurs de saisie Redondance des données: plusieurs entrées pour une même séquence -Certains gènes sont séquencés à la fois sous forme d'ARNm et de fragment génomique -Certaines séquences ont été saisies plusieurs fois dans la banque

Banques protéiques Les séquences sont issues de données expérimentales (isolation, séquençage) ou d'analyses automatiques (prédiction in silico à partir de la séquence nucléique par traduction automatique, exemple: TrEMBL et GenPept). Il est important de connaître la provenance de la séquence, si la fonction a été attribuée expérimentalement ou non, à partir de quel algorithme la séquence a été prédite... SwissProt: -création en 1986 par Amos Bairoch au SIB de genève -Collaboration avec EMBL -Avantage de SwissProt / autres banques protéiques: expertise manuelle des données

UniProtKB/Swiss-Prot protein knowledgebase release 2014_09 statistics http://web. expasy.org/docs/relnotes/relstat.html Nunber of entries in UniProtKB/Smss-Prot 600k 500k - 400k - 300k - 200k - 100k - 1985 1988 1991 1994 1997 2000 2003 2006 2009 2012 2015

Quelques banques/bases... • EBI ENA DataBank • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites.. • Phytozome: a database of orthologous and paralogous genes in plants. • Taxonomy, the taxonomy database at the NCBI. • PDB: protein databank, 3D structures database.

ENA ENANf^ European Nucleotide Anchive Sequence data Assembly Annotation Archive L’ENA propose un accès à toutes les données de séquences nucléotidiques, parmi lesquelles des données d’assemblage et d’annotation-riche, tout comme les données brutes dès qu’elles sont disponibles, quelle que soit la technologie de séquençage.

ENA ENA est composée de 3 banques : l.EMBL-Bank : • Données de séquences assemblées, le soumetteur a assemblé la séquence en une seule contigue. • Annotation qui décrit la fonction biologique de régions spécifiques de la séquence (régions codant pour des protéines, exons et introns), fournit par le soumetteur. 2.Sequence Read Archive (SRA): • Reads de données brutes constitué de typiques fragments de séquences courts et non assemblés générés par la technologie Next Generation Sequencing (NGS). 3.Trace Archive : • Reads de données brutes constitué de fragments de séquence non assemblés générés par la technique de séquençage par capillarité.

Quelques banques/bases... • EBI ENA DataBank • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites. • Phytozome: a database of orthologous and paralogous genes in plants. • PDB: protein databank, 3D structures database.

PFAM

PFAM

PFAM

Quelques banques/bases... • EBI ENA DataBank • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites. • Phytozome: a database of orthologous and paralogous genes in plants. • PDB: protein databank, 3D structures database.

PROSITE - Database of protein domains, families and functional sites @) ExPASy - PROSITE - Mozilla Firefox Fichier Edition Affichage Historique Marque-pages Outils Z IU ExPASy - PROSITE •> _V_ | H prosite.expasy.org - e ]' Softonk_France Customized WP # Les plus visités □ Hotmail G Personnaliser les liens '* Windows Media C Windows i^-ËSÈ!***»,** PROSITE Home | Contact Due to maintenance work, this ExPASy service will be unavailable from Sunday January 29th, 2012 to Wednesday February 1st, 2012. Home ScanProsite ProRule Documents Downloads Links Funding Database of protein domains, families and functional sites PROSITE consists of documentation entries describing protein domains, families and functional sites as well as associated patterns and profiles to identify them [More details References / Commercial users] PROSITE is complemented by ProRule, a collection of rules based on profiles and patterns, which increases the discriminatory power of profiles and patterns by providing additional information about functionally and/or structurally critical amino acids [More details] Release 20.78, of 08-Dec-2011 (1631 documentation entries, 1308 patterns, 952 profiles and 946 ProRule) PROSITE access | |e g: PDOC00022, PS50089, SH3,zinc finger Browse: Search ‘p:- • by documentation entry I—I add wildcard'*' • by ProRule description • by taxonomic scope • by number of positive hit PROSITE tools Scan a sequence against PROSITE patterns and profiles - quick scan (Output includes graphical view and feature detection) • ScanProsite - advanced scan • PRATT • allows to interactively generate conserved patterns from a series of unaligned proteins • MyDomains - Image Creator - allows to generate custom domain figures Enter your sequence or a UniProtKB (Swi ss-Prot or TrEMBL) ID or AC [ help ]: Scan | | Clear ] 0 exclude patterns with a high probability of occurrence -

Quelques banques/bases... • EBI ENA DataBank • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites. • Phytozome: a database of orthologous and paralogous genes in plants. • PDB: protein databank, 3D structures database.

Quelques banques/bases... • SRS : Sequence Retrieval System • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites. • Phytozome: a database of orthologous and paralogous genes in plants. • PDB: protein databank, 3D structures database.

Quelques banques/bases... • EBI ENA DataBank • PFAM : Protein FAMilies • PROSITE: protein domains, families and functional sites. • Phytozome: a database of orthologous and paralogous genes in plants. • PDB: protein databank, 3D structures database.