Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Vous travaillez dans un groupe qui génère des données o Votre défi: comment distribuer vos données? o Votre défi: comment comparer avec les autres? o Vous dans un groupe qui consomme les données des autres. o Vous recherchez de l’information sur un gène ou le produit d’un gène o Vous voulez ajouter de l’information sur celles que vous avez déjà.
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Il vous faut donc des sources de données. o Avant l’Internet, les données étaient locales. o Bases de données associées à une application locale sur un poste de travail partagé ou sur un serveur local. o Problèmes: coût, mises à jour, maintenance, accès, etc. o Disquette >> CD-ROM : un énorme pas en avant o L’Internet a évidemment tout changé…
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Problème #1: le volume de données o Il devient impensable que tous ait une copie locale… o C’est les détaillants d’ordi qui seraient contents!!
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Problème #2: la complexité des données impose une connaissance élaborée de la structure de ces données o Pas accessible à la plupart des labos. o Conséquence: ressource centralisée (ou distribuée) donnant l’information à la demande.
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Il existe une grande quantité de bases de données bio-informatiques à travers le monde. Il est impossible de toutes les connaître… o Mais on a un répertoire: o Construisez votre « boîte à outils » à partir des exemples qui suivront. o Si vous cherchez une ressource, utilisez Google ;-)
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o NCBI : National Center for Biotechnology Information o o Fondée en 1988, le NCBI est une branche de la National Library of Medicine. o Depuis 1992, le NCBI s’occupe de GenBank, la base de données centralisée des séquences d’ADN et de protéines.
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o GenBank est une des trois banques centrales d’information: o DDBJ: o o Depuis, de nombreuse autres bases de données se sont ajoutées: o COG: Cluster of Orthologous Genes o GEO: Gene Expression Omnibus o UniGene: Unique Human Gene Sequence Collection o Et bien d’autres!!
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o Chacune de ces bases de données a sa structure propre, son contenu distinct. o Un problème se pose: comment trouver l’information lors qu’elle est distribuée dans autant de sites? o Solution: fédérer les données en créant un système de référence croisée. o En pratique, c’est Entrez o
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o Entrez est accessible via un accès programmatique, permettant la recherche des infos à distance sans passer par le WWW. o Cependant, Entrez reste une ressource limitée par la nature des infos dans chaque bases de données. o Par exemple: limitation du format GenBank et données d’expression. o Le résultat: beaucoup de navigation afin de trouver ce que l’on cherche.
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o Une autre manière est de partir à zéro… o Pourquoi ne pas crée une nouvelle structure des informations, permettant de tout mettre (ou presque) dans une seule fenêtre? o C’est la philosophie de Ensembl o WWW: o Une initiative européenne située au Royaume-Uni
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o Approche utilisée: partir d’un génome entier en y greffant toutes les informations disponibles. o Ces informations peuvent être déjà existantes ou trouvées de novo. o Exemple: identification des gènes o Toute les données sont publiques et librement téléchargeables. o Note: c’est ÉNORME!!!! ==>> Quelques centaines de Gb o Passé par une machine virtuelle sur AWS…
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o Développé à l’aide d’outils à code source libre, la plate-forme logiciel de Ensembl est maintenant utilisée dans d’autres projets. o Ensembl dispose également d’un accès programmatique. o Ensembl se spécialise dans les informations provenant de génomes de Vertébrés.
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o L’information sur un gène comprends: o Toutes les données sur le gène lui-même o Toutes les données sur la nature des transcrits avec toutes les variations d’épissage au besoin. o Toutes les données sur la protéine résultante de chaque transcrit avec les informations de motifs et de fonction (via Gene Ontology) o Vous pouvez faire des recherches libres grâce â l’outil BioMart. o Exemple: Trouvez tous les gènes du chromosome 11 qui ont produisent une protéine possédant une motif SH2. o Très puissant, n’hésitez pas à l’utiliser.
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o Comme mentionné, il en existe bien d’autres… o J’aimerais cependant parler de certaines, utiles pour le reste du cours. o Dans bien des cas, elles sont en fait la source de données utilisée par une application. o En fait, une fois que vous avez une séquence, désolé de vous annoncez ça mais…pis?
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o REBASE ( o Où trouver tous (et je dit bien, TOUS) les sites reconnus par les enzymes de restriction connus? o Là, évidemment! o Le fichier de données REBASE se télécharge et est utilisé par une foule de logiciels: o DNA Strider / DNAassist / restrict et remap (EMBOSS) / MacVector / OMIGA / et j’en passe ;-)
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o PROSITE ( o Une base de données de motifs protéiques. o La structure des motifs permet l’utilisation par de logiciels (plus à venir ;-)). o Les sites PROSITE sont des sites avec évidence expérimentale.
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o PDB ( o La plus grande base de données de structure au monde. o Vous n’y retrouverez pas des séquences mais des données structurales (plus à venir…) o Le site héberge des outils d’analyse séquence vs. structure.
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Intégration de données o Ok, on a réglé le problème de ce qui est connu! o Maintenant, pouvons nous y mettre notre grain de sel? o Exemple: Disons que je travaille sur un projet de variations génétiques, est-ce que je peux les utiliser par dessus les données connues? o Évidemment! On utilise alors un genome browser. o Une idée: Fureteur de génome?!!!
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Intégration de données o Le concept: utilisons un programme qui nous montre ce qui est connu. o Créons du nouveau contenu capable d’être lu par ce programme et projetons ces nouvelles données sur les données connues. o Exemples de nouvelles données: o Variations génétiques o Données d’ultra-séquençage o Données d’expression
Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Intégration de données o Via le Web o Ensembl: o UCSC Genome Browser: o Via un programme local o Artemis: o Genome Workbench: