La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique.

Présentations similaires


Présentation au sujet: "Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique."— Transcription de la présentation:

1 Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique

2 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Vous travaillez dans un groupe qui génère des données o Votre défi: comment distribuer vos données? o Votre défi: comment comparer avec les autres? o Vous dans un groupe qui consomme les données des autres. o Vous recherchez de l’information sur un gène ou le produit d’un gène o Vous voulez ajouter de l’information sur celles que vous avez déjà.

3 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Il vous faut donc des sources de données. o Avant l’Internet, les données étaient locales. o Bases de données associées à une application locale sur un poste de travail partagé ou sur un serveur local. o Problèmes: coût, mises à jour, maintenance, accès, etc. o Disquette >> CD-ROM : un énorme pas en avant o L’Internet a évidemment tout changé…

4 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Problème #1: le volume de données o Il devient impensable que tous ait une copie locale… o C’est les détaillants d’ordi qui seraient contents!!

5 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Problème #2: la complexité des données impose une connaissance élaborée de la structure de ces données o Pas accessible à la plupart des labos. o Conséquence: ressource centralisée (ou distribuée) donnant l’information à la demande.

6 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Il existe une grande quantité de bases de données bio-informatiques à travers le monde. Il est impossible de toutes les connaître… o Mais on a un répertoire: http://www.biodbs.infohttp://www.biodbs.info o Construisez votre « boîte à outils » à partir des exemples qui suivront. o Si vous cherchez une ressource, utilisez Google ;-)

7 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o NCBI : National Center for Biotechnology Information o http://www.ncbi.nlm.nih.gov http://www.ncbi.nlm.nih.gov o Fondée en 1988, le NCBI est une branche de la National Library of Medicine. o Depuis 1992, le NCBI s’occupe de GenBank, la base de données centralisée des séquences d’ADN et de protéines.

8 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o GenBank est une des trois banques centrales d’information: o DDBJ: http://www.ddbj.orghttp://www.ddbj.org o EBI@EMBL: http://www.ebi.ac.ukhttp://www.ebi.ac.uk o Depuis, de nombreuse autres bases de données se sont ajoutées: o COG: Cluster of Orthologous Genes o GEO: Gene Expression Omnibus o UniGene: Unique Human Gene Sequence Collection o Et bien d’autres!!

9 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o Chacune de ces bases de données a sa structure propre, son contenu distinct. o Un problème se pose: comment trouver l’information lors qu’elle est distribuée dans autant de sites? o Solution: fédérer les données en créant un système de référence croisée. o En pratique, c’est Entrez o http://www.ncbi.nlm.nih.gov/Entrez http://www.ncbi.nlm.nih.gov/Entrez

10 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez

11 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o Entrez est accessible via un accès programmatique, permettant la recherche des infos à distance sans passer par le WWW. o Cependant, Entrez reste une ressource limitée par la nature des infos dans chaque bases de données. o Par exemple: limitation du format GenBank et données d’expression. o Le résultat: beaucoup de navigation afin de trouver ce que l’on cherche.

12 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o Une autre manière est de partir à zéro… o Pourquoi ne pas crée une nouvelle structure des informations, permettant de tout mettre (ou presque) dans une seule fenêtre? o C’est la philosophie de Ensembl o WWW: http://www.ensembl.orghttp://www.ensembl.org o Une initiative européenne située au Royaume-Uni

13 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o Approche utilisée: partir d’un génome entier en y greffant toutes les informations disponibles. o Ces informations peuvent être déjà existantes ou trouvées de novo. o Exemple: identification des gènes o Toute les données sont publiques et librement téléchargeables. o Note: c’est ÉNORME!!!! ==>> Quelques centaines de Gb o Passé par une machine virtuelle sur AWS…

14 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o Développé à l’aide d’outils à code source libre, la plate-forme logiciel de Ensembl est maintenant utilisée dans d’autres projets. o Ensembl dispose également d’un accès programmatique. o Ensembl se spécialise dans les informations provenant de génomes de Vertébrés.

15 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl

16 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl

17 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o L’information sur un gène comprends: o Toutes les données sur le gène lui-même o Toutes les données sur la nature des transcrits avec toutes les variations d’épissage au besoin. o Toutes les données sur la protéine résultante de chaque transcrit avec les informations de motifs et de fonction (via Gene Ontology) o Vous pouvez faire des recherches libres grâce â l’outil BioMart. o Exemple: Trouvez tous les gènes du chromosome 11 qui ont produisent une protéine possédant une motif SH2. o Très puissant, n’hésitez pas à l’utiliser.

18 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o Comme mentionné, il en existe bien d’autres… o J’aimerais cependant parler de certaines, utiles pour le reste du cours. o Dans bien des cas, elles sont en fait la source de données utilisée par une application. o En fait, une fois que vous avez une séquence, désolé de vous annoncez ça mais…pis?

19 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o REBASE (http://rebase.neb.com)http://rebase.neb.com o Où trouver tous (et je dit bien, TOUS) les sites reconnus par les enzymes de restriction connus? o Là, évidemment! o Le fichier de données REBASE se télécharge et est utilisé par une foule de logiciels: o DNA Strider / DNAassist / restrict et remap (EMBOSS) / MacVector / OMIGA / et j’en passe ;-)

20 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o PROSITE (http://ww.expasy.ch)http://ww.expasy.ch o Une base de données de motifs protéiques. o La structure des motifs permet l’utilisation par de logiciels (plus à venir ;-)). o Les sites PROSITE sont des sites avec évidence expérimentale.

21 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o PDB (http://www.pdb.org)http://www.pdb.org o La plus grande base de données de structure au monde. o Vous n’y retrouverez pas des séquences mais des données structurales (plus à venir…) o Le site héberge des outils d’analyse séquence vs. structure.

22 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Intégration de données o Ok, on a réglé le problème de ce qui est connu! o Maintenant, pouvons nous y mettre notre grain de sel? o Exemple: Disons que je travaille sur un projet de variations génétiques, est-ce que je peux les utiliser par dessus les données connues? o Évidemment! On utilise alors un genome browser. o Une idée: Fureteur de génome?!!!

23 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Intégration de données o Le concept: utilisons un programme qui nous montre ce qui est connu. o Créons du nouveau contenu capable d’être lu par ce programme et projetons ces nouvelles données sur les données connues. o Exemples de nouvelles données: o Variations génétiques o Données d’ultra-séquençage o Données d’expression

24 Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Intégration de données o Via le Web o Ensembl: http://useast.ensembl.org/info/website/upload/index.html http://useast.ensembl.org/info/website/upload/index.html o UCSC Genome Browser: http://genome.ucsc.edu/goldenPath/help/customTrack.html http://genome.ucsc.edu/goldenPath/help/customTrack.html o Via un programme local o Artemis: http://www.sanger.ac.uk/resources/software/artemis/ http://www.sanger.ac.uk/resources/software/artemis/ o Genome Workbench: http://www.ncbi.nlm.nih.gov/tools/gbench http://www.ncbi.nlm.nih.gov/tools/gbench


Télécharger ppt "Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique."

Présentations similaires


Annonces Google