Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique.

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

MySQL Base de données.
[Nom du présentateur] [Titre/position/statut du présentateur] Webinaire pour [nom du groupe] [Nom de l'institution] [Date]
Copyright ©: SAMSUNG & Samsung Hope for Youth. All rights reserved Tutorials Tablettes : Premiers pas avec votre tablette Niveau : Débutant Intermédiaire.
Présentation générale de SPIP Fonctionnalités principales dun CMS La séparation entre contenu et présentation Susciter linteractivité en interne et en.
Présentation générale de SPIP Fonctionnalités principales dun CMS La séparation entre contenu et présentation Susciter linteractivité en interne et en.
W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :
SITools Présentation de l’outil (1/2)
Evaluation et qualité des revues électroniques et ressources documentaires associées.
Introduction aux réseaux informatiques
DIFFUSION DES DONNEES SOCIO-DEMOGRAPHIQUES AU BURUNDI
Veille informationnelle et outils du Web 2.0
La Recherche en Ligne.
Ce que la CRM ACT peut vous apporter
Concevoir un site Web de A à Z Ce cours permet à létudiant de réaliser de façon professionnelle un site internet de A à Z.
Utilisation du fil RSS du site du Master-Chimie d Aix-Marseille Université Tutoriel réalisé par Fabien.
La GSL : un outil pour mutualiser linformation scientifique Guilde des Doctorants © Guilde des Doctorants – 2001.
Concevoir un jeu éducatif virtuel
Les Communications: le système nerveux du Canada
Mars 2013 Grégory Petit
1 Bibdoc 37 – Regards croisés Bibliothèques virtuelles, usages réels 7 avril 2009 – Tours « Les usages des bibliothèques virtuelles » Jean-Philippe Accart.
29e CONFÉRENCE INTERNATIONALE DES COMMISSAIRES À LA PROTECTION DES DONNÉES ET DE LA VIE PRIVÉE 29 th INTERNATIONAL DATA PROTECTION AND PRIVACY COMMISSIONERS.
Autodesk® Revit® Building 9
Archimède : dépôt institutionnel de la Bibliothèque de lUniversité Laval Par Rida Benjelloun Chef de la section recherche.
Tutoriel web endnote Outil de recherche et de partage bibliographique 1.
TP 5 Du génome au protéome
Service dInformation et dAnalyse des Logiciels Libres Éducatifs
Les 6 étapes de la recherche…
Console MMC de Windows 2000 Présenté par Suzanne Savoie Cours 4.
Les guides de formation WS-FTP Comment télécharger un site web sur le serveur de lÉcole.
Introduction à la bioinformatique
Jeudi le 18 Novembre 1999XML : État de la situation, par Sylvain Carle Jeudi 18 Novembre 1999 État de la situation du XML Un an après, quest-ce qui se.
Tout savoir sur la synchronisation des mails, contacts et calendrier sur Windows Phone Lire cette présentation en mode plein écran.
Expose sur « logiciel teamviewer »
Les fruits, un concentré d’énergie
Les nombres décimaux au cycle 3
Allez sur Bonjour! Je vous présente class dojo, un site qui permet une gestion de classe plus facile et surtout beaucoup.
GPA – 19 novembre L'accès aux données pour tous au cœur de l'évolution de la toile Eaufrance Journée nationale d’information sur les SIGES 1er décembre.
Ressources Electroniques d’Oxford University Press.
S'initier au HTML et aux feuilles de style CSS Cours 5.
27/05/2008© 1 présente Les sites WEB Les premiers pas.
Introduction à CmapTools par Jacques-Antoine V-Lemay 3 septembre 2008 par Jacques-Antoine V-Lemay 3 septembre 2008.
FTP : File Transfer Protocol (protocole de transfert de fichier ) est un protocole de communication destiné à l'échange informatique de fichiers sur.
Banques de données en bio-informatique
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
Support.ebsco.com Didacticiel Mon EBSCOhost Didacticiel.
Présentation nouveau site marchand
Comment publier votre site ?. 1. Créer un espace de publication 1.1 Connectez-vous sur : 1.2 Cliquez sur « Créer un site.
Nassim Bouaziz Mariève Bureau
Le nom de domaine n'est pas seulement une "adresse" qui va servir à se connecter sur un serveur, c'est aussi une manière de vous identifier à travers le.
Comment faire de recherche sur l’Internet
Lellouche Aaron ITIC Paris
Centre d’échange d’informations sur la Convention sur la Diversité Biologique Bienvenue dans le cours sur l’ajout d’une Actualité sur un site web développé.
Joanne Yeomans CERN Induction Course 2007 Service pour l’information scientifique Libre accès à la littérature et aux données scientifiques Scientific.
QCM VBA.
Introduction à la bioinformatique « Génomique Nouvelle Génération »
Présenter une bibliographie en lycée
CONSTRUCTION DE TABLEAUX CROISES SUR LE LOGICIEL MODALISA MET4 – Avril 2005.
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Présentation de Dreamveawer
CHMI 4206 Bioinformatique appliquée
Présentation de Facebook
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
© SQLI GROUP – 2012 AUDIT DRUPAL USINE À SITES WEB ÆGIR.
Chapitre 9 Configuration de Microsoft Windows XP Professionnel pour fonctionner sur des réseaux Microsoft Module S41.
Groupe 1 : questions sur le texte extrait de Ecopédia Quels types de projets peuvent être financés par le crowdfunding ? Est-on obligé d’être une société.
Les ateliers l’environnement numérique de travail en Midi-Pyrénées L’ENT MIDI-PYRÉNÉES EST SOUTENU PAR les services personnels - CLIQUEZ POUR CONTINUER.
LearningApps.org Laurence Fauvelle. Du 2.0 ! « Multi-services & Multi-usages »
1 Interne Orange Accédez à votre système d'information depuis votre terminal mobile Nomalys.
Transcription de la présentation:

Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Vous travaillez dans un groupe qui génère des données o Votre défi: comment distribuer vos données? o Votre défi: comment comparer avec les autres? o Vous dans un groupe qui consomme les données des autres. o Vous recherchez de l’information sur un gène ou le produit d’un gène o Vous voulez ajouter de l’information sur celles que vous avez déjà.

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Il vous faut donc des sources de données. o Avant l’Internet, les données étaient locales. o Bases de données associées à une application locale sur un poste de travail partagé ou sur un serveur local. o Problèmes: coût, mises à jour, maintenance, accès, etc. o Disquette >> CD-ROM : un énorme pas en avant o L’Internet a évidemment tout changé…

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Problème #1: le volume de données o Il devient impensable que tous ait une copie locale… o C’est les détaillants d’ordi qui seraient contents!!

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Problème #2: la complexité des données impose une connaissance élaborée de la structure de ces données o Pas accessible à la plupart des labos. o Conséquence: ressource centralisée (ou distribuée) donnant l’information à la demande.

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) D’où viennent toutes les données? o Il existe une grande quantité de bases de données bio-informatiques à travers le monde. Il est impossible de toutes les connaître… o Mais on a un répertoire: o Construisez votre « boîte à outils » à partir des exemples qui suivront. o Si vous cherchez une ressource, utilisez Google ;-)

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o NCBI : National Center for Biotechnology Information o o Fondée en 1988, le NCBI est une branche de la National Library of Medicine. o Depuis 1992, le NCBI s’occupe de GenBank, la base de données centralisée des séquences d’ADN et de protéines.

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o GenBank est une des trois banques centrales d’information: o DDBJ: o o Depuis, de nombreuse autres bases de données se sont ajoutées: o COG: Cluster of Orthologous Genes o GEO: Gene Expression Omnibus o UniGene: Unique Human Gene Sequence Collection o Et bien d’autres!!

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o Chacune de ces bases de données a sa structure propre, son contenu distinct. o Un problème se pose: comment trouver l’information lors qu’elle est distribuée dans autant de sites? o Solution: fédérer les données en créant un système de référence croisée. o En pratique, c’est Entrez o

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) NCBI et Entrez o Entrez est accessible via un accès programmatique, permettant la recherche des infos à distance sans passer par le WWW. o Cependant, Entrez reste une ressource limitée par la nature des infos dans chaque bases de données. o Par exemple: limitation du format GenBank et données d’expression. o Le résultat: beaucoup de navigation afin de trouver ce que l’on cherche.

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o Une autre manière est de partir à zéro… o Pourquoi ne pas crée une nouvelle structure des informations, permettant de tout mettre (ou presque) dans une seule fenêtre? o C’est la philosophie de Ensembl o WWW: o Une initiative européenne située au Royaume-Uni

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o Approche utilisée: partir d’un génome entier en y greffant toutes les informations disponibles. o Ces informations peuvent être déjà existantes ou trouvées de novo. o Exemple: identification des gènes o Toute les données sont publiques et librement téléchargeables. o Note: c’est ÉNORME!!!! ==>> Quelques centaines de Gb o Passé par une machine virtuelle sur AWS…

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o Développé à l’aide d’outils à code source libre, la plate-forme logiciel de Ensembl est maintenant utilisée dans d’autres projets. o Ensembl dispose également d’un accès programmatique. o Ensembl se spécialise dans les informations provenant de génomes de Vertébrés.

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Ensembl o L’information sur un gène comprends: o Toutes les données sur le gène lui-même o Toutes les données sur la nature des transcrits avec toutes les variations d’épissage au besoin. o Toutes les données sur la protéine résultante de chaque transcrit avec les informations de motifs et de fonction (via Gene Ontology) o Vous pouvez faire des recherches libres grâce â l’outil BioMart. o Exemple: Trouvez tous les gènes du chromosome 11 qui ont produisent une protéine possédant une motif SH2. o Très puissant, n’hésitez pas à l’utiliser.

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o Comme mentionné, il en existe bien d’autres… o J’aimerais cependant parler de certaines, utiles pour le reste du cours. o Dans bien des cas, elles sont en fait la source de données utilisée par une application. o En fait, une fois que vous avez une séquence, désolé de vous annoncez ça mais…pis?

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o REBASE ( o Où trouver tous (et je dit bien, TOUS) les sites reconnus par les enzymes de restriction connus? o Là, évidemment! o Le fichier de données REBASE se télécharge et est utilisé par une foule de logiciels: o DNA Strider / DNAassist / restrict et remap (EMBOSS) / MacVector / OMIGA / et j’en passe ;-)

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o PROSITE ( o Une base de données de motifs protéiques. o La structure des motifs permet l’utilisation par de logiciels (plus à venir ;-)). o Les sites PROSITE sont des sites avec évidence expérimentale.

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Autres bases de données o PDB ( o La plus grande base de données de structure au monde. o Vous n’y retrouverez pas des séquences mais des données structurales (plus à venir…) o Le site héberge des outils d’analyse séquence vs. structure.

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Intégration de données o Ok, on a réglé le problème de ce qui est connu! o Maintenant, pouvons nous y mettre notre grain de sel? o Exemple: Disons que je travaille sur un projet de variations génétiques, est-ce que je peux les utiliser par dessus les données connues? o Évidemment! On utilise alors un genome browser. o Une idée: Fureteur de génome?!!!

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Intégration de données o Le concept: utilisons un programme qui nous montre ce qui est connu. o Créons du nouveau contenu capable d’être lu par ce programme et projetons ces nouvelles données sur les données connues. o Exemples de nouvelles données: o Variations génétiques o Données d’ultra-séquençage o Données d’expression

Diploide.net BCM3552 / BCM6010 – Bio-informatique appliquée: une introduction Bases de données en bio-informatique - v.6.0 (A2011) Intégration de données o Via le Web o Ensembl: o UCSC Genome Browser: o Via un programme local o Artemis: o Genome Workbench: