Bases de données en biologie (suite)

Slides:

Advertisements

Présentations similaires

Parcours Maîtrise de Biologie Cellulaire (1999)

Advertisements

IREMIA : Institut de REcherche en Mathématiques et Informatique Appliquées Université de la Réunion Uniformisation des mécanismes de conception de SMA.

Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)

Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.

Ce que nous dit le BO BO n°20 du 20 mai 2010

19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.

Introduction Pour concrétiser l’enseignement assisté par ordinateur

Le développement d’applications sous Lotus Notes

UML - Présentation.

(Classes prédéfinies – API Java)

Ontologie, Méta-données, Sémiotiques

Initiation à la bioinformatique

Gestion de la persistance des objets

Les bases de données biologiques au LBBE

VI. Analyse des solutions techniques

April, 2007La Biologie a changé: et lenseignement ? La biologie a changé: et lenseignement ? Une formation continue co-construite: réflexions sur le lien.

1. Spécialisation de GeoConcept

Initiation à la conception de systèmes d'information

Accès aux données généralisé SQL est presque une solution! Le problème: Le SQL n'est pas une langue complète, et doit être intégré dans un langage de programmation.

Annotations sémantiques pour le domaine des biopuces

Tecsan Technologies pour la santé et l'autonomie

Gestion des bases de données

Etude globale de système.

Présentation des outils de recherche dinformations scientifiques.

VI. Analyse des solutions techniques

Un modèle sémantique pour linteropérabilité de systèmes dinformation Equipe Ingénierie informatique et base de données – Laboratoire LE2I Université de.

Le forage de données ou data mining

Annotation de génomes complets

Solvent eXtraction Database - INTERNET -

Vers une génération automatique du mapping de sources biomédicales

UN THESAURUS Pourquoi ? Pour qui ? Comment ?

Bases de données phénotypique et ontologie

Contenus riches et logique d'industrialisation Contenus riches et logique d'industrialisation Modélisation, production, génération, gestion Stéphane Crozat.

Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.

Algorithmes et Programmation

Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO

Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.

Gestion de documents XML hétérogènes

Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.

Chaque module comprends 2 niveaux :

Intégration de schémas

La maîtrise des méthodes et des outils pour apprendre

Initiation à la conception des systèmes d'informations

Les fichiers des anciens cheminots Etat des lieux début 2008 Le portail CGC L'avenir 1.

LE DATA WAREHOUSE.

Banques de données en bio-informatique

TEXT MINING Fouille de textes

Intégration des données sur le transcriptome

Exploration immersive de données génomiques textuelles et factuelles

Initiation aux SGBD Frédéric Gava (MCF)

Institut Universitaire de Technologie de Clermont-Ferrand

1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.

Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique.

Apéro Techno Romain Maragou - Aliou Sow Web sémantique.

INTRODUCTION AUX BASES DE DONNEES

Responsable : Serge Hamon

Initiation aux bases de données et à la programmation événementielle

Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.

Présentation du système

Introduction Module 1.

Introduction à la Bio-Informatique

Mais d’abord rappelez-vous!!

Analyse, élaboration et exploitation d’une Base de Données

Cours 11 Entrepôts de données

CHMI 4206 Bioinformatique appliquée

Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.

Schéma de base de données Présentation. Conception du schéma logique  Transformation du schéma conceptuel en structures de données supportées par les.

ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.

module SIE depuis 2011 et IAMD depuis l’an dernier ! Gestion de Masse de Données (GMD) Introduction Adrien Coulet

Analyse de séquences nucléotidiques séance n°2 Bio-Informatique.

Transcription de la présentation:

Bases de données en biologie (suite) G. Almouzni (I. Curie)

Bases de données en biologie Plan du cours (1) Bases de données en biologie Historique BD séquences généralistes - séquences nucléotidiques - séquences protéiques Rappels de BIO BD spécialisées - par organisme - par thématique (problématique bio) BD bibliographiques Violaine Pillet + Extraction d ’information à partir de textes Des bases de données aux bases de connaissances

Banques de séquences généralistes Séquences protéiques données expérimentales isolation, séquençage données in silico déduction à partir de la séquence nucléique par simple traduction Banques de séquences protéiques PIR-NBRF Swissprot

création 1984 données PIR-NBRF NBRF (National Biomedical Research Foundation) données MIPS (Martinsried Institute for Protein Sequences, Munich) JIPID (Japan International Protein Information Database)

http://pir.georgetown.edu/

création 1986 données Swissprot Séquences banque PIR-NBRF Amos Bairoch Université de Genève SIB: Swiss Institute of Bioinformatics Collaboration : SIB + EBI données Séquences banque PIR-NBRF Séquences banque EMBL (traduction) Chaque entrée de la base a été expertisée par un annotateur

www.expasy.org/sprot/

Bases de données en biologie Plan du cours Bases de données en biologie Historique BD séquences généralistes - séquences nucléotidiques - séquences protéiques Rappels de BIO BD spécialisées - par organisme - par thématique (problématique bio) Des bases de données aux bases de connaissances

Des banques aux bases de séquences (1) Forte croissance + hétérogénéité des séquences des banques généralistes  constitution de bases de données par thématique par organisme  espace de connaissances de références

Des banques aux bases de séquences (2) bases de séquences dédiées à un organisme à des objets biologiques communs à plusieurs organismes travail important correction des erreurs élimination des doublons annotations

Bases de séquences spécialisées

Génomes procaryotes

Mais les données ne se limitent pas aux séquences...

BD biologie moléculaire

Données structurales : PDB

Navigation dans les bases

Bases de données en biologie Plan du cours Bases de données en biologie Historique BD séquences généralistes - séquences nucléotidiques - séquences protéiques Rappels de BIO BD spécialisées - par organisme - par thématique (problématique bio) Des bases de données aux bases de connaissances

Une multiplicité de bases de données hétérogènes > 1000 BDs Ces BDs sont conçues pour répondre à des objectifs différents. Même si leurs contenues se recouvrent, leurs schémas conceptuels peuvent différer Schéma conceptuel = modèle dont la conception est pilotée par les questions qu’il doit permettre d’aborder Illusoire de penser construire un jour “ le ” système d’informations biologiques universel  pluralité des problématiques  pluralité des bases de données Mais, conséquences pratiques facheuses...

Une multiplicité de BDs hétérogènes : conséquences (1) Recherche d ’informations Interroger plusieurs bases Relier entre elles les données extraites = Intégrer les données merci Internet Analyse d ’un petit nombre de séquences Démarche fastidieuse Analyse de résultats à grande échelle (génome, protéome, transcriptome,…) Démarche inenvisageable

Une multiplicité de BDs hétérogènes : conséquences (2) Problème technique : Diversité des modèles et des formats des bases concernées. Cas favorable : s’adapter au modèle de chacune des bases. Cas moins favorable (mais plus fréquent) : les dites “ bases de données ” sont constituées de simples fichiers munis d’un langage d’interrogation et de manipulation ad hoc.  Activité majeure des bioinformaticiens: Ecriture de scripts de lecture et de reformatage de données Pour formuler de bonnes requêtes : Connaître la structure et le schéma conceptuel des bases Souvent: schéma indisponible, inexistant,… Pb :connaître le nom d ’un champ ou d ’un enregistrement est insuffisant

INTEGRATION Une multiplicité de BDs hétérogènes Volume de données : non limitant Problème majeur: HETEROGENEITE des données ( nature, formats) INTEGRATION Comment intégrer ces données biologiques, hétérogènes et distribuées, afin qu’elles soient accessibles et exploitables aussi facilement que si elles figuraient dans une seule et même base ?

Intégration de données hétérogènes 2 grandes catégories de solutions = ajouter, au-dessus des bases existantes, une couche logicielle offre les interfaces nécessaires entre les bases fait apparaître l’ensemble comme une seule base virtuelle Approche fédérative 1 (+) assure d’accéder à tout instant à des données qui sont à jour Entrepôts de données (data warehousing) 2 = restructurer les données au sein d ’un schéma unique les données des différentes bases concernées sont copiées de leurs bases d’origine (+) temps de traitement des requêtes (-) mises à jours Résoudre les problèmes d ’incompatibilité syntaxique et sémantique

SRS - Sequence Retrieval System 1 Rajouter l ’URL

SRS - Sequence Retrieval System 1 SRS permet d ’accéder à différentes BDs via une interface unique Exemple: ExPASy: SWISS-PROT, TrEMBL (SPTR)

ENTREZ (NCBI) 1 ENTREZ

Entrepôt de données 2 = restructurer les données au sein d ’un schéma unique Mise en correspondance des entités modélisées dans différents schémas conceptuels Rappel: la seule connaissance des noms est insuffisante schéma conceptuel accessible et correctement documenté Cependant, dans un schéma conceptuel, description minimale des entités (traitement des requêtes, administration de la base) Parfois, description sous forme de textes dans la documentation associée  Expliciter et formaliser les entités manipulées

Des bases de données aux bases de connaissances... Représentation de connaissances François Rechenmann Danielle Ziébelin : AROM

Des bases de données aux bases de connaissances Modéliser plus finement les classes d’entités, ainsi que les relations qu’elles entretiennent non plus seulement à des fins de requêtes et de gestion mais pour expliciter formellement leurs définitions bases de données  base de connaissances Ontologie : formalisation des concepts d’un domaine et des relations qu’ils entretiennent Une ontologie n’est pas réductible à la constitution d’un vocabulaire En pratique, le schéma d’une base de connaissance correspond = mise en œuvre de l’ontologie retenue

Bases de connaissances Les modèles de connaissances offrent une capacité d ’expression permettant d’aborder la représentation de données plus complexes que celles qui apparaissent traditionnellement dans les bases Champs texte (langage naturel) Lisible et interprétable par un humain Exploitation automatique très délicate Ex: champ fonction

• Syntactic Annotation Genome annotation DNA sequence • gene products • operator families • Sequence similarity • CDSs, RNAs • Regulation signals • Repeats... etc • Syntactic Annotation Feature detection by content Objects Seq • Functional Annotation « function » attribution A brief overview of the different levels in the process of genome annotation: First: the syntactic level aims at detect features. A feature is an entity associated to a nucleic sequence. For instance, CDSs, Regulation signals and so on. Features are detected by content. Then, the functional annotation level, which correpond to function attribution to the features previously detected.For instance, function associated to gene products, ... Usually, this is done by similarity. These entities can be represented by objects. Finally, relational annotation consists in establishing the relations which exist between these entities. It allows, analysis of metabolic pathways or genetic networks. Generally, only the first 2 levels: syntactic annotation and functional annotation are described in sequence databases, like gb, EMBL or SP. Our objective, is to integrate these heterogenous data into a single system in order to represent …. • Relational / Context Annotation ?

Relational Annotation • Comparative genomics • Genetic networks • Molecular assemblies ABC tranporters Fichant et al. • Metabolic pathways

Panoramix KBs Proteix Genomix Metabolix EC EC EC EC Chromosome A Chromosome B Genomix Metabolix molecular assembly biochemical reactions compounds (e.g. sugar...) EC enzyme gene polypeptide

Fini pour aujourd’hui...

ENTREZ - BLAST

Les limites des bases de séquences... Hétérogénéité dans la nature des séquences Variabilité de l ’état des connaissances sur les séquences Erreurs dans les séquences Biais d ’échantillonage A voir ???

BDs: ATTENTION ! Databases: nombreuses erreurs (annotation automatique) ! Toutes les BDs ne sont pas disponibles sur tous les serveurs Problème de synchronisation des mises à jour Références croisées Compatibilité syntaxique Format Compatibilité sémantique Biologiste + bio-informaticien

Recherche de la BD idéale Prolifération de BDs Recherche de la BD idéale Analyse de séquences Données de bonne qualité Complète, détaillée Remise à jour Peu redondante Indexée pour pouvoir poser des requêtes compliquées Quel site répond le plus rapidement …….??????