Bases de données phénotypique et ontologie JAS PHASE 03/10/2013
Les bases de données phénotypiques Phénotype: état de caractères observables chez un organisme vivant. Il est considéré soit : pour un seul caractère, à l'échelle moléculaire, cellulaire, ou macroscopique (ex : morphologie des cellules) comme l'ensemble des états des caractères observables d'un individu (phénome) (ex : phénotype Salers versus Bretonne pie noire) Le phénotype est la résultante de l’expression du génotype et de l’influence de son environnement (P = G + E)
Phénotypage haut-débit Méthode de détermination de phénotypes mesurables de façon répétable, automatisable et rapide de sorte que le processus de mesure génère un grand nombre de données. 2 composantes : Le Phénotypage horizontal, systématique Le Phénotypage vertical ou ciblé
Types de phénotypages Horizontal Vertical Grand nombre d’animaux / peu de variables Ex: poids des animaux dans une expérience Vertical Peu d’individus / beaucoup de variables Ex: génomique, métabolomique
Les bases de données phénotypiques De toutes sortes Exemple: BIF-Beef: base de données phénotypique de l’UMRH Mesures carcasse (Horizontal) Mesures biologiques (Vertical) Aladin: SI ruminant Gestion des troupeaux Gestion de l’Alimentation Gestion des expériences
Les bases de données phénotypiques A quoi ressemble une « bonne » base? Information Méthode Mesure Conditions
Les bases de données phénotypiques Problème: format des données / accès aux données Nécessité pour une base d’avoir un format fixe et compatible avec d’autres bases Comment assurer ceci? Utilisation des ontologies
Les ontologies Définition: Représentation formelle d'un ensemble de phénotypes, et des relations entre ces phénotypes Les concepts et les relations dans une ontologie sont clairement définis Les concepts sont organisés de manière structurée (souvent une structure hiérarchique) Le sens d'un terme est utilisé de façon univoque Les termes utilisés doivent être lisibles par des machines (permettant l’automatisation de la mesure ou de l’utilisation de l’information)
Ontologies utilisées à l’INRA: Les ontologies Ontologies utilisées à l’INRA: ATOL (Animal Trait Ontology for Livestock) EOL (Environment Ontology for Livestock) Site web du projet: www.atol-ontology.com Visualisation des ontologies Téléchargement des ontologies (versioning)
Les ontologies But du projet ATOL: Disposer d’une ontologie de référence pour le phénotypage des animaux d’élevage et partagée par la communauté scientifique et enseignante internationale Disposer d’un langage utilisable par les programmes informatiques (gestion des bases de données, analyse sémantique, modélisation…) Avoir des caractères les plus génériques possibles pour les vertébrés d’élevage Rendre l’ontologie la plus opérationnelle possible et proche des techniques de mesure Structurer la base à des fins de production animale
Comment relier les 2 concepts Chaque projet/structure a son propre modèle de données + Système applicatif Les projets doivent suivre les règles définies par les ontologies Plusieurs approches: A posteriori: la conception du MCD précède la recherche ou la conception de l’ontologie partagée A priori: l’ontologie est supposée existante lorsque la base de données est conçue Directes: la structure de l’ontologie définit directement la structure de la base de données
Les bases de données à base ontologique (BDBO) Ontologies et données sont stockées dans la BdD Mêmes principes de traitement (insertion mises à jour, requêtes, …) Association données – concept de l’ontologie Ensemble multi-parties: BdD, ontologie, méta-schéma permet de rendre générique le traitement sur les ontologies Exemple: OntoDB
Le sparql endpoint La BdD est considérée comme un graphe RDF (Resource Description Framework ou « sujet – prédicat – objet »), à travers lequel on accède au contenu de la base Entrepôt « virtuel » vue sémantique de la base Langage SPARQL: Simple Protocol and RDF Query language permet de consulter les données Possibilité de rechercher des informations en partant de l’ontologie
Les entrepôts de données Définition: Ensemble de données historisées variant dans le temps, organisé par sujets, consolidé dans une base de données unique, géré dans un environnement de stockage particulier, aidant à la prise de décision 3 fonctions essentielles collecte de données de bases existantes et chargement gestion des données dans l’entrepôt analyse de données pour la prise de décision
Les entrepôts de données
Les entrepôts de données Associés à la prise en compte des ontologies, ils permettent de rapprocher des bases au contenu et au format différents Exemple concret possible SI existants à l’UMRH différents Bases de données différentes Contenu différent Interface différente Similarités associables à un DWH
+ Travail à effectuer BdD ontologie Les infos référentielles des bases de données sont indexées sur l’ontologie BDBO
+ Travail à effectuer BDBO BDBO Passage dans un entrepôt de données DWH
+ Travail à effectuer Travail à effectuer DWH R2D La base est transformée en shéma RDF, pour le web sémantique
+ Travail à effectuer Travail à effectuer R2D Le schéma RDF est analysé en utilisant un langage de requête approprié (SPARQL)
Merci de votre attention