edot Groupe de travail sur l’intégration
Le problème Intégration de nouvelles données avec les données existantes dans l’entrepôt Les données existantes: 2 formats différents BD relationnelle BD semistructurée Ontologie commune Hiérarchie de termes Noms d’attributs ou de valeurs d’attribut du schéma relationnel Noms de concepts du schéma de graphes Exemple: produit, scarole, germe, listeria
Interface de requêtes commune L’ontologie: sert de schéma médiateur entre les utilisateurs et les 2 bases de données MIEL: langage de requêtes simple critères de sélection + attributs de projection quels sont tous les germes contaminants de la scarole ? Requêtes exécutées sur la BD relationnelle et sur la BD de graphes
Notre choix pour l’intégration Se servir de l’ontologie existante pour intégrer de nouvelles données Choix cohérent avec celui fait pour l’acquisition Nécessite de savoir/pouvoir caractériser les nouvelles données en fonction de l’ontologie Problème inverse de ce qu’on fait habituellement en BD Pour pouvoir interroger de façon uniforme (via MIEL) les données existantes et les données nouvelles
Données extérieures utiles des pages Web ou des documents (XML, pdf, doc) localisés par le crawler de Xylème Des sites bibliographiques répertoriant des articles scientifiques (en pdf) portant sur le risque alimentaire Des données importées de bases de données de partenaires de Sym’Previus
Principaux problèmes Mettre les documents (ou des parties de documents) dans un format XML avec le plus possible de balises provenant de l’ontologie Résultat: base documentaire en XML annotée par les termes de l’ontologie Reformulation des requêtes MIEL en des requêtes XML Résultat: interrogation uniforme des données existantes et des données ajoutées
<doc … de la scarole dans le frigo de Serge Abiteboul vieille de 8 jours bla bla bla méchante listeria mortelle E. Coli pas méchant …
Exemple <doc … de la scarole dans le frigo de Serge Abiteboul vieille de 8 jours bla bla bla méchante listeria mortelle E. Coli pas méchant Quels sont les germes contaminants de la scarole ?
Questions ouvertes /tâches … Extraction de tableaux ou graphiques de documents pdf ??? Mise sous forme XML de tableaux html facile avec des balises XML non sémantiques difficile de remplacer ces balises par des termes de l’ontologie Mise sous forme XML de tableaux Excel Format de documents d’experts en attente de traitement a priori, plus facile de faire le lien avec l’ontologie Reformulation de requêtes MIEL en requêtes XML