La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Présentation du projet edot Revue intermédiaire - 29 Juin 2004.

Présentations similaires


Présentation au sujet: "Présentation du projet edot Revue intermédiaire - 29 Juin 2004."— Transcription de la présentation:

1 Présentation du projet edot Revue intermédiaire - 29 Juin 2004

2 Revue E.Dot 29/6/2004 De plus en plus d’informations utiles pour les entreprises accessibles via le Web Requêtes par mot clé pour rechercher des pages web Que trouve-t-on sur le Web public et privé ? Des documents (HTML, doc, pdf…), des données semi structurées (XML), des données structurées (BD relationnelles) Motivations

3 Revue E.Dot 29/6/2004 Ce qui est en train de changer Format d’échange universel (XML) Mariage entre documents et bases de données Standard de langage de requêtes: XQuery Services Web (SOAP, WSDL) Format pour exporter des services sur le Web Format pour encapsuler des requêtes Web sémantique (ontologies) Trouver et utiliser l’information pertinente Le projet e.dot est fondé sur ces technologies

4 Revue E.Dot 29/6/2004 Objectifs d’edot Génériques Outils pour construire des entrepôts de données thématiques en découvrant des données sur le Web et en enrichissant des systèmes d’information existants par intégration de ces données Particulier Développer un entrepôt de données XML intégrant de manière automatique des informations liées au risque de contamination des aliments, qu’elles soient issues du Web, privées ou obtenues sous licence

5 Partenaires

6 Revue E.Dot 29/6/2004 Calendrier Labelisation par le RNTL : mai 2002 Date de début officielle : janvier 2003 durée : 2 ans Notification : Juillet-Septembre 2003 Demande d’avenant en Janvier 2004 date de fin : juin 2005 rapport intermédiaire : juin 2004

7 Revue E.Dot 29/6/2004 Organisation du projet Tous les partenaires participent à tous les sous projets Sous projet 1 (BIA): spécification d’un entrepôt de données pour le risque de contamination des aliments Sous projet 2 (Xyleme): acquisition de données du Web Sous projet 3 (IASI): organisation et structuration de l’entrepôt Sous projet 4 (BIA): validation auprès des utilisateurs Durée 2 ans et demi 1 2 3 4

8 Revue E.Dot 29/6/2004 Spécification de l’entrepôt Analyse des besoins Avec l’aide de biologistes et d’industriels, analyse des manques dans la base existante Sym’Previus Analyse du contenu d’autres bases nationales ou internationales Analyse de sites du Web qui pourraient contenir des informations intéressantes

9 Revue E.Dot 29/6/2004 Données existantes 2 formats différents BD relationnelle BD semistructurée Ontologie commune Hiérarchie de termes Noms d’attributs ou de valeurs d’attribut du schéma relationnel Noms de concepts du schéma de graphes Exemple: produit, scarole, germe, listeria

10 Revue E.Dot 29/6/2004 Interface de requêtes commune L’ontologie: sert de schéma médiateur entre les utilisateurs et les 2 bases de données MIEL: langage de requêtes simple critères de sélection + attributs de projection quels sont tous les germes contaminants de la scarole ? Requêtes exécutées sur la BD relationnelle et sur la BD de graphes

11 Revue E.Dot 29/6/2004 Nos choix Se servir de l’ontologie existante pour intégrer de nouvelles données Choix cohérent avec celui fait pour l’acquisition Nécessite de savoir/pouvoir caractériser les nouvelles données en fonction de l’ontologie Problème inverse de ce qu’on fait habituellement en BD Pour pouvoir interroger de façon uniforme (via MIEL) les données existantes et les données nouvelles

12 Revue E.Dot 29/6/2004 Données extérieures utiles Des pages Web ou des documents (XML, pdf, doc) localisés par le crawler de Xylème Des sites bibliographiques répertoriant des articles scientifiques (en pdf) portant sur le risque alimentaire Des fiches excel transmises par des experts Des bases de données de partenaires de Sym’Previus : ComBase

13 Revue E.Dot 29/6/2004 Principales tâches Crawling et filtrage de pages web Extraction de données structurées de documents html, pdf ou excel Transformation de ces données en XML avec le plus possible de balises provenant de l’ontologie Résultat: base documentaire en XML annotée par les termes de l’ontologie Reformulation des requêtes MIEL en des requêtes XML Résultat: interrogation uniforme des données existantes et des données ajoutées

14 Revue E.Dot 29/6/2004 Vue globale Relational tables Conceptua l graphs MIEL existing data Web Combase Exce l files external data Bibliographic sites crawling + filtering structure extracting semantic tagging XML

15 Revue E.Dot 29/6/2004 Architecture E.Dot

16 Revue E.Dot 29/6/2004 Data flow Crawler EdotFilter Store Validation Miel++ External DBs Web Any2SML Workspaceurl doc Thesu url+meta Ontology query data docdata Expert

17 Revue E.Dot 29/6/2004 Exposés du matin Modules de Crawling et filtrage Crawl + thesu EdotFilter Modules d’extraction et transformation des données en XML Any2Xtab Xtab2SML PDF2SML

18 Revue E.Dot 29/6/2004 Exposés de l’après-midi Modules d’interrogation MIEL++ Couplage entre ontologies Plateforme d’intégration ACWare Schéma de l’entrepôt de travail Démonstrations Conclusion


Télécharger ppt "Présentation du projet edot Revue intermédiaire - 29 Juin 2004."

Présentations similaires


Annonces Google