E.Dot – juillet 2005 Page 1 Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile Rapport Final 4 juillet.

Slides:



Advertisements
Présentations similaires
Sintaks : Tentative de guide de mise en œuvre Michel Hassenforder.
Advertisements

Possibilités de Facebook dans votre club Toastmasters Samedi, le 12 juin 2010 Michel Beaulieu
[number 1-100].
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Corese Moteur de recherche sémantique pour RDF
Classe : …………… Nom : …………………………………… Date : ………………..
1/32 Forum des utilisateurs du SISMER – Novembre 2005 Le portail NAUTILUS accès en ligne aux données et nouveau site WEB du SISMER Michèle FICHAUT Mickael.
Cours MIAGE « Architectures Orientées Services » Henry Boccon-Gibod 1 Architectures Orientées Services Composants de Service Exemple pratique de développement.
JXDVDTEK – Une DVDthèque en Java et XML
T ravail E tude R echerche COUREUX Éric DUCK Christian ZENGERLÉ Olivier COUREUX Éric DUCK Christian ZENGERLÉ Olivier EncadrantsEncadrants M. Crescenzo.
Le Modèle Logique de Données
TP 3-4 BD21.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Développement d’applications web
E.Dot – juillet 2005 Page 1 Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
Recherche d’information & Représentation des Connaissances
le profil UML en temps réel MARTE
Réalisation Gestionnaire de Stock
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
1 11 avril 2005 Toulouse Franck MERCIER Ouan-Zan ZANIFE Franck FERREIRA CLS, Direction Océanographie Spatiale Contribution de lAltimétrie Spatiale à lHydrologie.
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
MIGRATION DE DONNÉES la méthode générale
SCIENCES DE L ’INGENIEUR
Développement d’application web
Intégration ActiveXML - Xyleme
GPA789 Analyse et conception orientées objet 1 Professeur: Tony Wong, Ph.D., ing. Chapitre 6 Correspondance UML et C++
Graphe d ’interaction La réalisation du graphe d ’interaction permet d ’assurer l'uniformité des pages et de navigation qui rendent un projet plus fonctionnel.
Article présentée par : Étudiante en 2ème année mastère F.S.T. Tunisie
Notre calendrier français MARS 2014
Annexe 1 VISITE SUR
C'est pour bientôt.....
Les nombres.
Veuillez trouver ci-joint
Projet de Master première année 2007 / 2008
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
Agenda de la journée 10h00 : La place d’ASP.NET dans la plate-forme Microsoft 10h30 : Développement rapide d’applications Web en ASP.NET 12h00 : Construire.
Vers une génération automatique du mapping de sources biomédicales
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
Page 1 © Jean Elias Gagner en agilité numérique. Page 2 © Jean Elias Les fournisseurs.
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
Page 1 © Jean Elias Recherche et veille. Page 2 © Jean Elias Les fournisseurs.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Problématiques de genre en orientation Quelques indicateurs (J2)
Présentation du projet edot Revue intermédiaire - 29 Juin 2004.
E.Dot – juillet 2005 Page 1 Conclusion [ Lot 4. Validation et Évaluation ] Rapport Final 4 juillet 2005.
Organisation de l’entrepôt edot
Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
CALENDRIER-PLAYBOY 2020.
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
1. Présentation générale du système
Corporate Research Center Software Department 1/14 UAC/L/99/0292 PROJET CALIFE Réunion de lancement 2 septembre 1999 Calife.
Projet de stage d’année IIR4 sous le thème:
1 New Version Acquisition d’images Traitement d’images Interprétation clinique Chaîne de traitement Dev. logiciel creaTools 5 GDCMcreaImageIOcreaMaracasVisu.
Ressources Internet liées à la CIB
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
1 Formation à l’usage éco-performant de votre pc 1 ère Partie.
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
1 e.dot – septembre e.dot Entrepôts de Données Ouverts sur la Toile RNTL.
Edot Groupe de travail sur l’intégration. Le problème Intégration de nouvelles données avec les données existantes dans l’entrepôt Les données existantes:
19/9/03Réunion plénière E.Dot E.Dot – Épisode 2. 19/9/03Réunion plénière E.Dot Objectif: Athènes 2004 Application/démo –Interface de consultation uniforme.
Transcription de la présentation:

e.Dot – juillet 2005 Page 1 Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile Rapport Final 4 juillet 2005

e.Dot – juillet 2005 Page 2 Partenaires

e.Dot – juillet 2005 Page 3 Objectifs Générique: –Outils pour construire des entrepôts de données thématiques en découvrant des données sur le Web et en enrichissant des systèmes d’information existants par intégration automatique de ces données Particulier: –Développer un entrepôt de données XML intégrant de manière automatique des informations liées au risque de contamination des aliments, qu’elles soient issues du Web, privées ou obtenues sous licence

e.Dot – juillet 2005 Page 4 Choix faits dans e.dot XML –Format d’échange standard de données –Mariage entre documents et bases de données Services Web –Standard pour le développement modulaire d’applications distribuées (SOAP) –Description standardisée des entrées/sorties (WSDL) Web sémantique –Ontologie: description explicite et déclarative de la sémantique d’un domaine d’application approche générique fondée sur des technologies standard du Web

e.Dot – juillet 2005 Page 5 Organisation du projet Tous les partenaires ont participé à tous les sous-projets Sous projet 1 : spécification d’un entrepôt de données pour le risque de contamination des aliments Sous projet 2 : acquisition de données du Web Sous projet 3 : organisation et structuration de l’entrepôt Sous projet 4 : validation auprès des utilisateurs Durée effective 2 ans (notification Juillet-Septembre 2003)

e.Dot – juillet 2005 Page 6 Vue fonctionnelle globale Web Pdf Doc Jpeg microogan isme TOP aliment facteur Ontologie Sym’Previus Crawling Filtrage Extraction de structures (XTab) Enrichissement Sémantique (SML) Entrepôt XML Tables relationnelles Graphes Conceptuels Requête MIEL Le projet Sym’Previus MIEL++

e.Dot – juillet 2005 Page 7 Architecture générale d’e.Dot

e.Dot – juillet 2005 Page 8 Lot 2 (intermédiaire) Chaîne de traitement d’acquisition de données du web, guidée par l’ontologie du domaine –crawling du web recherche de documents potentiellement pertinents –contenant des mots-clés de l’ontologie crawler généraliste de Xyleme, Google –filtrage des documents récupérés ne garder que ceux contenant des informations utiles –données tabulaires Thesus, EdotFilter, PDFFilter –extraction des données et transformation en XML Format Xtab Any2Xtab

e.Dot – juillet 2005 Page 9 Lot 2 (final) Achèvement et validation des modules en cours –Any2Xtab, PDFFilter Extensions : –Mise en oeuvre d’une approche de crawling spécialisé : WebCrawler –Mise en œuvre d’une chaîne de traitement complète d’acquisition de données à partir de documents pdf : package AQWEB –Conversion de documents dans un format XML cible: Content Migration Platform (CMP)

e.Dot – juillet 2005 Page 10 WebCrawler Approche inspirée de l’«Intelligent Crawling» –apprentissage automatique de l’estimation de la pertinence d’une page web à partir des statistiques récoltées sur le graphe d’exploration –pertinence effective vérifiée a posteriori après le rapatriement des pages candidates choisies évaluation sur le contenu de la page d’une requête WeQuel (langage de requêtes développé pour EdotFilter) mise à jour des statistiques et de la fonction calculant l’estimation de la pertinence d’une page candidate en fonction de la pertinence de ses voisins déjà rapatriés (pères ou frères) Travail réalisé par D. Mezaour dans le cadre de sa thèse financée par une allocation de recherche du Ministère.

e.Dot – juillet 2005 Page 11 WebCrawler: validation Expérimentation sur plusieurs thématiques –e.Dot, cours d’informatique Meilleurs résultats qu’un crawler suivant une stratégie systématique –profondeur d’abord ou largeur d’abord Meilleurs résultats que Google A confirmé la rareté des documents utiles pour e.dot sous format HTML

e.Dot – juillet 2005 Page 12 Package AQWEB Crawl et filtrage de documents PDF Extraction semi-automatique de tableaux GUI pour l’interaction avec les experts Intégration de XTab2SML Stockage des documents PDF et des tableaux (XTab et SML) à l’aide de Xyleme Server Démonstration de AQWEB

e.Dot – juillet 2005 Page 13 Content Migration Platform Environnement de transformation de documents Word sous un format XML cible –générique et déclaratif –à base de règles Fichier de règles (décrit en XML) : spécifie le format cible –développé par Xyleme

e.Dot – juillet 2005 Page 14 Schéma fonctionnel de l’approche

e.Dot – juillet 2005 Page 15 Exemple

e.Dot – juillet 2005 Page 16 Lot3 : organisation et structuration de l’entrepôt Entrepôt de travail : –espace de travail persistant et partagé par tous les services d’acquisition et d’enrichissement de données –stockage des données en XML Entrepôt final : –données de l’entrepôt de travail validées et enrichies sémantiquement format SML –interrogeables via MIEL++

e.Dot – juillet 2005 Page 17 Construction de l’entrepôt de travail Rapport intermédiaire : –spécification des différents composants –à l’aide du système ACWare logiciel d’aide à la conception d’entrepôts de données XML développé en Java, génère des exécutables ActiveXML Depuis Juin 2004 : –réalisation et intégration de services web pour la construction et l’exploitation de l’entrepôt Exposés après la pause

e.Dot – juillet 2005 Page 18 Construction de l’entrepôt final Rapport intermédiaire : –première version du module XTab2SML de transformation de tableaux dans le format SML tableaux simples et en français Depuis Juin 2004 : –améliorations de XTab2SML traitement de tableaux plus complexes et en anglais –étude expérimentale –publications (EGC, 2 workshops en anglais)

e.Dot – juillet 2005 Page 19 Food PH 2 … mushroom 5.00 XTab2SML Ontology ItemspH values Cultivated mushroom5.00 Crab6.60 XTab2SML: enrichissement sémantique Items pH values 2 … Cultivated mushroom 5.00 Any2XTab  Tables in Html, Pdf or Excel Mapping operators

e.Dot – juillet 2005 Page Extraction of the attributes Finding the attributes corresponding to a column C based on the values in the cells of the column : a candidate: a term subsuming most of the values values(C)={milk, apples, pie, meat, Listeria}  matching-attribute(C) = food Based on the title of the column title(C) = "Ph values"  matching-attribute(C) = ph. Else : creation of a generic attribute «attribute»

e.Dot – juillet 2005 Page Identification of the relations Perfect matching with a relation  foodph Partial matching with a relation Missing attribute : foodFactorMicroorganism(food, Factor, Microorganism) Else : creation of a generic relation «relation» TabSch = {(c1,food), (c2, ph)} Table 1 – Growth of Listeria in food products ItemspH values Cultivated mushroom5.00 Crab6.60

e.Dot – juillet 2005 Page Identification of the values Mapping of the values with the terms of the taxonomy equality test : equality between sets of words indMap="equal" inclusion test: inclusion between sets of words indMap="inclusion" intersection : intersection between sets of words indMap="intersection" Bag of lemmatized words after deleting empty words

e.Dot – juillet 2005 Page 23 Example of semantic enrichment ArticleItemCalorie Cultivated mushroom400g230kCal foodCalorie(food,calorie) : For 100 g  number of calories Article Item Calorie 3 mushroom Cultivated mushroom 230kCal <attribute indOnto= "notFound" indCat= "notFound" indTrans="none" indProc="no" indMatch= "attribute" > 400g

e.Dot – juillet 2005 Page 24 First experiment Evaluation of the identification of the relations : -50 XTab documents (real data) Identified relations PrecisionRecall Perfect matching relations 0,610,37 Perfect matching relations and partial matching relations with constants 0,540,43 All relations 0,560,59

e.Dot – juillet 2005 Page 25 Interrogation de l’entrepôt final Intégré dans la démonstration de AQWEB

e.Dot – juillet 2005 Page 26 Module générique de création et d’interrogation de vues relationnelles sur des documents XML Spaghetti Pasta Bolognese Meat Meat Tomato sauce Vegetables......

e.Dot – juillet 2005 Page 27 Manual mappings between DTDs and the relational schema <!ATTLIST receipt idNum CDATA #REQUIRED name CDATA #REQUIRED> Mapping of the relation FoodproductMicroorganismTemperature on the DTD’s tree

e.Dot – juillet 2005 Page 28 Automatic wrapping of the relational view in Xquery let $Root := doc("archive2003.xml")/LAB_DATA for $Branching-level-AB in $Root/ANALYSIS_RECORD for $Branching-level-ABM in $Branching-level-AB/RECEIPT for $Branching-level-ABMN in $Branching-level-ABM/FOODCOMPONENT for $Branching-level-ABMQ in $Branching-level- ABM/MICROORGANISM_TRACES let $Food-COLUMN := $Branching-level-ABMN/APPELLATION/text() let $Microorganism-COLUMN := $Branching-level- let $Temperature-COLUMN := $Branching-level- return { $Food-COLUMN } { $Microorganism-COLUMN } { $Temperature-COLUMN } The view XV( FoodMicroorganismTemperature, lab-data2004.dtd ):

e.Dot – juillet 2005 Page 29 Relational querying XML data The induced relational schema –the set of relations that are mapped to DTDs –relational point of view on the XML data –presented to the user through a GUI

e.Dot – juillet 2005 Page 30 Interrogation de sources externes via MIEL++ par mise en correspondance entre ontologies –relier les termes d’une nouvelle ontologie (Com’base) avec les termes de l’ontologie du projet mappings d’équivalence ou de spécialisation –combinaison de techniques syntaxiques et sémantiques (WordNet) prototype OntoMap

e.Dot – juillet 2005 Page 31 OntoMap: évaluation

e.Dot – juillet 2005 Page 32 Introduction (45mn) : LRI Démo AQWEB-MIEL++ (30mn) : INA-PG Pause (15mn) Architecture entrepôt (30mn) : INRIA Intégration AXML-Xyleme (20mn) : Xyleme Conclusion (20mn) : INRIA Discussion (30mn) Fin de la réunion: 17h30 Planning