Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen
Entrepôt e.dot : Architecture Services edot Interface edot Miel++ ActiveXML ACWare BD Xyleme CG Entrepôt edot Revue E.Dot 29/6/2004
Entrepôt e.dot Entrepôt de travail Entrepôt final Échange de données entre les services Stockage des résultats intermédiaires (validation) Schéma « orienté-services » Entrepôt final Interrogation par MIEL++ Schéma « orienté-domaine » Revue E.Dot 29/6/2004
Entrepôt de travail Toutes les données (paramètres, fichiers etc…) utilisées et générées par les services edot sont stockées dans un entrepôt Le déclenchement des services (workflow) est implicite et contrôlé par l’entrepôt Revue E.Dot 29/6/2004
Organisation de l’entrepôt : Modèle ACWare Modélisation des données : Types de données : types simples + constructeurs de types complexes (n-uplet, collection) + clés Schéma : organisation des données Modélisation des services : Règles de mise-en-correspondance : Schéma entrées/sorties de services Web Modèle : Xquery (extraction) + Xupdate (MAJ) Revue E.Dot 29/6/2004
Entrepôt de travail : Contenu et Structure Globale E.Dot Initialisation : Parmètres d’initialisation du crawler Ontologie Un ensemble de pages web Un ensemble de documents PDF Un ensemble de documents Excel Pour chaque document/page: Les résultats des traitements appliqués (services edot) Initialisation ExcelDoc PageWeb Présentation top down… PDFDoc Revue E.Dot 29/6/2004
Initialisation E.Dot Initialisation Version Crawl Ontologie String MaxNum MaxDur Souscriptions UrlsIncl UrlsExclus Revue E.Dot 29/6/2004
Ontologie edot Initialisation Ontologie SymPrevius Combase Merge infos schemaRel synonymes taxonomie traduction Revue E.Dot 29/6/2004
Pages web Les documents (pdf, excel) et le pages web sont les unités centrales de l’entrepôt auxquelles on applique des traitements Chaque document/page est identifié par une URL (clé) Les résultats des traitements sont stockés « avec » le document/la page E.Dot PageWeb URL Acqu SML Xtab String Revue E.Dot 29/6/2004
Phase Acquisition Xyleme Crawler : E.Dot Filter : Thesus : PageWeb Xyleme Crawler : Fonction : crawl exhaustive et filtrage brut (monitor) Résultat : {(URL, mots clés)} E.Dot Filter : Fonction : crawl + filtrage intelligent Résultat : {(URL, contenu, score) Thesus : Fonction : classement Acqu Date String Thesus Crawl Filter Revue E.Dot 29/6/2004
Crawl Xquery/Xupdate Crawl Souscription Date Id String String Int <crawl> <crawldate> xs:date </crawldate> [1] <notification> [0..*] <url> xs:string </url> [1] <subscription> xs:string </subscription> [1] <monitoring> </monitoring> [1] </notification> </crawl> Crawl Souscription Date Id String String Int Revue E.Dot 29/6/2004
Thesus Initialisation : Activate = true Le service Thesus et lancé périodiquement avec le résultat d’une requête XQuery qui retourne les URLs des pages avec Activate = true Les résultats obtenus sont stockés dans l’entrepôt avec la page traitée et Activate := false Thesus Keywords Date 17/6/04 false aliment ph Activate true Revue E.Dot 29/6/2004
EdotFilter <Filter> <Activate:$> <RequeteFilter:$/> <Type:$/> <Score:Int/> <TexteNettoye:$/> <ContenuBrut:$/> </Filter> Filter Activate Contenu Texte Date Requête Boolean Score Type Revue E.Dot 29/6/2004
Schéma : ExcelDoc et pdfDoc <URI:$/> <Contenu:$/> <MetaPdf:*/> <pdf2Xtab:*/> <sml:*/> </pdfDoc> <ExcelDoc> <URI:$/> <Contenu:$/> <Excel2Xtab:*/> <sml:*/> </ExcelDoc> Revue E.Dot 29/6/2004
Implantation de l’entrepôt Le schéma ACWare est traduite en application ActiveXML : Ensemble de documents XML intensionnels accessibles à travers des requêtes XQuery publiées sous forme de services Web Limitations actuelles : Gestion de grands volumes de documents/données Outils d’exploration et de validation de l’entrepôt Revue E.Dot 29/6/2004
État d’avancement Travail accompli : Travail en cours: Définition des signatures WSDL des services edot Définition du schéma ACWare de l’entrepôt de travail Travail en cours: Intégration des services edot (requêtes entrées/sorties) dans le schéma ACWare Interface graphique de conception et de pilotage interactif (pour la validation) Intégration ActiveXML/Xylème Zone Server Revue E.Dot 29/6/2004