La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Organisation de l’entrepôt edot

Présentations similaires


Présentation au sujet: "Organisation de l’entrepôt edot"— Transcription de la présentation:

1 Organisation de l’entrepôt edot
Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen

2 Entrepôt e.dot : Architecture
Services edot Interface edot Miel++ ActiveXML ACWare BD Xyleme CG Entrepôt edot Revue E.Dot 29/6/2004

3 Entrepôt e.dot Entrepôt de travail Entrepôt final
Échange de données entre les services Stockage des résultats intermédiaires (validation)  Schéma « orienté-services » Entrepôt final Interrogation par MIEL++  Schéma « orienté-domaine » Revue E.Dot 29/6/2004

4 Entrepôt de travail Toutes les données (paramètres, fichiers etc…) utilisées et générées par les services edot sont stockées dans un entrepôt Le déclenchement des services (workflow) est implicite et contrôlé par l’entrepôt Revue E.Dot 29/6/2004

5 Organisation de l’entrepôt : Modèle ACWare
Modélisation des données : Types de données : types simples + constructeurs de types complexes (n-uplet, collection) + clés Schéma : organisation des données Modélisation des services : Règles de mise-en-correspondance : Schéma  entrées/sorties de services Web Modèle : Xquery (extraction) + Xupdate (MAJ) Revue E.Dot 29/6/2004

6 Entrepôt de travail : Contenu et Structure Globale
E.Dot Initialisation : Parmètres d’initialisation du crawler Ontologie Un ensemble de pages web Un ensemble de documents PDF Un ensemble de documents Excel Pour chaque document/page: Les résultats des traitements appliqués (services edot) Initialisation ExcelDoc PageWeb Présentation top down… PDFDoc Revue E.Dot 29/6/2004

7 Initialisation E.Dot Initialisation Version Crawl Ontologie String
MaxNum MaxDur Souscriptions UrlsIncl UrlsExclus Revue E.Dot 29/6/2004

8 Ontologie edot Initialisation Ontologie SymPrevius Combase Merge infos
schemaRel synonymes taxonomie traduction Revue E.Dot 29/6/2004

9 Pages web Les documents (pdf, excel) et le pages web sont les unités centrales de l’entrepôt auxquelles on applique des traitements Chaque document/page est identifié par une URL (clé) Les résultats des traitements sont stockés « avec » le document/la page E.Dot PageWeb URL Acqu SML Xtab String Revue E.Dot 29/6/2004

10 Phase Acquisition Xyleme Crawler : E.Dot Filter : Thesus :
PageWeb Xyleme Crawler : Fonction : crawl exhaustive et filtrage brut (monitor) Résultat : {(URL, mots clés)} E.Dot Filter : Fonction : crawl + filtrage intelligent Résultat : {(URL, contenu, score) Thesus : Fonction : classement Acqu Date String Thesus Crawl Filter Revue E.Dot 29/6/2004

11 Crawl Xquery/Xupdate Crawl Souscription Date Id String String Int
<crawl> <crawldate> xs:date </crawldate> [1] <notification> [0..*] <url> xs:string </url> [1] <subscription> xs:string </subscription> [1] <monitoring> </monitoring> [1] </notification> </crawl> Crawl Souscription Date Id String String Int Revue E.Dot 29/6/2004

12 Thesus Initialisation : Activate = true
Le service Thesus et lancé périodiquement avec le résultat d’une requête XQuery qui retourne les URLs des pages avec Activate = true Les résultats obtenus sont stockés dans l’entrepôt avec la page traitée et Activate := false Thesus Keywords Date 17/6/04 false aliment ph Activate true Revue E.Dot 29/6/2004

13 EdotFilter <Filter> <Activate:$> <RequeteFilter:$/>
<Type:$/> <Score:Int/> <TexteNettoye:$/> <ContenuBrut:$/> </Filter> Filter Activate Contenu Texte Date Requête Boolean Score Type Revue E.Dot 29/6/2004

14 Schéma : ExcelDoc et pdfDoc
<URI:$/> <Contenu:$/> <MetaPdf:*/> <pdf2Xtab:*/> <sml:*/> </pdfDoc> <ExcelDoc> <URI:$/> <Contenu:$/> <Excel2Xtab:*/> <sml:*/> </ExcelDoc> Revue E.Dot 29/6/2004

15 Implantation de l’entrepôt
Le schéma ACWare est traduite en application ActiveXML : Ensemble de documents XML intensionnels accessibles à travers des requêtes XQuery publiées sous forme de services Web Limitations actuelles : Gestion de grands volumes de documents/données Outils d’exploration et de validation de l’entrepôt Revue E.Dot 29/6/2004

16 État d’avancement Travail accompli : Travail en cours:
Définition des signatures WSDL des services edot Définition du schéma ACWare de l’entrepôt de travail Travail en cours: Intégration des services edot (requêtes entrées/sorties) dans le schéma ACWare Interface graphique de conception et de pilotage interactif (pour la validation) Intégration ActiveXML/Xylème Zone Server Revue E.Dot 29/6/2004


Télécharger ppt "Organisation de l’entrepôt edot"

Présentations similaires


Annonces Google