La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

MSDM : un modèle générique pour les documents multi-structurés Noureddine CHATTI Sylvie CALABRETTO Jean-Marie PINON LIRIS-INSA.

Présentations similaires


Présentation au sujet: "MSDM : un modèle générique pour les documents multi-structurés Noureddine CHATTI Sylvie CALABRETTO Jean-Marie PINON LIRIS-INSA."— Transcription de la présentation:

1 MSDM : un modèle générique pour les documents multi-structurés Noureddine CHATTI Sylvie CALABRETTO Jean-Marie PINON LIRIS-INSA de Lyon LIRIS-INSA de Lyon, Bâtiment Blaise pascal, 7 avenue Jean Capelle, Villeurbanne Cedex

2 Sommaire La problématique État de lart Le modèle de documents multi-structurés MSDM Le formalisme MultiX Interrogation des documents MultiX Conclusion Perspectives

3 La problématique Document Présentation Recherche par le contenu Consultation Structure Physique Structure Logique Structure Sémantique Comment gérer simultanément plusieurs structures dun document ?

4 La problématique : Exemple des textes réglementaires de la CAF (1) Une structure logique pour laffichage du document … Toute personne physique remplissant les conditions ci-après: Pas de condition. Pour les étrangers (Cf. suivi Législatif CGOD ). Pas de condition. … … Toute personne physique remplissant les conditions ci-après: Pas de condition. Pour les étrangers (Cf. suivi Législatif CGOD ). Pas de condition. … Structure logique

5 La problématique : Exemple des textes réglementaires de la CAF (2) Une structure sémantique pour faire des inférences …. … Toute personne physique remplissant les conditions ci-après : 2.1 Nationalité Pas de condition. Pour les étrangers (Cf. suivi législatif CGOD). 2.2 Activité professionnelle Pas de condition. … … …. … Toute personne physique remplissant les conditions ci-après : 2.1 Nationalité Pas de condition. Pour les étrangers (Cf. suivi législatif CGOD). 2.2 Activité professionnelle Pas de condition. … … Structure sémantique

6 La problématique : Exemple des textes réglementaires de la CAF (3) Chaque structure est encodée séparément au format XML Inconvénients : Redondance au niveau du contenu Difficulté de mise à jour Risque dincohérence entre les contenus des structures

7 État de lart Option CONCUR de SGML (plusieurs DTDs pour un même document) [ISO 86] TEI (Recommandations pour lencodage dhiérarchies multiples en XML) [TEI 02] Des syntaxes spécifiques : MECS, TexMECS, LMNL, … Utilisation de RDF grâce à son modèle de graphe [Tummarello 05] Le modèle de graphe GODDAG [SPE 00] [DEK 05] Matérialisation via une structure DOM Extension de XPath pour laccès aux nœuds des différents structures

8 Le modèle de documents multi-structurés : MSDM Un document multi-structuré est défini par: Un ensemble de structures documentaires (SD) Ce sont les structures dusages du document Une structure de Base (SB) : Organisation du contenu en vue de son partage par les structures documentaires Décomposition du contenu en fragments disjoints Un ensemble de relations de correspondances entre les structures

9 Le modèle de documents multi-structurés : MSDM (Les correspondances) Deux types de correspondances SD SB : correspondance entre une structure documentaire et la structure de base Permet dassocier un contenu à un élément dune structure documentaire SD SD : correspondances entre deux structures documentaires Permet dexpliciter des relations particulières entres les structures documentaires Exemple : synonymie entre les labels de deux éléments de deux structures différentes

10 Le modèle de documents multi-structurés : MSDM (illustration) SB … "a""a" "a""a" b"b" b"b" c"c" c"c" Compositions Fragments Structure de base … Structure documentaire … … … … … Correspondance SD SD Correspondance SD SB "ab" "bc"

11 Le formalisme MultiX Une application XML Un document MultiX est un document XML bien formé Basé sur le modèle MSDM Objectifs : Matérialisation des relations entre les structures Éviter la redondance du contenu

12 Le formalisme MultiX Structure générale dun document MultiX

13 hu þu me hæfst afrefredne æg þer ge mid þinre smealican spræ ce, ge mid þinre wynsumnesse þines hu þu me hæfst afrefredne æg þer ge mid þinre smealican spræ ce, ge mid þinre wynsumnesse þines Le formalisme MultiX Exemple de document multi-structuré Un fragment dun manuscrit ancien 3 lignes Deux mots coupés Des caractères endommagés Plusieurs niveaux de structuration

14 Le formalisme MultiX Exemple de document multi-structuré Structure physique des lignes hu þu me hæfst afrefredne æg þer ge mid þinre smealican spræ ce, ge mid þinre wynsumnesse þines

15 Le formalisme MultiX Exemple de document multi-structuré Structure lexicale hu þu me hæfst afrefredne ægþer ge mid þinre smealican spræce ge mid þinre wynsumnesse þines

16 Le formalisme MultiX Exemple de document multi-structuré Structure des caractères endommagés þu m er mid æ g þ re e s

17 Le formalisme MultiX Exemple de document multi-structuré Structure des régions textuelles

18 Le formalisme MultiX Exemple de document multi-structuré Schéma global du document multi-structuré Structure physique Structure lexicale Structure des caractères endommagées Structure des régions textuelles Structure de Base Localisation des mots sur deux lignes Localisation des lignes Transcription Localisation des caractères endommagés

19 Le formalisme MultiX La structure de base Deux parties : Un ensemble de fragments de contenu disjoints (le plus petit ensemble de fragments recouvrants les PCDATAs des structures documentaires) Balise msd:fragments Des compositions de contenu (les PCDATAs) à partir des fragments disjoints Balise msd:compositions

20 Le formalisme MultiX La structure de base (lexemple du document ancien) Lensemble des fragments disjoints hu þu m e hæfst afrefredne æg þ er ge mid þinre smealican spr æ ce g e mid þ in re wynsumnesse þin e s

21 Le formalisme MultiX La structure de base (les compositions) Rôle : Reconstruire les PCDATAs fragmentés à partir de lensemble des fragments disjoints Concaténation des fragments textuels en gérant linsertion des espaces blancs Exemple : … … Permet de reconstruire la chaîne de caractères "hu þu me hæfst afrefredne æg"

22 Le formalisme MultiX La structure de base (les compositions) Gestion de linsertion des espaces blancs par un codage spécifique (valeur de lattribut idrefs ) La valeur de idrefs est une séquence didentificateurs de fragments séparés par : Un espace concaténation avec insertion dun espace au milieu idrefs="F1 F2" permet de composer la chaîne "hu þu " Le caractère "=" concaténation classique (sans insertion despèce blanc) idrefs="F3=F4" permet de composer la chaîne "me "

23 Le formalisme MultiX La structure de base (les compositions) On utilise le symbole "%" pour insérer un espace blanc au début ou/et à la fin dune composition Exemple : Reconstitution du contenu de lélément line suivant : ce, ge mid þinre wynsumnesse þines Si le caractère "," nest pas géré dans SB deux compositions sont nécessaires : Chaîne référencée : "ce" Chaîne référencée : " ge mid þinre wynsumnesse þines" Espace blanc

24 Structures documentaires et relations de correspondance – Les correspondances SD SB Origine de la correspondance : lemplacement dans une SD du contenu fragmenté Cible de la correspondance : une composition dans SB Deux formes : Interne : définition à lorigine de la correspondance Externe : à lextérieur de la structure documentaire source Localisation de lorigine de la correspondance par linsertion dun ancre (élément msd:anchor) Définition de la correspondance à lintérieur de lélément msd:correspondences …

25 Structures documentaires et relations de correspondance – Les correspondances SD SD Même syntaxe que les correspondances SDSB mais pas la même sémantique Origine de la correspondance : un élément dune SD Cible de la correspondance : un élément dune autre SD Deux formes : Interne et Externe

26 Structures documentaires et relations de correspondance – Les correspondances SD SD Exemple : Localisation des sources/cibles par des ancres Définition des correspondances : matérialisation de la relation localisation des lignes sur limage du manuscrit

27 Interrogation des documents multi-structurés Des besoins dinterrogation spécifiques Exploration des relations entre les structures Exemple de requête : Trouver tous les mots qui sont coupés en fin de ligne Nécessité dun langage dinterrogation adapté aux documents MultiX Extension de XQuery (bibliothèque de fonctions pour les documents MultiX)

28 Interrogation des documents multi-structurés Extension de XQuery Q1 : Trouver tous les mots endommagés, c'est-à-dire composés seulement de caractères endommagés En XQuery : let $doc := doc("manuscript.xml") for $w in = "words"]//w, $d in = "damaged"]//dmg where multix:include-fragments-of($w, $d) and multix:include- fragments-of($d, $w) return multix:rebuild($w) Résultat : mid hu þu me hæfst afrefredne æg þer ge mid þinre smealican spræ ce, ge mid þinre wynsumnesse þines hu þu me hæfst afrefredne æg þer ge mid þinre smealican spræ ce, ge mid þinre wynsumnesse þines

29 Interrogation des documents multi-structurés Extension de XQuery Q2 : Trouver tous les mots qui sont coupés en fin de ligne dans le texte original En XQuery : let $doc := doc("manuscript.xml") for $l in = "lines"]//line, $w in = "words"]//w where multix:share-fragments($l, $w) and not(multix:include-content- of($l, $w)) return multix:rebuild($w) Résultat : ægþer spræce hu þu me hæfst afrefredne æg þer ge mid þinre smealican spræ ce, ge mid þinre wynsumnesse þines hu þu me hæfst afrefredne æg þer ge mid þinre smealican spræ ce, ge mid þinre wynsumnesse þines

30 Interrogation des documents multi-structurés Extension de XQuery Q3 : Trouver les mots qui contiennent des caractères restaurés. Indiquer pour chaque mot trouvé les caractères restaurés quil contient et la localisation de la ligne contenant ce mot sur limage du manuscrit. En XQuery : let $doc := doc("manuscript.xml") for $w in = "words"]//w, $r in = "damaged"]//res where multix:share-fragments($r, $w) return {multix:rebuild($w), {multix:get-shared-fragments($r, $w)}, multix:rebuild(multix:get-linked-from($doc//$r, "localisation"))} hu þu me hæfst afrefredne æg þer ge mid þinre smealican spræ ce, ge mid þinre wynsumnesse þines hu þu me hæfst afrefredne æg þer ge mid þinre smealican spræ ce, ge mid þinre wynsumnesse þines

31 Résultat de Q3 : þu me m þines s

32 Conclusion Avantages Un formalisme basé sur le modèle générique MSDM Une syntaxe XML (simplicité et portabilité) Élimination de la redondance du contenu (structure de base) Les squelettes des structures documentaires ne changent pas La localisation par ancre permet de faciliter la gestion de lévolution des documents multi-structurés Corrélation entre les différentes structures grâce aux relations de correspondance Interrogation plus efficace au moyen dun langage adapté Inconvénients Les documents MultiX sont difficiles à créer manuellement Un processus totalement automatisé est également très difficile à mettre au point Nécessite un important effort de programmation pour parser les documents MultiX

33 Perspectives Amélioration du parseur MXP (Multi-XML Parser) pour faciliter la création des documents MultiX à partir de fichiers XML existants Compléter la bibliothèque de fonctions XQuery Création dun parseur permettant danalyser les documents MultiX Intégration de tous les outils dans un environnement de gestion de documents multi-structurés


Télécharger ppt "MSDM : un modèle générique pour les documents multi-structurés Noureddine CHATTI Sylvie CALABRETTO Jean-Marie PINON LIRIS-INSA."

Présentations similaires


Annonces Google