Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy
Notre approche Présentation de recherche prospective Aborder la notion de sémantique dun document (à des fins de manipulation de documents par leur contenu) Réinvestissment de lexistant et aller vers la généricité Rester pragmatique
Plan Situation du contexte de travail Exemple : Scan2XML Définition de la notion « Algèbre de composants » Pistes et outils pour la formalisation de la sémantique et sa manipulation
Analyse de documents : buts Rétroconversion Interprétation Recherche dinformation Aide à la navigation/consultation Appuyé sur des méthodes d'analyse du signal et des structures visuelles
Formes de document Avant : origine papier, format bitmap Maintenant : bitmap électronique, mais pauvrement structuré Documents électroniques complètement structurés lourdeur à la saisie extrêmement lié au contexte de création
Contenu de documents Propriété principale : produit par des humains pour des humains TexteGraphique Analyse linguistique Sémantique Reconnaissance de formes Matching Indexation ? ?
Conclusion Texte beaucoup de progrès (rétroconversion) hors domaine QGar frein linguistique Graphique ad hoc performant dans des cas particuliers sémantique « figée » au contexte Objectifs : Exploiter le contenu sémantique des parties graphiques et établir des liens entre le texte et le graphique
Scan2XML : cas détude Images de type « éclaté » Démarche identifier 3 types de zones : dessin - légende - index associer les zones se correspondant rendre le document navigable In fine : navigation intra- et inter-document
Exemple
Scan2XML : suite Extraction de sémantique à plusieurs niveaux : notion de zone (connecté, déconnecté) type de zone (dessin, texte, légende, index …) lien (association entre zones) sens (analyse de la légende, du graphique)
Scan2XML : analyse Preuve de faisabilité (démo) Composition de briques existantes Mise en pipeline Généralisation à la majorité des applications d'analyse de documents (toutes ?)
Algèbre de composants Préambule : syntaxe + métrique + contexte = sémantique C métr, ctxt (syntaxe) = sémantique Pipeline : C 1 (C 2 (...C n (syntaxe)))) = sémantique syntaxe = sémantique !
Algèbre de composants Domaine = données initiales + données produites Opérateurs = composants élémentaires (implémentations d'algorithmes) Sémantique = « preuve » par combinaison d'opérateurs Contexte ? Enfoui dans le composant et dans le pipeline.
Formalisation : définitions Composant : C : D D ' s | C (s) Contexte applicatif : ensemble K de tous les C disponibles Sémantique : D ' = D 1 ' D 2 ' D n ' Sémantique intrinsèque d'un document I est la fermeture de I sur K.
Sémantique intrinsèque Contraintes : ordre d'application des composants disponibilité des données Structure hiérarchisée en forme de semi- treillis (origine = document) noeuds = sémantique chemins = contexte (plusieurs chemins peuvent mener au même noeud)
Récapitulatif Sémantique bornée par les composants Géométrie variable (modularité, extensible,...) Structuration hierarchique avec expression des interdépendances (héritage ?) Pragmatique, puisque construit sur des composants opérationnels
Avantages Expression des interdépendances (automatisable) Extraction partielle du contexte Support de raisonnement inférence prédiction/vérification validation
Besoins Composants Langage d'expression des chaînes de composants (liant entre composants) Scripting ? Représentation des documents et des résultats produits SVG++ ?
Applications possibles : Inférence de connaissances pour l'aide à la navigation ou la recherche d'information Combinaison text/graphique Evaluation de fiabilité par combinaison de chaînes de composants Articulation/intégration web sémantique et outils formels de raisonnement
Défis Les paramètres : données ou contexte ? Evaluation de la validité du contexte Pertinence des données...
Questions ?