IndexationIndexation sémantique de documents XMLsémantiqueXML Haïfa ZARGAYOUNA Laboratoire LIMSI/CNRS Groupe Architectures et Modèles pour l'Interaction SemIndex & SemIR Séminaire LIR 6 Juin 2006
2 Plan Problématique SemIndex (Semantic Index) SemIR (Semantic Information Retrieval) Évaluations et Perspectives
3 Accès aux documents XML Approches Bases de données (BD) Des langages de requêtes proches des standards connus (W3C : XQuery) Traitement efficace de la structure Pas de relation d’ordre sur les résultats Connaissance de structure requise Approches Recherche d’information (RI) Possibilité de requêtes par mots clés Appariement partiel Présentation des résultats par ordre de pertinence Traitement de la structure ProblématiqueSemIndexSemIRÉvaluations et perspectives Contexte Problématique
4 Accès par la sémantique Approches formelles Annotations formelles (en Logique de Description par exemple) des documents Mécanismes d’inférence Phase d’annotation coûteuse (manuelle ou semi-automatique) Généralement pas de relation d’ordre sur les résultats Approches RI Expansion de requêtes Indexation par les concepts Réduire le bruit et le silence Risque de perte d’information (ce qui n’est pas représenté par les concepts) Contexte Problématique SemIndexSemIRÉvaluations et perspectives
5 Problématique SemIndexSemIRÉvaluations et perspectives Contexte Problématique Représentation des requêtes Besoins (requêtes par contenu et/ou la structure) Index Base Documentaire XML Ensemble de parties de documents par ordre de pertinence Spécificité Exhaustivité Ressource sémantique
6 Utilisation de ressources sémantiques Ontologie formelle Ressource terminologique (eg. WordNet) Dans le cadre de documents XML Choix des informations structurelles à indexer (Quelles balises ? Quelles relations entre elles ?) Types de requêtes : Par le contenu Par la structure et le contenu ProblématiqueSemIndexSemIRÉvaluations et perspectives Problématique Contexte Problématique
7 Plan Problématique SemIndex (Semantic Index) Prise en compte de la structure Pondération des termes Prise en compte de la sémantique Architecture globale SemIR (Semantic Information Retrieval) Évaluations et Perspectives
8 ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu SemIndex : présentation générale Représentation des documents Modèle générique Indépendante d’un schéma Documents avec des structures différentes Ressource sémantique
9... Document XML : (arbre étiqueté) = {n 0, N, A, Label, W} n 0 : noeud racine N ={ni}: ensemble fini de nœuds W : contenu textuel A N x N : ensemble fini d’arcs Label : associe à un nœud une étiquette patient id symptomes Plusieurs épisodes de précordialgie.. Angor d’effort Qui a constitué un infarctus … Les trois lésions ont pu être traités … :… symptome antecedents antecedent traitements antecedent traitement Arbre étiqueté traitement Il présentait un angor d’effort … Nous proposons la poursuite par principe… :… traitements traitement Représentation des documents ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu p1 Trois types d’éléments : Élément de structuration Élément feuille : contient texte Élément mixte : contient texte et structure Informations- patient Le patient habite dans une tour qui renferme de l’amiante age Agé de 70 ans
10 Représentation de la structure (1) Deux types de vues : Modèle d’élément (eg. ) Instance du modèle (eg. ) Contexte Structurel Tout modèle d’élément dont au moins une instance contient du texte ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu symptomes symptome antecedents antecedent patient traitements traitement traitements traitement id Arbre réduit Informations- patient age
11 Relation de spécialisation/généralisation SP(C B ) =C D Chaque contexte constitue une entrée de l’index représentée par un vecteur de termes A C D E F G B Arbre réduit Contexte structurel (2) distance ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Représentation de la structure (2)
12 [t1,t2..] [t2,t7..] [t1,t8..] [t1,t2..] [t1,t4..] [t5,t6..] Documents XML Arbres étiquetés Contextes structurels Récapitulatif [t10,t8..] [t1,t12..] t8t8 … t6t6 t 1c … ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu d1d1 d2d2 didi d1d1 didi O
13 Représentation du contenu (2) (3) (1) (2) (3)(2) (3) (1) [infarctus,angor] [infarctus,..] [infarctus, douleur] [infarctus,t13] [angor..] [infarctus, ashme] […] [ashme] […][..] […] [..] […] [angoisse] [ashme] [..] ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu
14 Pondération de termes TF-IDF (Term Frequency-Inverse Document Frequency) tf : nombre d’occurrences de i dans j N : nombre de documents dans la base df i : nombre de documents contenant i dans la base TF-IEF (Term Frequency-Inverse Element Frequency) [Wilkinson, 1994] Tf i,e : nombre d’occurrences de i dans e N 1 : nombre d’éléments e dans la base N 2 : nombre de d’éléments e contenant i dans la base ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique
15 Pondération de termes ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique (2) (3) (1) (2) (3)(2) (3) (1) [infarctus,angor] [infarctus,..] [infarctus, douleur] [infarctus,t13] [angor..] [infarctus, ashme] […] [ashme] […][..] […] [..] […] [angoisse] [ashme] [..]
16 Dimensions Élément Document Indicateurs de répartition des termes Local : par rapport à leur instance de contexte dans le document Global : par rapport à leur contexte dans la base documentaire Pondération de termes ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique
17 Pondération de termes Fréquence d’un terme Local Global ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique contexte instance
18 Pondération de termes Représentativité d’un terme : Context force Local Global ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique Ensemble d’instances ! Dimension du document
19 Pondération de termes Pouvoir discriminatoire d’un terme TF-CF : TF(t,c)*CF(t,c) Pondération au niveau du contexte structurel TF-ICDF : TF(t,d,c,n)*CF(t,c,d)*IDF(t,c,d) Pondération au niveau des instances du contexte ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique
20 Prise en compte de la sémantique Expliciter les liens entre la ressource sémantique et la base documentaire Terme concept ! Dans un même contexte structurel Modèle d’élément concept Vecteur de termes Ressource sémantique ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique Contextes structurels
21 ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique Calcul des poids sémantiques (global, local) Idée : Un terme est enrichi sémantiquement par son voisinage dans la ressource sémantique Utilisation de la limite du contexte structurel Domaine : vocabulaire du contexte Pondération sémantique Vecteur de termes Ressource sémantique Contextes structurels
22 ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique Enrichissement sémantique Pour le calcul des fréquences Fréquence enrichie par la similarité avec les termes co-occurrents dans le même contexte structurel Pour la représentativité et le pouvoir discriminatoire Calcul en fonction de l’apparition des synonymes
23 [Wu & Palmer, 1994] Sim WP (C1, C2) = Similarité sémantique ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique
24 Similarité sémantique ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique behavioral_sign Sim WP (behavioral_sign, constitutional_sign) = 2*1/(1+1+2)= 0.5 constitutional_sign subjective_sign stresssedentarity Top objective_sign Sim WP (behavioral_sign, chronic_stress) = 2*1/(2+0+2)= 0.5 chronic_stress Extrait de
25 spec(C1, C2) = N4*N1*N2. Sim HZ (C1, C2) = Adaptation de WP(1) ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique Chemin le plus long du plus petit ancêtre commun
26 Adaptation de WP(2) ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique behavioral_sign constitutional_sign subjective_sign stresssedentarity Top objective_sign Sim HZ (behavioral_sign, chronic_stress) = 2*1/(2+0+2)+(3*0*2)= 0.5 Bottom chronic_stress Sim HZ (behavioral_sign, constitutional_sign) = 2*1/(1+1+2)+(4*1*1)= 0.25
27 {t1,t2..} {t2,t7..} {t1,t8..} {t1,t2..} {t1,t4..} {t5,t6..} t1t2....tnt1t2....tn t8t8 …t6t6 t1t1 SemTF-ICDF … SemTF-ICF Documents XML Ressource sémantique Vocabulaire de la base Arbres étiquetés Contextes structurels Entrée par les termes Entrée par la structure Entrée par les concepts Architecture globale ProblématiqueSemIndexSemIRÉvaluations et perspectives Représentation de la structure Représentation du contenu Pondération des termes Pondération sémantique d1d1 d2d2 didi d1d1 didi O
28 Plan Problématique SemIndex (Semantic Index) SemIR (Semantic Information Retrieval) Langage de requêtes Requêtes orientées contenu Requêtes orientées structure et contenu Évaluations et Perspectives
29 XQuery For/Let/Where/return (+) Expressif, requêtes complexes (-) syntaxe difficile d’accès, 63% erreurs (par rapport au descriptif des requêtes) SemIR (Semantic Information Retrieval) Langage de requêtes par l’exemple Requête = document XML Syntaxe simple Langage de requêtes ProblématiqueSemIndexSemIRÉvaluations et perspectives Langage de requêtes Évaluation des requêtes
30 Syntaxe Opérateurs prédéfinis sous formes de balises ANY : chemin vague OR : disjonction AND : conjonction NOT : négation ? : élément à retourner Balises de structure ProblématiqueSemIndexSemIRÉvaluations et perspectives Langage de requêtes Évaluation des requêtes
31 Types de requêtes Requêtes par le contenu angor d’effort Requêtes par la structure Requêtes par la structure et le contenu traitement antiangineux ProblématiqueSemIndexSemIRÉvaluations et perspectives Langage de requêtes Évaluation des requêtes
32 Traitement de la requête Requête : arbre XML Transformation de la requête : remonter les opérateurs binaires. Décomposition de la requête en requêtes élémentaires et sous- requêtes élémentaires. Évaluation ProblématiqueSemIndexSemIRÉvaluations et perspectives Langage de requêtes Évaluation des requêtes
33 Exemple de transformation et décomposition A NOT AND DE BC Mots clés OR A A BC D NOT BC E Transformation Mots clés Sous-requête élémentaire Requête élémentaire Agg OR A BCD Mots clés A BC A BCE A BC Décomposition Agg Not Agg NOT ProblématiqueSemIndexSemIRÉvaluations et perspectives Langage de requêtes Évaluation des requêtes
34 Évaluation des requêtes orientées contenu Identification des contextes structurels à un niveau global (correspondance avec vecteur de contexte) filtrage pour guider la recherche au niveau des documents Calcul de correspondance au niveau des documents: Calcul des éléments à retourner Projection dans l’arbre étiqueté (éléments retournés + plus petits éléments généralisant : ppeg) ProblématiqueSemIndexSemIRÉvaluations et perspectives Langage de requêtes Évaluation des requêtes contexte instance A C D E F
35 Évaluation des requêtes orientées structure Relation d’appariement R permet de retrouver les contextes équivalents Similarité structurelle Coût de modification Correspondance des éléments entre les deux structures (Évaluer la présence ou l’absence des éléments) Coût du bruit Évaluer la sur-spécification des liens entre les éléments Coût du silence Évaluer la sous-spécification des liens entre les éléments des deux structures ProblématiqueSemIndexSemIRÉvaluations et perspectives Langage de requêtes Évaluation des requêtes
36 Évaluation des requêtes orientées structure et contenu Traitement des sous-requêtes élémentaires (contenu) {(n 1,R s-elem,p 1 ),.., (n i,R s-elem,p i )} Traitement des sous-requêtes élémentaires (Structure) p’ i = p i * SSIM (n i, R s-elem ) Traitement des requêtes élémentaires Validité structurelle pour chaque document retourné Projection dans l’arbre étiqueté : P dk Calculer la similarité structurelle Calcul des éléments à retourner : ppeg des éléments retournés ProblématiqueSemIndexSemIRÉvaluations et perspectives Langage de requêtes Évaluation des requêtes
37 Évaluation des opérateurs booléens Agrégation des scores de pertinence en fonction des opérateurs Élément à retourner si non spécifié : le plus petit élément généralisant Opérateur And Opérateur Or Opérateur Not Agg AND p1+p2 Agg OR Max(p1,p2) Agg NOT P1 si pas de relation de spécialisation P1-|P2-P1| sinon ProblématiqueSemIndexSemIRÉvaluations et perspectives Langage de requêtes Évaluation des requêtes
38 Plan Problématique SemIndex (Semantic Index) SemIR (Semantic Information Retrieval) Évaluations et Perspectives Contributions Évaluation de la mesure de similarité Test sur corpus Perspectives
39 Mesures de pondération Similarité structurelle Politique d’agrégation et de propagation Mesures de pondération sémantique Mesure de similarité sémantique Résolution du problème de « non correspondance » Algorithme de désambiguïsation Contributions ProblématiqueSemIndexSemIRÉvaluations et perspectives Contributions Évaluations Perspectives
40 Évaluation de la mesure de similarité Étude de corrélation avec des jugements humains Expérimentations de [Finkelstein & Gabrilovitch 2002] : 353 paires de mots, 16 sujets Étude sur la proximité sémantique (eg. Jerusalem-Israel ; Freud-psychology ; Arafat- terror) Corrélation HZWu & Palmer Resnik ProblématiqueSemIndexSemIRÉvaluations et perspectives Contributions Évaluations Perspectives
41 Test sur corpus Corpus CACM (3204 documents) ; WordNet 63 requêtes par mots clés 42.91%42.22%57.49%Title 54.11%46.61%60.4%KeyWord 53.16%40.27%56%Abstract Terme-synsetTermes ambigus Terme- synsets Contexte ProblématiqueSemIndexSemIRÉvaluations et perspectives Contributions Évaluations Perspectives
42 Expérimentations sur corpus Test1 : indexation sans sémantique Test2 : indexation et interrogation sémantique Test3 : interrogation sans sémantique ProblématiqueSemIndexSemIRÉvaluations et perspectives Contributions Évaluations Perspectives
43 Perspectives INEX : documents provenant de 21 revues IEEE Computer Society Trois tâches de requêtes (CO, SCAS, VCAS) Guides de Bonne Pratique Médicale (Projet U. Paris Nord) Construction d’une ontologie formelle Requêtes posées par les médecins ProblématiqueSemIndexSemIRÉvaluations et perspectives Contributions Évaluations Perspectives
44 Perspectives ProblématiqueSemIndexSemIRÉvaluations et perspectives Termes composés concepts complexes (angor d’effort) Structuration de documents Cartographie : Utilisation de la similarité sémantique Utilisation du TAL pour générer des requêtes structurées ( sujet de DEA, participation NLPX INEX'2006 ) Contributions Évaluations Perspectives
Séminaire LIRSoutenance de thèse45 Merci !
46 Objectif : satisfaire le besoin en information d’un utilisateur Architecture d’un Système de Recherche d’Information Représentation des requêtes Besoins (requêtes par mots clés) Index Base Documentaire Indexation Ensemble de documents Indexation D i = (w 1, …, w n ) Q j = (q 1, …, q m ) d1d1 d2d2 Q1Q1 Produit scalaire cosinus Modèle vectoriel [Salton, 89] par ordre de pertinence
47 Sémantique Terme concept Balise concept Réduire : Silence : Synonymie Bruit : Polysémie Le Web sémantique repose sur la capacité de XML à définir des balises "personnalisées" et OWL pour décrire formellement la signification de la terminologie employée dans les documents Web. L'intérêt de l'utilisation de l'ontologie en Recherche d'information a redoublé avec le Web sémantique. Nous nous inscrivons dans cette optique en défendant la thèse qu'une description (formelle) fine des documents est coûteuse et qu'il serait utile d'avoir une représentation intermédiaire (entre texte et ontologie) pour retrouver les informations pertinentes. Dans cette thèse, nous proposons une structure d'index qui permet des requêtes structurées ainsi que des requêtes par simple mots-clés et une présentation des résultats par ordre de pertinence. Pour cela, nous avons étendu le modèle vectoriel de Salton pour une vue bi-dimensionnelle du document. Les poids des termes indexés sont calculés en adaptant le calcul du TF-IDF (Term Frequency-Inverse Document Frequency). Par ailleurs, nous proposons d'utiliser une ontologie reliée aux termes de la base documentaire (ou corpus) pour modéliser la notion de voisinage sémantique à l'aide d'un calcul de similarité entre termes. Le poids des termes reliés est augmenté par son voisinage sémantique (les termes qui apparaissent dans le même contexte et qui sont reliés sémantiquement). Nous avons pour cela adapté la mesure de Wu&Palmer. Cette indexation permet donc une recherche contextuelle (par la structure) et sémantique (par l'ontologie). L'originalité de notre approche est de calculer la similarité lors de la phase d'indexation et d'indexer aussi les termes qui ne sont pas reliés à l'ontologie. Notre méthode de recherche sémantique peut décider du degré de granularité de l'élément pertinent à retourner, s'il n'est pas spécifié par l'utilisateur. Elle permet également de retrouver des documents même si les termes de la requêtes n'apparaissent pas dans le corpus. Base documentaire Ressource sémantique …
48 Documents XML Structure Document Texte pur (exemple compte rendu d’hospitalisation) Document semi-structuré Degré de granularité : fragment de document Patient âgé de 70 ans qui a constitué un infarctus ambulatoire. Il présentait un angor d’effort.. Les trois lésions ont pu être traitées avec un petit trait de dissection localisé....angor d’effort avec plusieurs épisodes De précordialgies de repos.. Nous proposons la poursuite par principe, d’un traitement antiangineux et la réalisation d’une épreuve d’effort dans un mois est souhaitable. - Patient âgé de 70 ans - qui a constitué un infarctus ambulatoire. Il présentait un angor d’effort.. - Les trois lésions ont pu être traitées avec un petit trait de dissection localisé angor d’effort avec plusieurs épisodes de précordialgies de repos.. - Nous proposons la poursuite par principe, d’un traitement antiangineux et la réalisation d’une épreuve d’effort dans un mois est souhaitable.
49 Ambiguïté sémantique Comment traiter l’ambiguïté sémantique ? Hypothèse : un terme a un seul sens pour un contexte structurel donné. Comment intégrer la sémantique dans la représentation des documents ? Hypothèse : une ontologie risque de ne pas couvrir la totalité du vocabulaire
50 Utilisation de la limite du contexte structurel Domaine : vocabulaire du contexte Utilisation de la co-occurrence Représentation distributionnelle et co- fréquentielle Calcul de similarité entre termes Désambiguïsation sémantique