JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information et Représentations
● Recherche d'information classique : ● Ex : ''loutre de mer'' mange ● Problèmes : ● Comment tenir compte... ●... de la proximité des termes ●... des types de liens syntaxiques (ex : sujet-verbe) ●... des variations sémantiques (ex: synonymes) ● Réduire le temps nécessaire pour fouiller les documents rapportés.
Questions-Réponses Une surcouche langagière aux moteurs de recherche classiques filtrages analyse question requête Moteur de Recherche documents Critères de filtrage (ex : type de question type de la réponse) réponse Recherche d'information classique –Traitement d'informations linguistiques (verbe principal, focus de la question,liens syntaxiques, type de question, type attendu de la réponse) –Utilisation de ressources sémantiques successifs
Utiliser des Connaissances Sémantiques dans QR Deux buts : Améliorer le classement des documents dans les systèmes de Q-R Disposer d’un cadre permettant d’évaluer –les ressources sémantiques –Les systèmes d'acquisition de ces ressources
Utilisation de ressources sémantiques –Expansion de la requête. rapporter plus de documents : –Retrouver les variantes des termes de la question dans les documents rapportés. Question : Que mangent les loutres de mer ? Requête : manger ET loutre ET mer Requête étendue : (manger OU aliment OU nourriture OU se nourrir) ET loutre ET mer Question : What company makes the Bentley cars ? Réponse : Volkswagen A.G. The famous car maker, now owns the Bentley line.
Types de Ressources Sémantiques Variantes dans une catégorie grammaticale (Synonymie, hypéronymie/hyponymie, holonymie/méronymie) – Dictionnaires de synomymes – WordNet, EuroWordNet (exemple : score -> achieve -> succeed) Variations inter-catégorielles – Ressource théorique : lexique génératif de Pustejovsky patient soigner / chat miauler – EuroWordNEt : relations telles que hasRole(médecin,soigner) prévues mais non encore constituées. – morphologie. ex : construire constructeur – Besoin d'acquisition automatique (V. Claveau, O Ferret)
Bruit & Syntaxe ● L'utilisation de variantes engendre du bruit : Ambiguïté des termes de la question ● Reformulations potentiellement inadaptées. ● Il est donc nécessaire : D'estimer la fiabilité des reformulations effectuées. (corpus de questions réponses) D'imposer des contraintes fortes pour le filtrage des documents (critères de similitude syntaxique)
Travail réalisé Construction d'un corpus de questions réponses. (effectué) Ecriture d'une chaine d'apprentissage de mesures de proximité sémantique Test d'une mesure sémantique calculée dans le système de questions (Pas d'amélioration) Prise en compte des contraintes syntaxiques (Travail courant)
C'est Fini Questions?
Etapes Constitution automatique d’un corpus (stage de DEA) Apprentissage sur ce corpus d’une mesure de proximité sémantique (fin DEA + Thèse ) Insertion de la mesure dans la chaîne de QR (en ce moment, article à écrire ;-) Utilisation d’autres ressources (UTSA) Amélioration des Ressources. Constitutions de ressources nouvelles. Travail Futur :
Apprentissage d'heuristiques En Pratique et en Images ?R Docs TREC
En Pratique et en Images ?R Docs requête R analyse Sélection de passages mesures de prox. sémantique TREC
En Pratique et en Images ?R Docs requête R analyse Sélection de passages mesures de prox. sémantique =?=? SCORESCORE TREC
En Pratique et en Images ?R Docs requête R analyse Sélection de passages mesures de prox. sémantique =?=? SCORESCORE Ressourc e Sémantiq ue (ex : WN UTSAs) TREC
En Pratique et en Images ?R Docs requête R analyse Sélection de passages mesures de prox. sémantique =?=? SCORESCORE Corpus Q-R Docs pertinents Et non pertinents Ressourc e Sémantiq ue (ex : WN UTSAs) TREC
En Pratique et en Images ?R Docs requête R analyse Sélection de passages mesures de prox. sémantique =?=? SCORESCORE Corpus Q-R Docs pertinents Et non pertinents Ressourc e Sémantiq ue (ex : WN UTSAs) Apprentissage supervisé Mesure de prox. sémantique TREC
En Pratique et en Images ?R Docs requête R analyse Sélection de passages mesures de prox. sémantique =?=? SCORESCORE Corpus Q-R Docs pertinents Et non pertinents Ressourc e Sémantiq ue (ex : WN UTSAs) Apprentissage supervisé Mesure de prox. sémantique TREC
En Pratique et en Images ?R Docs requête R analyse Sélection de passages mesures de prox. sémantique =?=? SCORESCORE Corpus Q-R Docs pertinents Et non pertinents Ressourc e Sémantiq ue (ex : WN UTSAs) Apprentissage supervisé Mesure de prox. sémantique TREC
Points à régler manuellement ?R Docs requête R analyse Sélection de passages mesures de prox. sémantique =?=? SCORESCORE Corpus Q-R Docs pertinents Et non pertinents Ressourc e Sémantiq ue (ex : WN UTSAs) Apprentissage supervisé Mesure de prox. sémantique TREC