QA-TREC11 – 2002 Tâche Question-Réponse de la conférence d’évaluation des systèmes de recherche d’information Martine Hurault-Plantet. 25/03/03
TREC (Text REtrieval Conference) Première conférence : 1992 Contenu : évaluation sur une grande échelle des méthodes de recherche d ’information Buts : amélioration de l ’état de l ’art transfert de technologie vers l’industrie mise en place et disponibilité de méthodes d ’évaluation Soutiens : NIST et DARPA National Institute of Standards and Technology Defense Advanced Research Projects Agency
But de l’évaluation 2002 de la tâche QA Améliorer la technologie QA en se focalisant sur : La réponse exacte Présenter la réponse exacte et non un morceau de texte comportant la réponse suppose de savoir délimiter la réponse dans le texte La fiabilité de la réponse Une seule réponse par question Classement des questions dans l’ordre décroissant de confiance dans la réponse trouvée par le système But : le système doit être capable de savoir si la réponse trouvée est correcte ou non
Description de la tâche Corpus : environ 1million d’articles de journaux AP newswire ( ) New York Times newswire ( ) Xinhua News Agency ( ) Questions : 500 venant de logs de MSNSearch AskJeeves Domaine ouvert Ex: In what country did the game of croquet originate? What year was Alaska purchased?
Evaluation des réponses Juges humains 4 niveaux d’évaluation W : Réponse fausse : la chaîne de caractères ne contient pas la réponse U : Réponse non justifiée : la chaîne de caractères est la réponse mais le document ne justifie pas cette réponse X : Réponse inexacte : la chaîne de caractères contient la réponse et le document la justifie mais il y a des éléments en trop ou en moins R : Réponse correcte : la chaîne de caractères est exactement la réponse
Désaccords entre les jugements Ex : Who is Tom Cruise married to? Réponse : Nicole Kidman Réponse correcte Réponse : Kidman Correcte ou inexacte ? Réponse : actress Nicole Kidman Correcte ou inexacte ?
Disparités dans les jugements (11,8%) Jugement% % RRX22,2WXX4,6 RXX10,7RUU4,6 WWR9,2WUU4,3 WRR8,9RUX1,9 WWU8,0WUX1,8 WWX7,5WRU1,7 RRU7,5UUX1,2 WRX4,9UXX1,1
Evaluation d’un run de 500 questions Le score ne tient compte que des réponses jugées correctes Calcul du score : Score de la i ème question : S i = (nombre de réponses correctes dans les i premiers rangs) / i Score du run des 500 questions : (Σ S i ) / 500
Les participants 34 équipes participantes Principalement des universités et centres de recherches publics, quelques entreprises privées (6) Plus d’une dizaine de pays différents Scores de 0,856 à 0,049 Écart entre le premier et le 5ième : 0,268 Écart entre le 5ième et le 10ième : 0,016 Les écarts sont ensuite plus réguliers, de 0,017 entre 2 participants en moyenne
Les techniques Les anciennes, communes à tous les systèmes : Typage de la question (par le type attendu de la réponse) Pré-sélection de documents ou paragraphes par un moteur de recherche Utilisation de WordNet Utilisation de variantes Les plus récentes : Utilisation de plusieurs corpus de données structurées et non structurées Reformulation de la question Validation de la réponse par redondance Système QA multi-agent
HUMLOCNUMTIMEOBJDES PERSONPLANETCOUNTYEARCURRENCYABB ORGCITYPRICEMONTHMUSICMEANING BASICCONTINENTPERCENTDAYANIMALMANNER COUNTRYDISTANCEBASICPLANTREASON COUNTYWEIGHTBREEDBASIC STATEDEGREECOLOR PROVINCEAGERELIGION TOWNRANGEWAR RIVERSPEEDLANGUAGE LAKEFREQUENCYWORK MOUNTAINSIZEPROFESSION OCEANAREAENTERTAIN ISLANDBASICGAME BASIC
WordNet Utilisé pour Étendre la requête Dans ce cas on a une requête contrainte pour un moteur booléen, avec une rétroaction de relaxation des contraintes (Singapore 3ième, IRST 4ième) Catégoriser la question Avec les catégories WordNet (Waterloo 6ième) Apparier la question avec la réponse candidate En apportant des informations supplémentaires sur les relations sémantiques (synonymie, description, hyponymie/hyperonymie, méronymie) entre les mots de la question et la réponse (LCC 1er, Alicante 10ième)
Utilisation de corpus de données structurées et non structurées Université de Waterloo (score: 0.512, 6ième) Recherche de passages de textes dans les documents de 4 corpus différents De données structurées (corpus de Questions/Réponses) De données non structurées (TREC, Web) Fusion des réponses obtenues
Recherche dans les données structurées questions/réponses triviales (27 MB) Tables construites à partir de sources Web et des résultats TREC précédents sur des questions fréquentes Capitales, leaders mondiaux, bébés animaux … Recherche de la concordance exacte entre la question posée et une question de la base de questions/réponses Justification par un document TREC
Recherche dans les données non structurées TREC Les 20 premiers passages sont retenus Corpus Web local (1 terabyte, milieu 2001) Les 40 premiers passages sont retenus Base Q/R structurée Chaque paire question-réponse est indexée comme un document séparé Les 10 premiers passages sont retenus Web-Altavista Les 200 premiers documents pour chaque question Les 40 premiers passages sont retenus
Fusion des réponses Deux ensembles de paires question/réponse: Celui produit par les données non structurées (retenues suivant un critère de redondance) Celui produit par les données structurées Pour TREC11, seulement 12% de réponses Réponse en provenance des données structurées Toujours retenue et classée en premier Réponse en provenance des données non structurées Classée suivant la catégorie de la question
Reformulation de la question Information Sciences Institute, University of Southern California (score : 0.498, 8ième) Deux techniques différentes de reformulation de la question Générer des paraphrases de la réponse Pour apparier question et réponse Reformuler la requête sur le Web => réduire le bruit dans les documents-réponse
Paraphrases de la réponse Génération de 1 à 30 paraphrases (3,14 en moyenne) par question à partir de données de reformulation comportant : 420 assertions Groupées en environ 100 blocs d’équivalence Données : généralisation manuelle de patrons générés par apprentissage Organisation des patrons à l’aide de relations d’équivalence et d’inférence
Génération de patrons par apprentissage Sélectionner un exemple pour un type donné de question (BIRTHYEAR ; Mozart 1756) Soumettre la requête question/réponse à un moteur de recherche sur le Web Garder les 1000 premiers documents Les séparer en phrases Garder les phrases qui contiennent les termes de la question et la réponse, les normaliser : The great composer Mozart ( ) achieved fame at a young age. Mozart ( ) was a genius. Sélectionner les plus courts fragments qui contiennent les mots de la question et la réponse ( Mozart (1756 ) Remplacer le terme de la question par et la réponse par Répéter la procédure pour différents exemples du même type de question
Trouver la réponse par reformulation Reformulation syntaxique de la question : Q : Where did Bill Gates go to college? Bill Gates was a student at SOMEBODY-1 is a student at Equivalence entre 2 reformulations : SOMEBODY-1 dropped out of COLLEGE-2 SOMEBODY-1 is a COLLEGE-2 dropout Inférence entre 2 reformulations : SOMEBODY-1 was a student at COLLEGE-2 Est-inféré-de : SOMEBODY-1 dropped out of COLLEGE-2 Utilisation d’une chaîne de reformulations : Q : Where did Bill Gates go to college? R : Bill Gates is a Harward dropout
Reformulation de la requête Garder les termes entre guillemets et mettre entre guillemets les plus petits GN What is the longest river in the United States? « longest river » AND « United States » Ajouter les unités correspondant au type de la réponse How tall is Mt. Everest? «Mt. Everest» AND tall AND (foot OR feet OR miles) Ajouter les synonymes WordNet What is the length of border between Ukraine and Russia? (length OR distance) AND (border OR surround) AND (Ukraine OR Ukrayiana) AND (Russia OR «Soviet Union») AND (between OR betwixt) Utiliser les paraphrases de la réponse What is an atom? « is an atom », « an atom is », « called an atom » …
Validation de la réponse par redondance ITC-IRST (score : 0.589, 4ième) Sélection par le système QA des 40 premières réponses Validation de ces réponses Construction d’un patron de validation comportant des termes de la question et la réponse Soumission du patron à un moteur de recherche sur le Web Estimation d’un score de pertinence de la réponse en fonction des résultats suivant : Une approche statistique (AltaVista) Une approche basée sur le contenu (Google)
Approche statistique Recherche sur AltaVista en utilisant l’opérateur NEAR entre les mots de la question et la réponse Calcul du score de pertinence de la réponse (ARS) par une probabilité conditionnelle corrigée : ARS = P(A | Q) / P(A) 2/3 P(A | Q) = (Kq NEAR Ka) / Kq P(A) = Ka / MaxPages answering/menu-4.html
Approche basée sur le contenu Recherche sur Google Utilisation des fragments de contexte Sélection des 100 premiers fragments Calcul d’un score basé sur Pour chaque fragment : Le nombre de mots-clés de la question Leur distance à la réponse (sans compter les mots vides) CW = Π i w(qk i ) 1/(d(qki,a)+1) Le score global est la somme des scores de chaque fragment
Patrons de validation Simple : les mots de la question et de la réponse doivent être cooccurrents et proches Complexe : La relation entre les mots de la question et la réponse est exprimée dans un patron syntaxique Ex : Q : Where is the Orinoco River? R : Amazon, Venezuela Réponse par simple cooccurrence => Amazon Test des réponses Amazon et Venezuela par Orinoco River in Amazon => pas de réponse Orinoco River in Venezuela => 322 réponses
Système QA multi-agents IBM Watson Research Center (score : 0.588, 5ième) Architecture du système : Un module d’analyse de la question (possibilité d’en avoir plusieurs) Des agents de réponse implémentant différentes stratégies et faisant appel à différentes sources de connaissance Des sources de connaissances et des adaptateurs permettant les liens agent de réponse / source de connaissance Un module de résolution de la réponse
Les agents de réponse Utilisant des informations non structurées (corpus TREC et AQUAINT, Web) Approche « connaissances » 80 types sémantiques de réponse déterminés par des règles Recherche sur les mots-clés de la question et le type sémantique de la réponse Approche statistique Méthode de l’entropie maximum pour entraîner le système sur un corpus de paires question/réponse
Les agents de réponse Utilisant des sources de connaissance structurées Serveur de bases de données qui formate les requêtes vers les différentes bases telles que : Bases de données publiques (US Geological Survey) Sites Web donnant accès à des tables de données (// => quizzes) WordNet Cyc : base de connaissances générales (// Vérificateur Cyc : filtre les réponses numériques en vérifiant leur ordre de grandeur auprès de Cyc Pour répondre à un type particulier de question
Résolution de la réponse Réponses provenant d’un corpus # TREC Recherche des passages TREC contenant la réponse et les mots-clés de la question => tous les passages et réponses fournis par les différents agents sont justifiés dans TREC Appariement à 2 niveaux Combinaison des passages venant d’agents différents Combinaison des réponses venant d’agents différents Les réponses venant de bases de connaissances structurées ont une plus grande fiabilité
Conférences et Workshops EACL 2003 Workshop on Natural Language Processing for Question Answering, April 14, 2003, Budapest, Hungary EACL 2003 Workshop on Natural Language Processing for Question Answering, April 14, 2003, Budapest, Hungary International Symposium on Reference Resolution and Its Applications to Question Answering and Summarization, June 23-25, 2003, Venice, Italy International Symposium on Reference Resolution and Its Applications to Question Answering and Summarization, June 23-25, 2003, Venice, Italy Workshop on Multilingual Summarization and Question Answering (2003) - Machine Learning and Beyond (post-conference workshop in conjunction with ACL-2003) July 11-12, 2003 Sapporo, JapanACL-2003SapporoJapan Second International Workshop on Paraphrasing: Paraphrase Acquisition and Applications (IWP2003). Post- conference Workshop de ACL 2003 Application au résumé automatique et aux systèmes de question- réponse