QA-TREC11 – 2002 Tâche Question-Réponse de la conférence d’évaluation des systèmes de recherche d’information Martine Hurault-Plantet. 25/03/03.

Slides:



Advertisements
Présentations similaires
La recherche documentaire
Advertisements

Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Olivier Kraif, Agnès Tutin LIDILEM
Chercher pour trouver Nous quittons l'ère où on courait après l'information pour entrer dans celle où l'information nous court après"Nous quittons l'ère.
Inférence statistique
Navigation Interactive dans les documents
Reconnaissance et validation en Pologne
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.
TPE Les élèves mènent à bien une production originale, concrète et choisie par eux Ils développent des compétences individuelles à travers un travail de.
LITTERATURE SCIENTIFIQUE STRATÉGIES DE RECHERCHE PMSS
1 Comment utiliser votre Extranet Se connecter 2.My Site 3.Documentation 3.1 Documents dintégration 3.2 Documents types 4.Vos informations privées.
XML-Family Web Services Description Language W.S.D.L.
Annotations sémantiques pour le domaine des biopuces
Méthode des k plus proches voisins
Le Travail Collaboratif ...
SÉMINAIRE DE LANCEMENT DES COURS EN LIGNE
Bases de données lexicales
Recherche Documentaire et traitement de l’information
SOCLE COMMUN LIRE ET COMPRENDRE
Doctorat/Web of Science Les nouveautés du Web of Science Formations Master et Doctorants Voir aussi
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Moteur de recherche d’information
Moteur de recherche d’information
La méthodologie expérimentale Fondements et bases d’application
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
© Petko ValtchevUniversité de Montréal Janvier IFT 2251 Génie Logiciel Notions de Base Hiver 2002 Petko Valtchev.
Systeme Question-Reponse SQR
Khyati, Boumahmaza, Talbi
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
Programmation non procédurale Le projet ECOLE 2000
EP1 – Première situation d’évaluation
La veille numérique : un outil pour s'informer intelligemment &
Architecture d’un système expert
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
d'une situation d'apprentissage et d'évaluation
LITTERATURE SCIENTIFIQUE STRATEGIES DE RECHERCHE PMSS
David COLL Université de Genève 19 novembre 2008.
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
G ROUPE IRIUM ™ N°1 européen des PGI pour Distributeurs, Loueurs & Importateurs de Machines Les Bases de Connaissances Knowledge Base Maxime HILAIRE 07/05/2008.
Combating Web Spam with TrustRank. OSINI Aurélien.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
( ) Collège de Maisonneuve
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Le Traitement Automatique des Langues (TAL)
Modélisation de l’inférence et application à un système de question-réponse Anne-Laure Ligozat Groupe LIR Directrice : Michèle Jardino Encadrante : Isabelle.
Hispanics in the United States For more information: Census Bureau’s website at :
France Bilodeau Bibliothécaire-conseil 19 octobre 2015 La recherche d’information en éducation.
Consolidation de grands réseaux lexicaux
Appariement syntaxique question-réponse Séminaire groupe LIR 21/10/2003.
Anne-Laure Ligozat Séminaire LIR 22 novembre 2005
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
RÉFÉRENCES SCIENTIFIQUES
Internet et la recherche documentaire Comment utiliser Internet de façon pertinente ?
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
Transcription de la présentation:

QA-TREC11 – 2002 Tâche Question-Réponse de la conférence d’évaluation des systèmes de recherche d’information Martine Hurault-Plantet. 25/03/03

TREC (Text REtrieval Conference) Première conférence : 1992 Contenu :  évaluation sur une grande échelle des méthodes de recherche d ’information Buts :  amélioration de l ’état de l ’art  transfert de technologie vers l’industrie  mise en place et disponibilité de méthodes d ’évaluation Soutiens : NIST et DARPA  National Institute of Standards and Technology  Defense Advanced Research Projects Agency

But de l’évaluation 2002 de la tâche QA Améliorer la technologie QA en se focalisant sur :  La réponse exacte Présenter la réponse exacte et non un morceau de texte comportant la réponse suppose de savoir délimiter la réponse dans le texte  La fiabilité de la réponse Une seule réponse par question Classement des questions dans l’ordre décroissant de confiance dans la réponse trouvée par le système But : le système doit être capable de savoir si la réponse trouvée est correcte ou non

Description de la tâche Corpus : environ 1million d’articles de journaux  AP newswire ( )  New York Times newswire ( )  Xinhua News Agency ( ) Questions : 500 venant de logs de  MSNSearch  AskJeeves Domaine ouvert  Ex: In what country did the game of croquet originate? What year was Alaska purchased?

Evaluation des réponses Juges humains  4 niveaux d’évaluation W : Réponse fausse : la chaîne de caractères ne contient pas la réponse U : Réponse non justifiée : la chaîne de caractères est la réponse mais le document ne justifie pas cette réponse X : Réponse inexacte : la chaîne de caractères contient la réponse et le document la justifie mais il y a des éléments en trop ou en moins R : Réponse correcte : la chaîne de caractères est exactement la réponse

Désaccords entre les jugements Ex : Who is Tom Cruise married to? Réponse : Nicole Kidman  Réponse correcte Réponse : Kidman  Correcte ou inexacte ? Réponse : actress Nicole Kidman  Correcte ou inexacte ?

Disparités dans les jugements (11,8%) Jugement% % RRX22,2WXX4,6 RXX10,7RUU4,6 WWR9,2WUU4,3 WRR8,9RUX1,9 WWU8,0WUX1,8 WWX7,5WRU1,7 RRU7,5UUX1,2 WRX4,9UXX1,1

Evaluation d’un run de 500 questions Le score ne tient compte que des réponses jugées correctes Calcul du score : Score de la i ème question : S i = (nombre de réponses correctes dans les i premiers rangs) / i Score du run des 500 questions : (Σ S i ) / 500

Les participants 34 équipes participantes  Principalement des universités et centres de recherches publics, quelques entreprises privées (6)  Plus d’une dizaine de pays différents Scores de 0,856 à 0,049  Écart entre le premier et le 5ième : 0,268  Écart entre le 5ième et le 10ième : 0,016  Les écarts sont ensuite plus réguliers, de 0,017 entre 2 participants en moyenne

Les techniques Les anciennes, communes à tous les systèmes :  Typage de la question (par le type attendu de la réponse)  Pré-sélection de documents ou paragraphes par un moteur de recherche  Utilisation de WordNet  Utilisation de variantes Les plus récentes :  Utilisation de plusieurs corpus de données structurées et non structurées  Reformulation de la question  Validation de la réponse par redondance  Système QA multi-agent

HUMLOCNUMTIMEOBJDES PERSONPLANETCOUNTYEARCURRENCYABB ORGCITYPRICEMONTHMUSICMEANING BASICCONTINENTPERCENTDAYANIMALMANNER COUNTRYDISTANCEBASICPLANTREASON COUNTYWEIGHTBREEDBASIC STATEDEGREECOLOR PROVINCEAGERELIGION TOWNRANGEWAR RIVERSPEEDLANGUAGE LAKEFREQUENCYWORK MOUNTAINSIZEPROFESSION OCEANAREAENTERTAIN ISLANDBASICGAME BASIC

WordNet Utilisé pour  Étendre la requête Dans ce cas on a une requête contrainte pour un moteur booléen, avec une rétroaction de relaxation des contraintes (Singapore 3ième, IRST 4ième)  Catégoriser la question Avec les catégories WordNet (Waterloo 6ième)  Apparier la question avec la réponse candidate En apportant des informations supplémentaires sur les relations sémantiques (synonymie, description, hyponymie/hyperonymie, méronymie) entre les mots de la question et la réponse (LCC 1er, Alicante 10ième)

Utilisation de corpus de données structurées et non structurées Université de Waterloo (score: 0.512, 6ième)  Recherche de passages de textes dans les documents de 4 corpus différents De données structurées (corpus de Questions/Réponses) De données non structurées (TREC, Web)  Fusion des réponses obtenues

Recherche dans les données structurées questions/réponses triviales (27 MB)  Tables construites à partir de sources Web et des résultats TREC précédents sur des questions fréquentes Capitales, leaders mondiaux, bébés animaux …  Recherche de la concordance exacte entre la question posée et une question de la base de questions/réponses Justification par un document TREC

Recherche dans les données non structurées TREC Les 20 premiers passages sont retenus Corpus Web local (1 terabyte, milieu 2001) Les 40 premiers passages sont retenus Base Q/R structurée  Chaque paire question-réponse est indexée comme un document séparé Les 10 premiers passages sont retenus Web-Altavista  Les 200 premiers documents pour chaque question Les 40 premiers passages sont retenus

Fusion des réponses Deux ensembles de paires question/réponse:  Celui produit par les données non structurées (retenues suivant un critère de redondance)  Celui produit par les données structurées Pour TREC11, seulement 12% de réponses Réponse en provenance des données structurées  Toujours retenue et classée en premier Réponse en provenance des données non structurées  Classée suivant la catégorie de la question

Reformulation de la question Information Sciences Institute, University of Southern California (score : 0.498, 8ième) Deux techniques différentes de reformulation de la question  Générer des paraphrases de la réponse Pour apparier question et réponse  Reformuler la requête sur le Web => réduire le bruit dans les documents-réponse

Paraphrases de la réponse Génération de 1 à 30 paraphrases (3,14 en moyenne) par question à partir de données de reformulation comportant :  420 assertions  Groupées en environ 100 blocs d’équivalence Données :  généralisation manuelle de patrons générés par apprentissage  Organisation des patrons à l’aide de relations d’équivalence et d’inférence

Génération de patrons par apprentissage Sélectionner un exemple pour un type donné de question (BIRTHYEAR ; Mozart 1756) Soumettre la requête question/réponse à un moteur de recherche sur le Web Garder les 1000 premiers documents Les séparer en phrases Garder les phrases qui contiennent les termes de la question et la réponse, les normaliser :  The great composer Mozart ( ) achieved fame at a young age.  Mozart ( ) was a genius. Sélectionner les plus courts fragments qui contiennent les mots de la question et la réponse ( Mozart (1756 ) Remplacer le terme de la question par et la réponse par Répéter la procédure pour différents exemples du même type de question

Trouver la réponse par reformulation Reformulation syntaxique de la question :  Q : Where did Bill Gates go to college?  Bill Gates was a student at  SOMEBODY-1 is a student at Equivalence entre 2 reformulations :  SOMEBODY-1 dropped out of COLLEGE-2  SOMEBODY-1 is a COLLEGE-2 dropout Inférence entre 2 reformulations :  SOMEBODY-1 was a student at COLLEGE-2  Est-inféré-de : SOMEBODY-1 dropped out of COLLEGE-2 Utilisation d’une chaîne de reformulations :  Q : Where did Bill Gates go to college?  R : Bill Gates is a Harward dropout

Reformulation de la requête Garder les termes entre guillemets et mettre entre guillemets les plus petits GN  What is the longest river in the United States?  « longest river » AND « United States » Ajouter les unités correspondant au type de la réponse  How tall is Mt. Everest?  «Mt. Everest» AND tall AND (foot OR feet OR miles) Ajouter les synonymes WordNet  What is the length of border between Ukraine and Russia?  (length OR distance) AND (border OR surround) AND (Ukraine OR Ukrayiana) AND (Russia OR «Soviet Union») AND (between OR betwixt) Utiliser les paraphrases de la réponse  What is an atom?  « is an atom », « an atom is », « called an atom » …

Validation de la réponse par redondance ITC-IRST (score : 0.589, 4ième) Sélection par le système QA des 40 premières réponses Validation de ces réponses  Construction d’un patron de validation comportant des termes de la question et la réponse  Soumission du patron à un moteur de recherche sur le Web  Estimation d’un score de pertinence de la réponse en fonction des résultats suivant : Une approche statistique (AltaVista) Une approche basée sur le contenu (Google)

Approche statistique Recherche sur AltaVista en utilisant l’opérateur NEAR entre les mots de la question et la réponse Calcul du score de pertinence de la réponse (ARS) par une probabilité conditionnelle corrigée : ARS = P(A | Q) / P(A) 2/3  P(A | Q) = (Kq NEAR Ka) / Kq  P(A) = Ka / MaxPages answering/menu-4.html

Approche basée sur le contenu Recherche sur Google  Utilisation des fragments de contexte Sélection des 100 premiers fragments Calcul d’un score basé sur  Pour chaque fragment : Le nombre de mots-clés de la question Leur distance à la réponse (sans compter les mots vides) CW = Π i w(qk i ) 1/(d(qki,a)+1)  Le score global est la somme des scores de chaque fragment

Patrons de validation Simple : les mots de la question et de la réponse doivent être cooccurrents et proches Complexe :  La relation entre les mots de la question et la réponse est exprimée dans un patron syntaxique  Ex : Q : Where is the Orinoco River? R : Amazon, Venezuela Réponse par simple cooccurrence => Amazon  Test des réponses Amazon et Venezuela par Orinoco River in Amazon => pas de réponse Orinoco River in Venezuela => 322 réponses

Système QA multi-agents IBM Watson Research Center (score : 0.588, 5ième) Architecture du système :  Un module d’analyse de la question (possibilité d’en avoir plusieurs)  Des agents de réponse implémentant différentes stratégies et faisant appel à différentes sources de connaissance  Des sources de connaissances et des adaptateurs permettant les liens agent de réponse / source de connaissance  Un module de résolution de la réponse

Les agents de réponse Utilisant des informations non structurées (corpus TREC et AQUAINT, Web)  Approche « connaissances » 80 types sémantiques de réponse déterminés par des règles Recherche sur les mots-clés de la question et le type sémantique de la réponse  Approche statistique Méthode de l’entropie maximum pour entraîner le système sur un corpus de paires question/réponse

Les agents de réponse Utilisant des sources de connaissance structurées  Serveur de bases de données qui formate les requêtes vers les différentes bases telles que : Bases de données publiques (US Geological Survey) Sites Web donnant accès à des tables de données (// => quizzes) WordNet Cyc : base de connaissances générales (//  Vérificateur Cyc : filtre les réponses numériques en vérifiant leur ordre de grandeur auprès de Cyc Pour répondre à un type particulier de question

Résolution de la réponse Réponses provenant d’un corpus # TREC  Recherche des passages TREC contenant la réponse et les mots-clés de la question  => tous les passages et réponses fournis par les différents agents sont justifiés dans TREC Appariement à 2 niveaux  Combinaison des passages venant d’agents différents  Combinaison des réponses venant d’agents différents  Les réponses venant de bases de connaissances structurées ont une plus grande fiabilité

Conférences et Workshops EACL 2003 Workshop on Natural Language Processing for Question Answering, April 14, 2003, Budapest, Hungary EACL 2003 Workshop on Natural Language Processing for Question Answering, April 14, 2003, Budapest, Hungary International Symposium on Reference Resolution and Its Applications to Question Answering and Summarization, June 23-25, 2003, Venice, Italy International Symposium on Reference Resolution and Its Applications to Question Answering and Summarization, June 23-25, 2003, Venice, Italy Workshop on Multilingual Summarization and Question Answering (2003) - Machine Learning and Beyond (post-conference workshop in conjunction with ACL-2003) July 11-12, 2003 Sapporo, JapanACL-2003SapporoJapan Second International Workshop on Paraphrasing: Paraphrase Acquisition and Applications (IWP2003). Post- conference Workshop de ACL 2003  Application au résumé automatique et aux systèmes de question- réponse