Analyse syntaxique et systèmes de questions-réponses

Slides:



Advertisements
Présentations similaires
La place accordée à l’expression des salariés sur leur travail et leurs conditions de travail dans l’entreprise Résultats sondage exclusif CSA/ANACT.
Advertisements

Mais vous comprenez qu’il s’agit d’une « tromperie ».
Le Marché Publicitaire de la Presse Professionnelle
Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Licence pro MPCQ : Cours
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
11 Bienvenue Entrez le nom du groupe ou projet ici mardi, 17 novembre 2009.
International Telecommunication Union Accra, Ghana, June 2009 Relationship between contributions submitted as input by the African region to WTSA-08,
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Les numéros 70 –
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
Algorithme et structure de données
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Révision (p. 130, texte) Nombres (1-100).
La législation formation, les aides des pouvoirs publics
1 7 Langues niveaux débutant à avancé. 2 Allemand.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
Développement d’applications web
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
L’Heure Telling Time.
QUALIPREF Synthèse de lenquête de satisfaction réalisée du 2 avril au 25 mai 2012 après réception de 306 questionnaires.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Calcul mental Calcul mental Année scolaire Classe de …
Les nombres.
Les quartiers Villeray – La Petite-Patrie et les voisinages
Fierté envers les symboles et institutions canadiens Jack Jedwab Association détudes canadiennes 26 novembre 2012.
Conseil Administration AFRAC – 2 décembre Toulouse 1 Fermes de références Palmipèdes à foie gras Synthèse régionale – Midi Pyrénées Exercice
Tableaux de distributions
Tableaux de distributions
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Systeme Question-Reponse SQR
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Jean-Marc Léger Président Léger Marketing Léger Marketing Les élections présidentielles américaines.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Les Nombres 0 – 100 en français.
Aire d’une figure par encadrement
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Nom:____________ Prénom: ___________
Annexe Résultats provinciaux comparés à la moyenne canadienne
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Bienvenue.
Dominique LAURENT Patrick SEGUELA
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Modélisation de l’inférence et application à un système de question-réponse Anne-Laure Ligozat Groupe LIR Directrice : Michèle Jardino Encadrante : Isabelle.
Appariement syntaxique question-réponse Séminaire groupe LIR 21/10/2003.
Anne-Laure Ligozat Séminaire LIR 22 novembre 2005
XIP Un analyseur incrémental robuste Laura Monceaux & Isabelle Robba Séminaire LIR – 04 / 06 / 02.
Transcription de la présentation:

Analyse syntaxique et systèmes de questions-réponses Présentation Master Recherche Informatique d'Orsay

Objectifs du cours Présenter les systèmes de questions-réponses Montrer un cadre d’application des différents domaines du TAL présentés: morphologie, syntaxe, sémantique et multilinguisme En particulier, utilisation de connaissances syntaxiques pour la recherche d’informations précises

Plan de la présentation XIP, un analyseur robuste Les systèmes de questions-réponses Etude du système QALC Exemple d’appariement syntaxique Evolution du domaine et perspectives

XIP : un analyseur robuste Robustesse = capacité d'un analyseur à fournir des analyses correctes pour des corpus tout venant Produire une analyse même minimale pour toute entrée Limiter le nombre d’analyses produites ou donner des indications sur les préférences A comparer au cours d’Anne

Présentation de XIP Etiquetage morpho-syntaxique XIP = Xerox Incremental Parser Développé par XRCE, Centre de Recherche Européen de Xerox [Aït-Mokhtar, Chanod and Roux 2002] Analyseur partiel : sortie pas forcément complète (mais robustesse) Sorties : Etiquetage morpho-syntaxique Constituants ou chunks Relations de dépendance (entre les têtes de 2 syntagmes) Analyseur partiel plutôt que de surface : sortie riche (dépendances) mais pas toujours tout analysé Le but n’est pas l’explication des phénomènes linguistiques rencontrés On veut une analyse même dans le cas de phénomènes non modélisés ou d’entrées mal formées Il faut équilibre entre finesse de la description linguistique et l’efficacité de l’analyseur Robustesse liée à RI Ppes et fondements linguistiques Perspective de traitement automatique des langues plus que de linguistique computationnelle + analyseur mixte : approche à la fois structurelle (inspirée par la grammaire syntagmatique) et des grammaires de dépendance Ouverture, souplesse, modularite

Syntaxe = étude de l’organisation des mots en phrases Structure syntagmatique Arbre de constituants Catégories et frontières des constituants Fonctions ou relations de dépendance Arbre de dépendance Marie aime le chocolat NP GN P GV V Det N aime objet sujet chocolat Marie det le

Caractéristiques de XIP Incrémental grâce à des paquets ordonnés de règles Sortie unique mais Déterministe pour la segmentation en constituants Non déterministe pour l'extraction des dépendances Souple : grammaires facilement modifiables + sortie unique (déterministe pour la segmentation) mais peut représenter plusieurs analyses (pour dépendances : rattachement prépositionnel ou structures coordonnées) + empirisme : les grammaires sont construites empiriquement à partir d’analyses de corpus approche guidée par le corpus et non pas par une théorie : les grammaires se veulent représentatives de la plus grande partie syntaxique d’un texte en entrée et non pas descriptives des phénomènes linguistiques existants + robustesse : analyse de texte tout venant + approche symbolique ? ? : Pas de retour en arrière

Sorties de XIP Le chat de la voisine - au demeurant peu aimable – est parti en miaulant capturer une souris qui traînait là.  Segmentation en constituants { SC {NP {Le chat} PP {de NP {la voisine} } INS {- AP {au demeurant peu aimable} -} FV {est parti} } GV {en miaulant} IV {capturer} NP {une souris} SC { BG {qui} FV {traînait} } là .}

Sorties de XIP (…) GROUPE(1) + | SC +------------+----------------------------------+----------------------------+ | | | | NP PP INS FV +-----+ +---------+ +------------------+---------------+ +------+ | | | | | | | | | DET NOUN PREP NP PUNCT AP PUNCT VERB VERB + + + +------+ + +---------+-------+ + + + | | | | | | | | | | | | Le chat de DET NOUN - ADV ADV ADJ - est parti + + + + + | | | | | la voisine au demeurant peu aimable (…)

Sorties de XIP + Relations de dépendance SUBJ_NOUN(parti,chat) SUBJ_REL_COREF_NOUN(traînait,souris) SUBJ(capturer,chat) VARG_NOUN_DIR(capturer,souris) VARG_INF_DIR(parti,capturer) COREF_POSIT1_REL(souris,qui) VMOD_POSIT1_ADV(traînait,là) NMOD_POSIT1_RIGHT_ADJ(voisine,aimable) NMOD_POSIT1_NOUN_INDIR(chat,de,voisine) PREPOBJ_CLOSED(de,voisine) DETERM_DEF_NOUN_DET(Le,chat)

Architecture de XIP Pré-traitement Texte en entrée Contrôle des entrées Texte analysé morphologiquement Règles de Désambiguïsation Désambiguïsation Texte désambiguïsé (pos) Règles de segmentation Cf p. 94 de thèse de Nuria Modifier le schema Segmentation Texte annoté syntaxiquement Règles de dépendance Analyse des dépendances Texte analysé Ressources Modules Textes traités

Fonctionnement 3 étapes principales : Désambiguïsation Segmentation des parties du discours (pos) Segmentation Dépendances

Désambiguïsation 292 règles ~ Choix de l'interprétation la plus probable d'un mot en fonction de son contexte Désambiguïsation de certains traits Règles de la forme : interprétations = | Contexte-G | choix | Contexte-D| /*** REGLE DESAMB 68 ***\ / même lui\ 1> adj,adv = adv |pron[noun:~]| Exemple de sortie ici

Segmentation 121 règles ~ Groupement des mots en segments (chunks) Règles organisées par niveaux, pas de retour arrière, pas de récursivité Règles de la forme : nœud non lexical -> | Ctxte| suite de nœuds |Ctxte| / très grand \ 1> AP -> (adv+[last:~]),adj[verb:~]. afin de faciliter l'extraction des dépendances En réalité, deux types de règles : suite de nœuds ordonnés ou non

Dépendances 22 règles ~ Création de relations de dépendance entre les mots Deux types de règles : Création de dépendances Ajout de nouvelles caractéristiques Règles de la forme : #2 #3 #1 TOP SC NP VP Det Nom chat Le Verbe mange la souris |pattern| if <conditions> <d-term1>…<d-termK> | SC { NP}, VP, NP} | if (~Subj(#,#2)) Subj (#1,#2) ,Obj (#2,#3) Règle simplifiée !!! Subj(chat,manger) Obj(manger,souris)

XIP, un analyseur robuste Les systèmes de questions-réponses Etude du système QALC Exemple d’appariement syntaxique Evolution du domaine et perspectives

Recherche d’informations précises Type d’informations Accès aux informations externes Veille scientifique, technique, commerciale, … Gestion des informations internes Besoin informationnel Large : constitution d’un dossier Sangatte Précis : question précise Date de création de Sangatte

Différentes applications pour différents besoins Recherche de documents liés au thème Les camps de réfugiés : Sangatte Recherche de réponses à des questions précises Quand Sangatte a-t-il été créé ? Résumé Visualisation 24 septembre 1999

Recherche d’informations précises … là), marche à pied (on a déjà surpris des étrangers marchant dans le tunnel). Les tentatives de traversées de la Manche sont à peine moins surveillées que les baignades. Quand le temps n'est pas mauvais, on perçoit les côtes anglaises distantes d'une quinzaine de kilomètres. Sur la mer, naviguent en permanence d'énormes ferries. Le camp ouvert à Sangatte — on dira ici plutôt « camp » que « centre », à cause des conditions de vie qui y prévalent (voir ci-dessous) et de l'improbable statut juridique de cette « chose » sans précédent, sauf les camps des Républicains espagnols à la fin des années 30 — a été inauguré le 24 septembre 1999 dans un hangar où était installée, pendant le forage du tunnel sous la Manche, la logistique technique française. L'ouvrage, qui appartenait à la société du tunnel, a été réquisitionné in extremis par les pouvoirs publics pour le transformer en lieu d'accueil, alors qu'il allait être vendu. Il a la …

Questions-réponses GOOGLE QALC* When did Alaska become a state? Objectif: répondre de façon exacte à des questions en langue naturelle Recherche d’Information + Traitement Automatique des Langues When did Alaska become a state? When did Alaska become a state? When did Alaska become a state? GOOGLE QALC* Pas d’anim TAL ALASKA.com|FAQ:How can I become a state park volunteer ? … How can I become a state park volunteer ?... Alaska Elections – State Division of Elections Home Page Alaska State Legislature Homepage… in 1959 *QALC : système de Question-Réponse du LIMSI

Caractéristiques des systèmes de questions-réponses (SQR) Questions en domaine ouvert Vs domaine fermé (météo, voyages) Systèmes actuels : Questions factuelles ou encyclopédiques : Qui a conçu l’ordinateur Macintosh ? Quel métal a le plus haut point de fusion ? Qui a été le premier gouverneur de l’Alaska ? Qu’est-ce que l’homéopathie ? Réponses courtes TREC depuis 1999

Exemples de questions Questions de définition Questions factuelles Acronymes: What is the ESA? Personnes: Who is Goodwill Zwelithini? Objet ou organisation: What is the Civic Alliance? Questions factuelles Instances: Name a university in Berlin. Personnes: What is the Serbian President's name? Caractéristique: How old is Jacques Chirac? Evénementielles: What did astronomers from Alabama University discover? Descriptives: Which genes regulate the immune system?

Evaluations Venues de la communauté de la RI Internationales TREC pour l’anglais CLEF : nombreuses langues + multilingue Francophone EQueR Caractéristiques Corpus = grandes collections majoritairement journalistiques Jugement sur la réponse + sur sa fiabilité

Evaluation des réponses (1/2) Critères inspirés du dialogue (maximes de Grice) Evaluation des réponses en fonction de leur : Pertinence La réponse doit répondre à la question ! Quelle est la taille de la statue de la Liberté ? Précision Niveau de granularité adéquat Où est né Harry Truman ?  aux Etats-Unis/Lamar, Missouri Concision La réponse ne doit pas contenir d’information inutile Quel fleuve des Etats-Unis est surnommé le « Big Muddy » ?  « Le Mississippi, connu aussi sous le nom de « Big Muddy », est la plus »

Evaluation des réponses (2/2) Complétude La réponse doit être complète 500 au lieu de 500€ Simplicité L’utilisateur doit pouvoir lire la réponse facilement Justification La réponse doit être fournie avec un contexte qui permet de comprendre pourquoi la réponse a été choisie Qui était le 16ème Président des Etats-Unis ?  le texte doit préciser que Lincoln était le 16ème Contexte Contexte de validité de la réponse Qui est le Premier Ministre Français ?  date

Etat de l’art Actuellement, les meilleurs systèmes à TREC répondent à environ 70% des questions Approches variées : Méthodes s’appuyant sur des bases de connaissances et des techniques de TAL Méthodes utilisant des techniques de surface

Question ou mots-clefs Informations pertinentes Architecture d'un SQR Question ou mots-clefs Question Moteur de recherche Traitement des questions Informations pertinentes Documents pertinents Traitement des documents Archi de base Analyse de la question, production d’une requête IR Extraire un certain nombre de documents Extraire des réponses candidates des documents Sélectionner la meilleure Phrases candidates Recherche de la réponse Réponse

XIP, un analyseur robuste Les systèmes de questions-réponses Etude du système QALC Analyse des questions Sélection et traitement des documents Analyse des phrases candidates Résultats Exemple d’appariement syntaxique Evolution du domaine et perspectives

Caractérisation des questions Quelles informations ? Sur le type de la réponse attendue Entité nommée Type général Sur le contexte de la réponse Lexical Mots de la question Syntaxique Forme syntaxique de la question  Formulation de la réponse Sémantique Objet (focus, thème?) de la question  Entité présente dans la réponse Catégorie de la question

Exemple d’analyse de la question What currency does Argentina use? Type attendu de la réponse Type général : currency Objet de la question : Entité présente dans la phrase réponse : Argentina / currency ? Forme de la question Forme syntaxique de la question What GN GV GN GV Exemples en francais !!! Formulation de réponse : GNRéponse , GNObjet The austral, Argentina 's currency

Module d’analyse de la question Etiquetage morpho-syntaxique Analyse syntaxique Analyse de la question Reconnaissance du type attendu Lexiques Pourquoi flèche entre AS Q et règles ? Patrons + Lexiques Reconnaissance de la catégorie Caractéristiques de la question (XML)

Performances sur l’analyse des questions Module d'analyse des questions fiable (TREC 10) Performances variables selon le type de la question : Meilleure reconnaissance des questions attendant une EN Mauvaise reconnaissance de l’objet de la question sur certaines catégories Pertinence de l’objet de la question (TREC 9) 90 % des questions ont une phrase réponse contenant l'objet 57 % des phrases réponses contiennent l’objet Forme de la question Type de la réponse Objet de la question 97 % 90 % 85 % Exemple de question mal reconnue plutôt

Analyse syntaxique des questions Analyseurs syntaxiques non appropriés pour les questions : Verbe non reconnu : What year did the Titanic sink? Superlatif non reconnu : What metal has the highest melting point? Remaniement des sorties + réécriture de grammaires ?

Caractérisation des questions Objet de la question : pas toujours l'entité sur laquelle il faut se focaliser Question : What is one national park in Indiana ? Réponse : The study examine haze and visitor statistics at Acadia National Park in Maine ; Big bend national park in Texas ; … Indiana Dunes National Lakeshore in Indiana ; Mount Rainier National Park in Washington … => Focalisation sur « national park » donne «Rainier National Park » au lieu de «Indiana Dunes National Lakeshore » À clarifier…

XIP, un analyseur robuste Les systèmes de questions-réponses Etude du système QALC Analyse des questions Sélection et traitement des documents Analyse des phrases candidates Résultats Exemple d’appariement syntaxique Evolution du domaine et perspectives

Sélection et traitement des documents Dans QALC Moteur de recherche Passages de texte de la taille d’un paragraphe en sortie Etiquetage morpho-syntaxique Traitement des documents Ré-indexation et pondération en utilisant Fastr Sélection Etiquetage des entités nommées Pré ou post-traitement ?

Variation linguistique (1/2) Question Phrase réponse Commentaires How many scandals was Tapie implicated in, while boss at Marseille? While boss at Marseille, Tapie said : I have been implicated in four scandals in seven years. Tous les mots (pleins) de la question se retrouvent dans le passage réponse, mais il y a une référence. What is Alexander Solzhenitsyn's wife's name? However his wife Natalya suggested Solzhenitsyn's criticism of the government (…). Le prénom de Solzhenitsyn n'est pas donné. Who is the Norwegian king? Even Crown Prince Harald, who is now Norway's king, called it a wild idea. king est dans la phrase réponse, mais Norwegian devient Norway's

Variation linguistique (2/2) Question Phrase réponse Commentaires When will the Human Genome Project be completed? The Human Genome Project, a 15-year, $3-billion effort, is set for completion in 2005. will be completed devient is set for completion Which space probe set off for the Moon on 25 January 1994 ? Clementine, which will map the moon and fly by an asteroid while testing military sensors, had been in a circular orbit around Earth since it was launched Jan. 25 from Vandenberg Air Force Base. space probe disparaît, set off devient launched, January est abrégé en Jan. When was the safety zone in southern Lebanon created? Israel has held to an occupation strip in south Lebanon since 1978 (...) in order to protect itself from Crossborder guerrilla attacks. zone devient strip, southern devient south, safety devient to protect itself, created devient since...

Fastr pour re-indexer (1/2) (Christian Jacquemin) Regroupement de termes multi-mots : les variantes linguistiques d'un concept genetic disease genetic diseases Flexion disease is genetic Syntaxe hereditary disease Sémantique genetically determined forms of the disease Morphologie disease is familial Sémantique + Syntaxe transmissible neurodegenerative diseases Sémantique + Syntaxe genetic risk factors for artery disease Variante incorrecte

Fastr pour re-indexer (2/2) Ressources Famille sémantique d'un mot (à partir du thésaurus WordNet), par exemple, manufacturer, shaper pour le nom maker Famille morphologique d'un mot (à partir de la base CELEX), par exemple, maker, make, remake, to make et to remake pour le nom maker Application de patrons : … making many automobiles… -> variante de car maker

Etiquetage des entités nommées (EN) Entités nommées = éléments qu’il est intéressant de pouvoir distinguer du reste du texte Entités : personnes, organisations, lieux Dates : dates, heures Quantités : montants financiers, pourcentages Pour tous les documents retenus : Par utilisation de listes : Pour les prénoms, les villes,… Par application de règles (grammaires locales) Organisation -> NomOrg SP <EN organisation> Ministère des Affaires Étrangères </EN> Personne -> Prénom NPropre <EN personne>Jacques Chirac</EN>

Hiérarchie des entités nommées Entité nommée Nom propre Entité numérique Organisation Lieu Nombre Personne Poids Pourcentage Volume Vitesse Physique Expression temporelle Longueur Montant financier Date Age Température Durée Jour Période

Exemple de document When will the Human Genome Project be completed ? The DT the Human NP Human Genome NN genome Project NP Project , , , a DT a <numex type="FINANCIAL_AMOUNT"> $ $ $ 3-billion CD 3-billion </numex> effort NN effort is VBZ be set VVN set for IN for completion NN completion <timex type="DATE"> in IN in 2005 CD @card@ </timex> . SENT . Variantes Fastr: human genome project Human Genome Project

Des documents aux phrases… Poids pour toutes les phrases : Lemmes de la question et leurs variantes  poids de référence + si mots exacts et proximité de ces mots + si entité nommée du type attendu X phrases par question : dépend des évaluations!

XIP, un analyseur robuste Les systèmes de questions-réponses Etude du système QALC Analyse des questions Sélection et traitement des documents Analyse des phrases candidates Résultats Exemple d’appariement syntaxique Evolution du domaine et perspectives

Stratégie fondée sur les EN Sélection de l’EN du bon type la plus proche des mots de la question En quelle année a été achetée l’Alaska? Type EN attendu : année « En 1867, lorsque W.H.Seward a négocié l’achat de l’Alaska… » Exs de questions avt !!

Recherche des EN 1867 Moteur de recherche En quelle année a été achetée l’Alaska ? Traitement des questions Moteur de recherche EN Date attendue (…) En 1867, lorsque W.H.Seward a négocié l’achat de l’Alaska… Traitement des documents En 1867, lorsque W.H.Seward a négocié l’achat de l’Alaska… Recherche de la réponse 1867

Stratégie insuffisante (1/3) Très bonne reconnaissances des EN mais : Difficultés de délimitation des EN Certaines EN ne sont pas reconnues (incomplétude des listes d’EN, de déclencheurs, de règles…) Ambiguïté du type attendu de la réponse Qui a gagné la dernière coupe du monde de foot ? Organisation (équipe) attendue et non pas personne Où la bile est-elle produite ? Partie du corps attendue et non pas lieu

Stratégie insuffisante (2/3) Ambiguïté des phrases candidates Présence de plusieurs EN du type attendu Question : How late is Disneyland open? Phrase réponse : During the summer, the park is open from 8 a.m. until midnight Présence d’une EN du bon type, mais qui ne correspond pas du tout à la réponse Question : What is Marilyn Monroe's real name? Type attendu de la réponse : Personne Phrase candidate : "the rumors about J.F. Kennedy and Marilyn Monroe …«

Stratégie insuffisante (3/3) Certaines questions n’attendent pas une réponse EN De quel instrument Mozart jouait-il ? Comment est mort Micky Mantel ? Nécessité de connaissances linguistiques Recherche plus précise de la réponse Analyse de questions non EN

Utilisation de l’analyse de la question On dispose des informations suivantes : Objet + autres mots de la question Type attendu de la réponse - EN ou type général Forme de la question et donc formulations possibles de la réponse Stratégies adoptées : Recherche de reformulations de la question Patrons syntaxiques

Utilisation des informations lors de la recherche de la réponse Patrons syntaxiques Question : What does Knight Ridder publish? Forme de la question : WhatDoGNverbe Formulation : GN verbe GNréponse « Knight Ridder published 30 daily newspapers … » Stratégie efficace mais écriture manuelle fastidieuse pas toujours fiables : patrons de proximité mettre en place des règles de vérification Diviser en deux Exemple d’utilisation Analyse plus précise de la question

XIP, un analyseur robuste Les systèmes de questions-réponses Etude du système QALC Analyse des questions Analyse des phrases candidates Résultats Exemple d’appariement syntaxique Evolution du domaine et perspectives

Résultats du système QALC Sur les questions anglaises de la campagne d’évaluation CLEF 2005

Outils externes principaux de QALC (et autres) Moteurs de recherche MG en anglais, Lucene en français Etiqueteurs morpho-syntaxiques TreeTagger en anglais, TreeTagger+XIP en français Analyseurs syntaxiques Cass en anglais, XIP en français Ressources terminologiques Fastr pour variations WordNet pour synonymes en anglais

XIP, un analyseur robuste Les systèmes de questions-réponses Etude du système QALC Exemple d’appariement syntaxique Evolution du domaine et perspectives

Pourquoi analyser les phrases réponses ? Question : Who killed Lee Harvey Oswald? Phrase réponse : Jack Ruby, who killed JFK’s assassin Lee Harvey Oswald …. Stratégies actuelles inefficaces Utilisation de relations syntaxiques : Question: sujet (?, kill) et objet (kill, L.H.O.) Réponse: sujet (Jack Ruby, kill) et objet (kill, L.H.O.)

Principe de l'appariement Analyse syntaxique Who is the evil H. R. Director in Dilbert ? sujet (?, be) et attribut (Director, be) Recherche des relations de la question ou de reformulations Catbert is the evil H. R. Director in Dilbert… sujet (Catbert, be) et attribut (Director, be) Catbert, the evil H. R. Director in Dilbert, … apposition (Catbert, Director)

Méthodes pour l’appariement Appariement à partir des relations de dépendance Quel formalisme de représentation pour les questions et les phrases candidates ? Quel mécanisme d’appariement ? Quelques possibilités Graphes + algorithme de relaxation de contraintes Réseaux sémantiques + règles d’inférence Représentation logique + démonstrateur

Un exemple d’appariement fondé sur les relations syntaxiques LCC (Language Computer Corporation) [Moldovan et al., 2002] Analyse syntaxique des questions et des phrases candidates Passage à une forme logique Appariement question-réponse grâce à : Ressources sémantiques Démonstrateur logique Extraction de la réponse

Architecture du système Traitement de la question Traitement des documents Extraction de la réponse Question Analyse syntaxique  Transformation sémantique Reconnaissance du type attendu de la réponse Extraction de mots-clefs Passages  Recherche de passages Index de documents Extraction de la réponse  Justification Classement  Démonstrateur Base de connaissances Réponse Pour les questions factuelles Reconnaissance des EN Hiérarchie des types de réponses Collection de documents Harabagiu et al., 2004 (schéma simplifié, valable uniquement pour les questions factuelles)

Formes logiques Représentation intermédiaire entre l’analyse syntaxique et une forme sémantique profonde Utilisation de relations de dépendance : sujets, objets, rattachements prépositionnels… Exemple Phrase : Heavy selling of Standard & Poor ‘s 500-stock index futures in Chicago relentlessly beat stocks downward. Forme logique : heavy_JJ(x1) & selling_NN(x1) & of_IN(x1,x6) & Standard_NN(x2) & &_CC(x13,x2,x3) & Poor_NN(x3) & ‘s_POS(x6,x13) & 500-stock_JJ(x6) & index_NN(x4) & future_NN(x5) & nn_NNC(x6,x4,x5) & in_IN(x1,x8) & Chicago_NN(x8) & relentlessly_RB(e12) & beat_VB(e12,x1,x9) & stocks_NN(x9) & downward_RB(e12) x : variables, e : prédicats

Extended WordNet Enrichissement sémantique : Wordnet : Base de données lexicale Organisation : concepts (ensemble de synonymes) Catégories de mots : noms, verbes, adjectifs et adverbes Relations entre ces concepts : hyponymie, hyperonymie, méronymie Extended WordNet : Transcription sous forme logique de toutes les informations de WordNet Exemples d’utilisation d’Extended WordNet par LCC : Q : How many chromosomes does a human zygote have ? A : 46 chromosomes that lie in the nucleus of every normal human cell Chaîne lexicale formée : zygote:n#1 -> HYPERNYM -> cell:n#1 -> HAS_PART -> nucleus:n#1 Q : What Spanish explorer discovered the Mississipi River ? A : Spanish explorer Hernando de Soto reached the Mississipi River Chaîne lexicale : Discover:v#7 -> GLOSS -> reach:v#1

Exemple d’appariement Question Which company created the Internet Browser Mosaic? Forme logique de la question organization AT(x2) & company NN(x2) & create VB(e1,x2,x6) & Internet NN(x3) & browser NN(x4) & Mosaic NN(x5) & nn NNC(x6,x3,x4,x5) Phrase réponse (…) a program called Mosaic , developed by the National Center for Supercomputing Applications… Exemple de chaînes extraites de WordNet Develop  make et make  create

Exemples de difficultés (1/2) Reconnaissance du texte brut, avec erreurs de frappe ou d’orthographe Niagra  « Niagara » non reconnu Erreur d’étiquetage morpho-syntaxique Where did the Maya people live?  « live » étiqueté comme un nom Mauvais type de réponse attendu In what area of the world was the Six day War fought?  type Quantity attendu au lieu de Location What is the average life span of an agouti?  type Average attendu au lieu de Number

Exemples de difficultés (2/2) Mauvais mots-clefs dans la requête au moteur de recherche « Where did the Battle of the Bulge take place ? »  place conservé Expansion de requête incomplète « What is the murder rate in Windsor, Ontario ? »  phrase réponse contient «homicide» Requêtes trop larges « Who was the first president of the U.S. ? »  la réponse n’est pas dans les 500 premiers documents EN non reconnues

CWS = Confidence-Weighted Score : Résultats TREC 2002 Tâche principale + Equer + Clef CWS = Confidence-Weighted Score : scores pondérés par la confiance que les systèmes donnent à leurs réponses

XIP, un analyseur robuste Les systèmes de questions-réponses Etude du système QALC Exemple d’appariement syntaxique Evolution du domaine et perspectives

Evolution du domaine Evolution des réponses depuis 1er TREC : chaîne de 250 caractères à réponse précise Evolution des types de questions dans les évaluations Questions « à thème » (TREC 2004) Questions temporelles (CLEF 2005)

Catégories classiques de questions Questions factuelles générales How many people live in Iceland? Questions de définition définir une personne : Who is Antonia Coello Novello?‘ un groupe de personnes : What is Destiny's Child? ou un objet quelconque : What is Bollywood?, What is a quasar? Questions ``listes'' qui attendent un ensemble de réponses Who are professional female boxers?, List the names of casinos owned by Native Americans.

Extensions : Questions « à thème » (1/3) Plusieurs questions portant sur un même thème <target id = "8" text = "Black Panthers"> <qa> <q id = "8.1" type="FACTOID"> Who founded the Black Panthers organization? </q> </qa> <qa> <q id = "8.2" type="FACTOID"> When was it founded? </q> </qa> Bobby Seale 1966

Questions « à thème » (2/3) <qa> <q id = "8.3" type="FACTOID"> Where was it founded? </q> </qa> <qa> <q id = "8.4" type="LIST"> Who have been members of the organization? </q> </qa> Oakland, California Mumia Abu-Jamal, Jamil Abdullah Al-Amin, Bill Brent, Elaine Brown, Rap Brown, Tony Bryant, Stokeley Carmichael, Mark Clark, Eldridge Cleaver, Fred Hampton, David Hilliard, Ericka Huggins, Lonnie McLucas, Huey Newton, Elmer "Geronimo" Pratt, Alex Rackley, Bobby Rush, Bobby Seale

Questions « à thème » (3/3) <qa> <q id = "8.5" type="OTHER"> Other </q> </qa> </target> 8.5 1 vital Black militant group. 8.5 2 vital Radical chic heroes of the 60's. 8.5 3 okay Emphasized multiculturalism. 8.5 4 okay Emphasized community empowerment. 8.5 5 okay Hilliard later ran for Oakland City Council. 8.5 6 okay Seale later ran for Oakland mayor. 8.5 7 okay Rush later became congressperson. 8.5 8 okay Infiltrated by FBI COINTELPRO. 8.5 9 okay Provided health care to poor.

Questions « temporelles » (1/2) CLEF 2005 : introduction des questions temporelles : What newspaper was founded in Kiev in 1994? Who played the role of Superman before being paralyzed? Who was the President of the United States of America between 1976 and 1980?

Questions « temporelles »(2/2) Who praised Indurain for his « capacity for sacrifice, class and healthy spirit of competition », when he won the Tour de France for the fourth time? Who continued to be supplied with contaminated blood products six months after an American blood-screening test and heat-treatment process were available in other countries? Whose government broke off negotiations with the Tamil rebels, following Dissanayake's murder?

D’une langue à plusieurs… CLEF : Question dans une langue, documents dans une autre CLEF 2006 Monolingue : bulgare, allemand, espagnol, français, italien, néerlandais et portugais Autres langues sources : anglais, indonésien, roumain Autre langue cible : anglais Contexte de recherche : RI interlingue et multilingue

Architecture du système bilingue Collection de documents Analyse de la question Moteur de recherche Traitement des documents Question en français Fusion Réponses en anglais Traduction vers l’anglais Questions en anglais Termes en anglais

Stratégies possibles Traduction de la question Traduction des termes Avantages : une seule traduction assez fiable Inconvénients : questions non grammaticales Traduction des termes Traductions mot à mot et validation des multitermes en corpus Avantages : analyse de la question sur une question bien formée Inconvénients : bruit des traductions Normalement, y a un transparent avant avec archi multilingue

Résultats des systèmes bilingues Système du LIMSI, sur les questions de la tâche français vers anglais de CLEF 2005 Traduction des questions

Difficultés de traduction Forme syntaxique Quand est mort Gengis Khan ? When died Gengis Khan? Qu'est-ce que le GATT ? What the GATT? Depuis quand Israël et la Jordanie sont-ils en guerre ? Since when Israel and Jordan they are at war? Choix lexicaux de traduction Dans combien de scandales fut impliqué Tapie, lorsqu'il était patron de Marseille ? In how many scandals was involved Hidden, when he was a boss of Marseille? Quel montant Selten, Nash et Harsanyi ont-ils reçu pour le prix Nobel d'économie ? What going up Selten, Nash and Harsanyi did they receive for the Nobel prize of economy?

Quelques limitations des systèmes de QR actuels Questions factuelles ou encyclopédiques Pas de traitement de l’ambiguïté dans les questions Réponses extraites d’un seul document Peu de raisonnement nécessaire Architecture des systèmes influencée par les évaluations Pas de modélisation de l’utilisateur Closed-class questions : toujours les mêmes patrons de questions, réponses courtes, peu de raisonnement Archis influencées par évaluations Pas de modélisation de l’utilisateur-> pas de traitement de l’ambiguïté dans la question

Extensions possibles Interactivité Méthodes de raisonnement simples Q : Quelle est la longueur d’un Boeing 747 ? Et sa hauteur ? Méthodes de raisonnement simples Q : Comment est mort Socrate ? R : En buvant du vin empoisonné Fusion d’information Q : Comment fabriquer une bicyclette ? Capacités spéculatives, récapitulatives… Q : Les Etats-Unis sont-ils sortis de la récession ? Limitations actuelles des systèmes de QR Questions factuelles ou encyclopédiques Réponses extraites d’un seul document Closed-class questions : toujours les mêmes patrons de questions, réponses courtes, peu de raisonnement Archis influencées par évaluations Pas de modélisation de l’utilisateur-> pas de traitement de l’ambiguïté dans la question

En conclusion… Analyse syntaxique robuste = atout pour les systèmes de Question-Réponse Questions : Détermination des informations nécessaires à la recherche de la réponse Phrases candidates : Possibilité de passage à un formalisme plus profond Possibilité de lien avec des connaissances sémantiques

Références Quelques références… XIP QALC ou autres systèmes du LIMSI Aït-Mokhtar S., Chanod J.-P., Roux C. (2002), Robustness beyond shallowness: incremental deep parsing, Journal of Natural Language Enginerring, Vol. 8 (3-2). QALC ou autres systèmes du LIMSI http://www.limsi.fr/Scientifique/lir/ L'extraction des réponses dans un système de question-réponse; A.-L. Ligozat, B. Grau, I. Robba, A. Vilnat, TALN 2006, Louvain, Belgique. Evaluation and Improvement of Cross-Lingual Question Answering Strategies; A.-L. Ligozat, B. Grau, I. Robba, A. Vilnat, Workshop MLQA d'EACL, Trente, 2006. LCC http://www.languagecomputer.com Dan I. Moldovan, Marius Pasca, Sanda M. Harabagiu, Mihai Surdeanu: Performance Issues and Error Analysis in an Open-Domain Question Answering System. ACL 2002: 33-40 Evaluations Question-Réponse TREC : http://trec.nist.gov/data/qa.html CLEF : http://clef-qa.itc.it/ Equer : http://www.technolangue.net/article61.html