La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse syntaxique et systèmes de questions-réponses

Présentations similaires


Présentation au sujet: "Analyse syntaxique et systèmes de questions-réponses"— Transcription de la présentation:

1 Analyse syntaxique et systèmes de questions-réponses
Présentation Master Recherche Informatique d'Orsay

2 Objectifs du cours Présenter les systèmes de questions-réponses
Montrer un cadre d’application des différents domaines du TAL présentés: morphologie, syntaxe, sémantique et multilinguisme En particulier, utilisation de connaissances syntaxiques pour la recherche d’informations précises

3 Plan de la présentation
XIP, un analyseur robuste Les systèmes de questions-réponses Etude du système QALC Exemple d’appariement syntaxique Evolution du domaine et perspectives

4 XIP : un analyseur robuste
Robustesse = capacité d'un analyseur à fournir des analyses correctes pour des corpus tout venant Produire une analyse même minimale pour toute entrée Limiter le nombre d’analyses produites ou donner des indications sur les préférences A comparer au cours d’Anne

5 Présentation de XIP Etiquetage morpho-syntaxique
XIP = Xerox Incremental Parser Développé par XRCE, Centre de Recherche Européen de Xerox [Aït-Mokhtar, Chanod and Roux 2002] Analyseur partiel : sortie pas forcément complète (mais robustesse) Sorties : Etiquetage morpho-syntaxique Constituants ou chunks Relations de dépendance (entre les têtes de 2 syntagmes) Analyseur partiel plutôt que de surface : sortie riche (dépendances) mais pas toujours tout analysé Le but n’est pas l’explication des phénomènes linguistiques rencontrés On veut une analyse même dans le cas de phénomènes non modélisés ou d’entrées mal formées Il faut équilibre entre finesse de la description linguistique et l’efficacité de l’analyseur Robustesse liée à RI Ppes et fondements linguistiques Perspective de traitement automatique des langues plus que de linguistique computationnelle + analyseur mixte : approche à la fois structurelle (inspirée par la grammaire syntagmatique) et des grammaires de dépendance Ouverture, souplesse, modularite

6 Syntaxe = étude de l’organisation des mots en phrases
Structure syntagmatique Arbre de constituants Catégories et frontières des constituants Fonctions ou relations de dépendance Arbre de dépendance Marie aime le chocolat NP GN P GV V Det N aime objet sujet chocolat Marie det le

7 Caractéristiques de XIP
Incrémental grâce à des paquets ordonnés de règles Sortie unique mais Déterministe pour la segmentation en constituants Non déterministe pour l'extraction des dépendances Souple : grammaires facilement modifiables + sortie unique (déterministe pour la segmentation) mais peut représenter plusieurs analyses (pour dépendances : rattachement prépositionnel ou structures coordonnées) + empirisme : les grammaires sont construites empiriquement à partir d’analyses de corpus approche guidée par le corpus et non pas par une théorie : les grammaires se veulent représentatives de la plus grande partie syntaxique d’un texte en entrée et non pas descriptives des phénomènes linguistiques existants + robustesse : analyse de texte tout venant + approche symbolique ? ? : Pas de retour en arrière

8 Sorties de XIP Le chat de la voisine - au demeurant peu aimable – est parti en miaulant capturer une souris qui traînait là.  Segmentation en constituants { SC {NP {Le chat} PP {de NP {la voisine} } INS {- AP {au demeurant peu aimable} -} FV {est parti} } GV {en miaulant} IV {capturer} NP {une souris} SC { BG {qui} FV {traînait} } là .}

9 Sorties de XIP (…) GROUPE(1) + | SC
| | | | NP PP INS FV | | | | | | | | | DET NOUN PREP NP PUNCT AP PUNCT VERB VERB | | | | | | | | | | | | Le chat de DET NOUN ADV ADV ADJ est parti | | | | | la voisine au demeurant peu aimable (…)

10 Sorties de XIP + Relations de dépendance SUBJ_NOUN(parti,chat)
SUBJ_REL_COREF_NOUN(traînait,souris) SUBJ(capturer,chat) VARG_NOUN_DIR(capturer,souris) VARG_INF_DIR(parti,capturer) COREF_POSIT1_REL(souris,qui) VMOD_POSIT1_ADV(traînait,là) NMOD_POSIT1_RIGHT_ADJ(voisine,aimable) NMOD_POSIT1_NOUN_INDIR(chat,de,voisine) PREPOBJ_CLOSED(de,voisine) DETERM_DEF_NOUN_DET(Le,chat)

11 Architecture de XIP Pré-traitement Texte en entrée
Contrôle des entrées Texte analysé morphologiquement Règles de Désambiguïsation Désambiguïsation Texte désambiguïsé (pos) Règles de segmentation Cf p. 94 de thèse de Nuria Modifier le schema Segmentation Texte annoté syntaxiquement Règles de dépendance Analyse des dépendances Texte analysé Ressources Modules Textes traités

12 Fonctionnement 3 étapes principales : Désambiguïsation Segmentation
des parties du discours (pos) Segmentation Dépendances

13 Désambiguïsation 292 règles ~
Choix de l'interprétation la plus probable d'un mot en fonction de son contexte Désambiguïsation de certains traits Règles de la forme : interprétations = | Contexte-G | choix | Contexte-D| /*** REGLE DESAMB 68 ***\ / même lui\ 1> adj,adv = adv |pron[noun:~]| Exemple de sortie ici

14 Segmentation 121 règles ~ Groupement des mots en segments (chunks)
Règles organisées par niveaux, pas de retour arrière, pas de récursivité Règles de la forme : nœud non lexical -> | Ctxte| suite de nœuds |Ctxte| / très grand \ 1> AP -> (adv+[last:~]),adj[verb:~]. afin de faciliter l'extraction des dépendances En réalité, deux types de règles : suite de nœuds ordonnés ou non

15 Dépendances 22 règles ~ Création de relations de dépendance entre les mots Deux types de règles : Création de dépendances Ajout de nouvelles caractéristiques Règles de la forme : #2 #3 #1 TOP SC NP VP Det Nom chat Le Verbe mange la souris |pattern| if <conditions> <d-term1>…<d-termK> | SC { NP}, VP, NP} | if (~Subj(#,#2)) Subj (#1,#2) ,Obj (#2,#3) Règle simplifiée !!! Subj(chat,manger) Obj(manger,souris)

16 XIP, un analyseur robuste
Les systèmes de questions-réponses Etude du système QALC Exemple d’appariement syntaxique Evolution du domaine et perspectives

17 Recherche d’informations précises
Type d’informations Accès aux informations externes Veille scientifique, technique, commerciale, … Gestion des informations internes Besoin informationnel Large : constitution d’un dossier Sangatte Précis : question précise Date de création de Sangatte

18 Différentes applications pour différents besoins
Recherche de documents liés au thème Les camps de réfugiés : Sangatte Recherche de réponses à des questions précises Quand Sangatte a-t-il été créé ? Résumé Visualisation 24 septembre 1999

19 Recherche d’informations précises
… là), marche à pied (on a déjà surpris des étrangers marchant dans le tunnel). Les tentatives de traversées de la Manche sont à peine moins surveillées que les baignades. Quand le temps n'est pas mauvais, on perçoit les côtes anglaises distantes d'une quinzaine de kilomètres. Sur la mer, naviguent en permanence d'énormes ferries. Le camp ouvert à Sangatte — on dira ici plutôt « camp » que « centre », à cause des conditions de vie qui y prévalent (voir ci-dessous) et de l'improbable statut juridique de cette « chose » sans précédent, sauf les camps des Républicains espagnols à la fin des années 30 — a été inauguré le 24 septembre 1999 dans un hangar où était installée, pendant le forage du tunnel sous la Manche, la logistique technique française. L'ouvrage, qui appartenait à la société du tunnel, a été réquisitionné in extremis par les pouvoirs publics pour le transformer en lieu d'accueil, alors qu'il allait être vendu. Il a la …

20 Questions-réponses GOOGLE QALC* When did Alaska become a state?
Objectif: répondre de façon exacte à des questions en langue naturelle Recherche d’Information + Traitement Automatique des Langues When did Alaska become a state? When did Alaska become a state? When did Alaska become a state? GOOGLE QALC* Pas d’anim TAL ALASKA.com|FAQ:How can I become a state park volunteer ? … How can I become a state park volunteer ?... Alaska Elections – State Division of Elections Home Page Alaska State Legislature Homepage… in 1959 *QALC : système de Question-Réponse du LIMSI

21 Caractéristiques des systèmes de questions-réponses (SQR)
Questions en domaine ouvert Vs domaine fermé (météo, voyages) Systèmes actuels : Questions factuelles ou encyclopédiques : Qui a conçu l’ordinateur Macintosh ? Quel métal a le plus haut point de fusion ? Qui a été le premier gouverneur de l’Alaska ? Qu’est-ce que l’homéopathie ? Réponses courtes TREC depuis 1999

22 Exemples de questions Questions de définition Questions factuelles
Acronymes: What is the ESA? Personnes: Who is Goodwill Zwelithini? Objet ou organisation: What is the Civic Alliance? Questions factuelles Instances: Name a university in Berlin. Personnes: What is the Serbian President's name? Caractéristique: How old is Jacques Chirac? Evénementielles: What did astronomers from Alabama University discover? Descriptives: Which genes regulate the immune system?

23 Evaluations Venues de la communauté de la RI Internationales
TREC pour l’anglais CLEF : nombreuses langues + multilingue Francophone EQueR Caractéristiques Corpus = grandes collections majoritairement journalistiques Jugement sur la réponse + sur sa fiabilité

24 Evaluation des réponses (1/2)
Critères inspirés du dialogue (maximes de Grice) Evaluation des réponses en fonction de leur : Pertinence La réponse doit répondre à la question ! Quelle est la taille de la statue de la Liberté ? Précision Niveau de granularité adéquat Où est né Harry Truman ?  aux Etats-Unis/Lamar, Missouri Concision La réponse ne doit pas contenir d’information inutile Quel fleuve des Etats-Unis est surnommé le « Big Muddy » ?  « Le Mississippi, connu aussi sous le nom de « Big Muddy », est la plus »

25 Evaluation des réponses (2/2)
Complétude La réponse doit être complète 500 au lieu de 500€ Simplicité L’utilisateur doit pouvoir lire la réponse facilement Justification La réponse doit être fournie avec un contexte qui permet de comprendre pourquoi la réponse a été choisie Qui était le 16ème Président des Etats-Unis ?  le texte doit préciser que Lincoln était le 16ème Contexte Contexte de validité de la réponse Qui est le Premier Ministre Français ?  date

26 Etat de l’art Actuellement, les meilleurs systèmes à TREC répondent à environ 70% des questions Approches variées : Méthodes s’appuyant sur des bases de connaissances et des techniques de TAL Méthodes utilisant des techniques de surface

27 Question ou mots-clefs Informations pertinentes
Architecture d'un SQR Question ou mots-clefs Question Moteur de recherche Traitement des questions Informations pertinentes Documents pertinents Traitement des documents Archi de base Analyse de la question, production d’une requête IR Extraire un certain nombre de documents Extraire des réponses candidates des documents Sélectionner la meilleure Phrases candidates Recherche de la réponse Réponse

28 XIP, un analyseur robuste Les systèmes de questions-réponses
Etude du système QALC Analyse des questions Sélection et traitement des documents Analyse des phrases candidates Résultats Exemple d’appariement syntaxique Evolution du domaine et perspectives

29 Caractérisation des questions
Quelles informations ? Sur le type de la réponse attendue Entité nommée Type général Sur le contexte de la réponse Lexical Mots de la question Syntaxique Forme syntaxique de la question  Formulation de la réponse Sémantique Objet (focus, thème?) de la question  Entité présente dans la réponse Catégorie de la question

30 Exemple d’analyse de la question
What currency does Argentina use? Type attendu de la réponse Type général : currency Objet de la question : Entité présente dans la phrase réponse : Argentina / currency ? Forme de la question Forme syntaxique de la question What GN GV GN GV Exemples en francais !!! Formulation de réponse : GNRéponse , GNObjet The austral, Argentina 's currency

31 Module d’analyse de la question
Etiquetage morpho-syntaxique Analyse syntaxique Analyse de la question Reconnaissance du type attendu Lexiques Pourquoi flèche entre AS Q et règles ? Patrons + Lexiques Reconnaissance de la catégorie Caractéristiques de la question (XML)

32 Performances sur l’analyse des questions
Module d'analyse des questions fiable (TREC 10) Performances variables selon le type de la question : Meilleure reconnaissance des questions attendant une EN Mauvaise reconnaissance de l’objet de la question sur certaines catégories Pertinence de l’objet de la question (TREC 9) 90 % des questions ont une phrase réponse contenant l'objet 57 % des phrases réponses contiennent l’objet Forme de la question Type de la réponse Objet de la question 97 % 90 % 85 % Exemple de question mal reconnue plutôt

33 Analyse syntaxique des questions
Analyseurs syntaxiques non appropriés pour les questions : Verbe non reconnu : What year did the Titanic sink? Superlatif non reconnu : What metal has the highest melting point? Remaniement des sorties + réécriture de grammaires ?

34 Caractérisation des questions
Objet de la question : pas toujours l'entité sur laquelle il faut se focaliser Question : What is one national park in Indiana ? Réponse : The study examine haze and visitor statistics at Acadia National Park in Maine ; Big bend national park in Texas ; … Indiana Dunes National Lakeshore in Indiana ; Mount Rainier National Park in Washington … => Focalisation sur « national park » donne «Rainier National Park » au lieu de «Indiana Dunes National Lakeshore » À clarifier…

35 XIP, un analyseur robuste Les systèmes de questions-réponses
Etude du système QALC Analyse des questions Sélection et traitement des documents Analyse des phrases candidates Résultats Exemple d’appariement syntaxique Evolution du domaine et perspectives

36 Sélection et traitement des documents
Dans QALC Moteur de recherche Passages de texte de la taille d’un paragraphe en sortie Etiquetage morpho-syntaxique Traitement des documents Ré-indexation et pondération en utilisant Fastr Sélection Etiquetage des entités nommées Pré ou post-traitement ?

37 Variation linguistique (1/2)
Question Phrase réponse Commentaires How many scandals was Tapie implicated in, while boss at Marseille? While boss at Marseille, Tapie said : I have been implicated in four scandals in seven years. Tous les mots (pleins) de la question se retrouvent dans le passage réponse, mais il y a une référence. What is Alexander Solzhenitsyn's wife's name? However his wife Natalya suggested Solzhenitsyn's criticism of the government (…). Le prénom de Solzhenitsyn n'est pas donné. Who is the Norwegian king? Even Crown Prince Harald, who is now Norway's king, called it a wild idea. king est dans la phrase réponse, mais Norwegian devient Norway's

38 Variation linguistique (2/2)
Question Phrase réponse Commentaires When will the Human Genome Project be completed? The Human Genome Project, a 15-year, $3-billion effort, is set for completion in 2005. will be completed devient is set for completion Which space probe set off for the Moon on 25 January 1994 ? Clementine, which will map the moon and fly by an asteroid while testing military sensors, had been in a circular orbit around Earth since it was launched Jan. 25 from Vandenberg Air Force Base. space probe disparaît, set off devient launched, January est abrégé en Jan. When was the safety zone in southern Lebanon created? Israel has held to an occupation strip in south Lebanon since 1978 (...) in order to protect itself from Crossborder guerrilla attacks. zone devient strip, southern devient south, safety devient to protect itself, created devient since...

39 Fastr pour re-indexer (1/2)
(Christian Jacquemin) Regroupement de termes multi-mots : les variantes linguistiques d'un concept genetic disease genetic diseases Flexion disease is genetic Syntaxe hereditary disease Sémantique genetically determined forms of the disease Morphologie disease is familial Sémantique + Syntaxe transmissible neurodegenerative diseases Sémantique + Syntaxe genetic risk factors for artery disease Variante incorrecte

40 Fastr pour re-indexer (2/2)
Ressources Famille sémantique d'un mot (à partir du thésaurus WordNet), par exemple, manufacturer, shaper pour le nom maker Famille morphologique d'un mot (à partir de la base CELEX), par exemple, maker, make, remake, to make et to remake pour le nom maker Application de patrons : … making many automobiles… -> variante de car maker

41 Etiquetage des entités nommées (EN)
Entités nommées = éléments qu’il est intéressant de pouvoir distinguer du reste du texte Entités : personnes, organisations, lieux Dates : dates, heures Quantités : montants financiers, pourcentages Pour tous les documents retenus : Par utilisation de listes : Pour les prénoms, les villes,… Par application de règles (grammaires locales) Organisation -> NomOrg SP <EN organisation> Ministère des Affaires Étrangères </EN> Personne -> Prénom NPropre <EN personne>Jacques Chirac</EN>

42 Hiérarchie des entités nommées
Entité nommée Nom propre Entité numérique Organisation Lieu Nombre Personne Poids Pourcentage Volume Vitesse Physique Expression temporelle Longueur Montant financier Date Age Température Durée Jour Période

43 Exemple de document When will the Human Genome Project be completed ?
The DT the Human NP Human Genome NN genome Project NP Project , , , a DT a <numex type="FINANCIAL_AMOUNT"> $ $ $ 3-billion CD 3-billion </numex> effort NN effort is VBZ be set VVN set for IN for completion NN completion <timex type="DATE"> in IN in 2005 CD </timex> . SENT . Variantes Fastr: human genome project Human Genome Project

44 Des documents aux phrases…
Poids pour toutes les phrases : Lemmes de la question et leurs variantes  poids de référence + si mots exacts et proximité de ces mots + si entité nommée du type attendu X phrases par question : dépend des évaluations!

45 XIP, un analyseur robuste Les systèmes de questions-réponses
Etude du système QALC Analyse des questions Sélection et traitement des documents Analyse des phrases candidates Résultats Exemple d’appariement syntaxique Evolution du domaine et perspectives

46 Stratégie fondée sur les EN
Sélection de l’EN du bon type la plus proche des mots de la question En quelle année a été achetée l’Alaska? Type EN attendu : année « En 1867, lorsque W.H.Seward a négocié l’achat de l’Alaska… » Exs de questions avt !!

47 Recherche des EN 1867 Moteur de recherche
En quelle année a été achetée l’Alaska ? Traitement des questions Moteur de recherche EN Date attendue (…) En 1867, lorsque W.H.Seward a négocié l’achat de l’Alaska… Traitement des documents En 1867, lorsque W.H.Seward a négocié l’achat de l’Alaska… Recherche de la réponse 1867

48 Stratégie insuffisante (1/3)
Très bonne reconnaissances des EN mais : Difficultés de délimitation des EN Certaines EN ne sont pas reconnues (incomplétude des listes d’EN, de déclencheurs, de règles…) Ambiguïté du type attendu de la réponse Qui a gagné la dernière coupe du monde de foot ? Organisation (équipe) attendue et non pas personne Où la bile est-elle produite ? Partie du corps attendue et non pas lieu

49 Stratégie insuffisante (2/3)
Ambiguïté des phrases candidates Présence de plusieurs EN du type attendu Question : How late is Disneyland open? Phrase réponse : During the summer, the park is open from 8 a.m. until midnight Présence d’une EN du bon type, mais qui ne correspond pas du tout à la réponse Question : What is Marilyn Monroe's real name? Type attendu de la réponse : Personne Phrase candidate : "the rumors about J.F. Kennedy and Marilyn Monroe …«

50 Stratégie insuffisante (3/3)
Certaines questions n’attendent pas une réponse EN De quel instrument Mozart jouait-il ? Comment est mort Micky Mantel ? Nécessité de connaissances linguistiques Recherche plus précise de la réponse Analyse de questions non EN

51 Utilisation de l’analyse de la question
On dispose des informations suivantes : Objet + autres mots de la question Type attendu de la réponse - EN ou type général Forme de la question et donc formulations possibles de la réponse Stratégies adoptées : Recherche de reformulations de la question Patrons syntaxiques

52 Utilisation des informations lors de la recherche de la réponse
Patrons syntaxiques Question : What does Knight Ridder publish? Forme de la question : WhatDoGNverbe Formulation : GN verbe GNréponse « Knight Ridder published 30 daily newspapers … » Stratégie efficace mais écriture manuelle fastidieuse pas toujours fiables : patrons de proximité mettre en place des règles de vérification Diviser en deux Exemple d’utilisation Analyse plus précise de la question

53 XIP, un analyseur robuste Les systèmes de questions-réponses
Etude du système QALC Analyse des questions Analyse des phrases candidates Résultats Exemple d’appariement syntaxique Evolution du domaine et perspectives

54 Résultats du système QALC
Sur les questions anglaises de la campagne d’évaluation CLEF 2005

55 Outils externes principaux de QALC (et autres)
Moteurs de recherche MG en anglais, Lucene en français Etiqueteurs morpho-syntaxiques TreeTagger en anglais, TreeTagger+XIP en français Analyseurs syntaxiques Cass en anglais, XIP en français Ressources terminologiques Fastr pour variations WordNet pour synonymes en anglais

56 XIP, un analyseur robuste
Les systèmes de questions-réponses Etude du système QALC Exemple d’appariement syntaxique Evolution du domaine et perspectives

57 Pourquoi analyser les phrases réponses ?
Question : Who killed Lee Harvey Oswald? Phrase réponse : Jack Ruby, who killed JFK’s assassin Lee Harvey Oswald …. Stratégies actuelles inefficaces Utilisation de relations syntaxiques : Question: sujet (?, kill) et objet (kill, L.H.O.) Réponse: sujet (Jack Ruby, kill) et objet (kill, L.H.O.)

58 Principe de l'appariement
Analyse syntaxique Who is the evil H. R. Director in Dilbert ? sujet (?, be) et attribut (Director, be) Recherche des relations de la question ou de reformulations Catbert is the evil H. R. Director in Dilbert… sujet (Catbert, be) et attribut (Director, be) Catbert, the evil H. R. Director in Dilbert, … apposition (Catbert, Director)

59 Méthodes pour l’appariement
Appariement à partir des relations de dépendance Quel formalisme de représentation pour les questions et les phrases candidates ? Quel mécanisme d’appariement ? Quelques possibilités Graphes + algorithme de relaxation de contraintes Réseaux sémantiques + règles d’inférence Représentation logique + démonstrateur

60 Un exemple d’appariement fondé sur les relations syntaxiques
LCC (Language Computer Corporation) [Moldovan et al., 2002] Analyse syntaxique des questions et des phrases candidates Passage à une forme logique Appariement question-réponse grâce à : Ressources sémantiques Démonstrateur logique Extraction de la réponse

61 Architecture du système
Traitement de la question Traitement des documents Extraction de la réponse Question Analyse syntaxique Transformation sémantique Reconnaissance du type attendu de la réponse Extraction de mots-clefs Passages Recherche de passages Index de documents Extraction de la réponse Justification Classement Démonstrateur Base de connaissances Réponse Pour les questions factuelles Reconnaissance des EN Hiérarchie des types de réponses Collection de documents Harabagiu et al., 2004 (schéma simplifié, valable uniquement pour les questions factuelles)

62 Formes logiques Représentation intermédiaire entre l’analyse syntaxique et une forme sémantique profonde Utilisation de relations de dépendance : sujets, objets, rattachements prépositionnels… Exemple Phrase : Heavy selling of Standard & Poor ‘s 500-stock index futures in Chicago relentlessly beat stocks downward. Forme logique : heavy_JJ(x1) & selling_NN(x1) & of_IN(x1,x6) & Standard_NN(x2) & &_CC(x13,x2,x3) & Poor_NN(x3) & ‘s_POS(x6,x13) & 500-stock_JJ(x6) & index_NN(x4) & future_NN(x5) & nn_NNC(x6,x4,x5) & in_IN(x1,x8) & Chicago_NN(x8) & relentlessly_RB(e12) & beat_VB(e12,x1,x9) & stocks_NN(x9) & downward_RB(e12) x : variables, e : prédicats

63 Extended WordNet Enrichissement sémantique : Wordnet :
Base de données lexicale Organisation : concepts (ensemble de synonymes) Catégories de mots : noms, verbes, adjectifs et adverbes Relations entre ces concepts : hyponymie, hyperonymie, méronymie Extended WordNet : Transcription sous forme logique de toutes les informations de WordNet Exemples d’utilisation d’Extended WordNet par LCC : Q : How many chromosomes does a human zygote have ? A : 46 chromosomes that lie in the nucleus of every normal human cell Chaîne lexicale formée : zygote:n#1 -> HYPERNYM -> cell:n#1 -> HAS_PART -> nucleus:n#1 Q : What Spanish explorer discovered the Mississipi River ? A : Spanish explorer Hernando de Soto reached the Mississipi River Chaîne lexicale : Discover:v#7 -> GLOSS -> reach:v#1

64 Exemple d’appariement
Question Which company created the Internet Browser Mosaic? Forme logique de la question organization AT(x2) & company NN(x2) & create VB(e1,x2,x6) & Internet NN(x3) & browser NN(x4) & Mosaic NN(x5) & nn NNC(x6,x3,x4,x5) Phrase réponse (…) a program called Mosaic , developed by the National Center for Supercomputing Applications… Exemple de chaînes extraites de WordNet Develop  make et make  create

65 Exemples de difficultés (1/2)
Reconnaissance du texte brut, avec erreurs de frappe ou d’orthographe Niagra  « Niagara » non reconnu Erreur d’étiquetage morpho-syntaxique Where did the Maya people live?  « live » étiqueté comme un nom Mauvais type de réponse attendu In what area of the world was the Six day War fought?  type Quantity attendu au lieu de Location What is the average life span of an agouti?  type Average attendu au lieu de Number

66 Exemples de difficultés (2/2)
Mauvais mots-clefs dans la requête au moteur de recherche « Where did the Battle of the Bulge take place ? »  place conservé Expansion de requête incomplète « What is the murder rate in Windsor, Ontario ? »  phrase réponse contient «homicide» Requêtes trop larges « Who was the first president of the U.S. ? »  la réponse n’est pas dans les 500 premiers documents EN non reconnues

67 CWS = Confidence-Weighted Score :
Résultats TREC 2002 Tâche principale + Equer + Clef CWS = Confidence-Weighted Score : scores pondérés par la confiance que les systèmes donnent à leurs réponses

68 XIP, un analyseur robuste
Les systèmes de questions-réponses Etude du système QALC Exemple d’appariement syntaxique Evolution du domaine et perspectives

69 Evolution du domaine Evolution des réponses depuis 1er TREC : chaîne de 250 caractères à réponse précise Evolution des types de questions dans les évaluations Questions « à thème » (TREC 2004) Questions temporelles (CLEF 2005)

70 Catégories classiques de questions
Questions factuelles générales How many people live in Iceland? Questions de définition définir une personne : Who is Antonia Coello Novello?‘ un groupe de personnes : What is Destiny's Child? ou un objet quelconque : What is Bollywood?, What is a quasar? Questions ``listes'' qui attendent un ensemble de réponses Who are professional female boxers?, List the names of casinos owned by Native Americans.

71 Extensions : Questions « à thème » (1/3)
Plusieurs questions portant sur un même thème <target id = "8" text = "Black Panthers"> <qa> <q id = "8.1" type="FACTOID"> Who founded the Black Panthers organization? </q> </qa> <qa> <q id = "8.2" type="FACTOID"> When was it founded? </q> </qa> Bobby Seale 1966

72 Questions « à thème » (2/3)
<qa> <q id = "8.3" type="FACTOID"> Where was it founded? </q> </qa> <qa> <q id = "8.4" type="LIST"> Who have been members of the organization? </q> </qa> Oakland, California Mumia Abu-Jamal, Jamil Abdullah Al-Amin, Bill Brent, Elaine Brown, Rap Brown, Tony Bryant, Stokeley Carmichael, Mark Clark, Eldridge Cleaver, Fred Hampton, David Hilliard, Ericka Huggins, Lonnie McLucas, Huey Newton, Elmer "Geronimo" Pratt, Alex Rackley, Bobby Rush, Bobby Seale

73 Questions « à thème » (3/3)
<qa> <q id = "8.5" type="OTHER"> Other </q> </qa> </target> 8.5 1 vital Black militant group. 8.5 2 vital Radical chic heroes of the 60's. 8.5 3 okay Emphasized multiculturalism. 8.5 4 okay Emphasized community empowerment. 8.5 5 okay Hilliard later ran for Oakland City Council. 8.5 6 okay Seale later ran for Oakland mayor. 8.5 7 okay Rush later became congressperson. 8.5 8 okay Infiltrated by FBI COINTELPRO. 8.5 9 okay Provided health care to poor.

74 Questions « temporelles » (1/2)
CLEF 2005 : introduction des questions temporelles : What newspaper was founded in Kiev in 1994? Who played the role of Superman before being paralyzed? Who was the President of the United States of America between 1976 and 1980?

75 Questions « temporelles »(2/2)
Who praised Indurain for his « capacity for sacrifice, class and healthy spirit of competition », when he won the Tour de France for the fourth time? Who continued to be supplied with contaminated blood products six months after an American blood-screening test and heat-treatment process were available in other countries? Whose government broke off negotiations with the Tamil rebels, following Dissanayake's murder?

76 D’une langue à plusieurs…
CLEF : Question dans une langue, documents dans une autre CLEF 2006 Monolingue : bulgare, allemand, espagnol, français, italien, néerlandais et portugais Autres langues sources : anglais, indonésien, roumain Autre langue cible : anglais Contexte de recherche : RI interlingue et multilingue

77 Architecture du système bilingue
Collection de documents Analyse de la question Moteur de recherche Traitement des documents Question en français Fusion Réponses en anglais Traduction vers l’anglais Questions en anglais Termes en anglais

78 Stratégies possibles Traduction de la question Traduction des termes
Avantages : une seule traduction assez fiable Inconvénients : questions non grammaticales Traduction des termes Traductions mot à mot et validation des multitermes en corpus Avantages : analyse de la question sur une question bien formée Inconvénients : bruit des traductions Normalement, y a un transparent avant avec archi multilingue

79 Résultats des systèmes bilingues
Système du LIMSI, sur les questions de la tâche français vers anglais de CLEF 2005 Traduction des questions

80 Difficultés de traduction
Forme syntaxique Quand est mort Gengis Khan ? When died Gengis Khan? Qu'est-ce que le GATT ? What the GATT? Depuis quand Israël et la Jordanie sont-ils en guerre ? Since when Israel and Jordan they are at war? Choix lexicaux de traduction Dans combien de scandales fut impliqué Tapie, lorsqu'il était patron de Marseille ? In how many scandals was involved Hidden, when he was a boss of Marseille? Quel montant Selten, Nash et Harsanyi ont-ils reçu pour le prix Nobel d'économie ? What going up Selten, Nash and Harsanyi did they receive for the Nobel prize of economy?

81 Quelques limitations des systèmes de QR actuels
Questions factuelles ou encyclopédiques Pas de traitement de l’ambiguïté dans les questions Réponses extraites d’un seul document Peu de raisonnement nécessaire Architecture des systèmes influencée par les évaluations Pas de modélisation de l’utilisateur Closed-class questions : toujours les mêmes patrons de questions, réponses courtes, peu de raisonnement Archis influencées par évaluations Pas de modélisation de l’utilisateur-> pas de traitement de l’ambiguïté dans la question

82 Extensions possibles Interactivité Méthodes de raisonnement simples
Q : Quelle est la longueur d’un Boeing 747 ? Et sa hauteur ? Méthodes de raisonnement simples Q : Comment est mort Socrate ? R : En buvant du vin empoisonné Fusion d’information Q : Comment fabriquer une bicyclette ? Capacités spéculatives, récapitulatives… Q : Les Etats-Unis sont-ils sortis de la récession ? Limitations actuelles des systèmes de QR Questions factuelles ou encyclopédiques Réponses extraites d’un seul document Closed-class questions : toujours les mêmes patrons de questions, réponses courtes, peu de raisonnement Archis influencées par évaluations Pas de modélisation de l’utilisateur-> pas de traitement de l’ambiguïté dans la question

83 En conclusion… Analyse syntaxique robuste = atout pour les systèmes de Question-Réponse Questions : Détermination des informations nécessaires à la recherche de la réponse Phrases candidates : Possibilité de passage à un formalisme plus profond Possibilité de lien avec des connaissances sémantiques

84 Références Quelques références… XIP QALC ou autres systèmes du LIMSI
Aït-Mokhtar S., Chanod J.-P., Roux C. (2002), Robustness beyond shallowness: incremental deep parsing, Journal of Natural Language Enginerring, Vol. 8 (3-2). QALC ou autres systèmes du LIMSI L'extraction des réponses dans un système de question-réponse; A.-L. Ligozat, B. Grau, I. Robba, A. Vilnat, TALN 2006, Louvain, Belgique. Evaluation and Improvement of Cross-Lingual Question Answering Strategies; A.-L. Ligozat, B. Grau, I. Robba, A. Vilnat, Workshop MLQA d'EACL, Trente, 2006. LCC Dan I. Moldovan, Marius Pasca, Sanda M. Harabagiu, Mihai Surdeanu: Performance Issues and Error Analysis in an Open-Domain Question Answering System. ACL 2002: 33-40 Evaluations Question-Réponse TREC : CLEF : Equer :


Télécharger ppt "Analyse syntaxique et systèmes de questions-réponses"

Présentations similaires


Annonces Google