La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay.

Présentations similaires


Présentation au sujet: "Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay."— Transcription de la présentation:

1 Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

2 2 Objectifs du cours Présenter les systèmes de questions- réponses Présenter les systèmes de questions- réponses Montrer un cadre dapplication des différents domaines du TAL présentés: morphologie, syntaxe, sémantique et multilinguisme Montrer un cadre dapplication des différents domaines du TAL présentés: morphologie, syntaxe, sémantique et multilinguisme –En particulier, utilisation de connaissances syntaxiques pour la recherche dinformations précises

3 3 Plan de la présentation XIP, un analyseur robuste XIP, un analyseur robuste oLes systèmes de questions-réponses oEtude du système QALC oExemple dappariement syntaxique oEvolution du domaine et perspectives

4 4 XIP : un analyseur robuste oRobustesse = capacité d'un analyseur à fournir des analyses correctes pour des corpus tout venant oProduire une analyse même minimale pour toute entrée oLimiter le nombre danalyses produites ou donner des indications sur les préférences

5 5 Présentation de XIP o XIP = Xerox Incremental Parser o Développé par XRCE, Centre de Recherche Européen de Xerox [Aït-Mokhtar, Chanod and Roux 2002] o Analyseur partiel : sortie pas forcément complète (mais robustesse) o Sorties : o Etiquetage morpho-syntaxique o Constituants ou chunks o Relations de dépendance (entre les têtes de 2 syntagmes)

6 6 Syntaxe = étude de lorganisation des mots en phrases Structure syntagmatique Structure syntagmatique –Arbre de constituants –Catégories et frontières des constituants Fonctions ou relations de dépendance Fonctions ou relations de dépendance –Arbre de dépendance Marie aime le chocolat NP GN P GV V GN Det N Marie aime chocolat le sujet objet det

7 7 Caractéristiques de XIP o Incrémental grâce à des paquets ordonnés de règles o Sortie unique mais o Déterministe pour la segmentation en constituants o Non déterministe pour l'extraction des dépendances o Souple : grammaires facilement modifiables

8 8 Sorties de XIP Le chat de la voisine - au demeurant peu aimable – est parti en miaulant capturer une souris qui traînait là. Segmentation en constituants Segmentation en constituants { SC {NP {Le chat} PP {de NP {la voisine} } INS {- AP {au demeurant peu aimable} -} FV {est parti} } GV {en miaulant} IV {capturer} NP {une souris} SC { BG {qui} FV {traînait} } là.}

9 9 Sorties de XIP GROUPE(1) GROUPE(1) + | SC SC | | | | | | | | NP PP INS FV NP PP INS FV | | | | | | | | | | | | | | | | | | DET NOUN PREP NP PUNCT AP PUNCT VERB VERB DET NOUN PREP NP PUNCT AP PUNCT VERB VERB | | | | | | | | | | | | | | | | | | | | | | | | Le chat de DET NOUN - ADV ADV ADJ - est parti Le chat de DET NOUN - ADV ADV ADJ - est parti | | | | | | | | | | la voisine au demeurant peu aimable la voisine au demeurant peu aimable (…)

10 10 Sorties de XIP SUBJ_NOUN(parti,chat) SUBJ_REL_COREF_NOUN(traînait,souris) SUBJ(capturer,chat) VARG_NOUN_DIR(capturer,souris) VARG_INF_DIR(parti,capturer) COREF_POSIT1_REL(souris,qui) VMOD_POSIT1_ADV(traînait,là) NMOD_POSIT1_RIGHT_ADJ(voisine,aimable) NMOD_POSIT1_NOUN_INDIR(chat,de,voisine) PREPOBJ_CLOSED(de,voisine) DETERM_DEF_NOUN_DET(Le,chat) + Relations de dépendance

11 11 Architecture de XIP Pré-traitementContrôle des entréesDésambiguïsationSegmentationAnalyse des dépendances Règles de Désambiguïsation Règles de dépendance Règles de segmentation Texte en entrée Texte analysé morphologiquement Texte désambiguïsé (pos) Texte annoté syntaxiquement RessourcesModulesTextes traités Texte analysé

12 12 Fonctionnement 3 étapes principales : –Désambiguïsation des parties du discours (pos) des parties du discours (pos) –Segmentation –Dépendances

13 13 Désambiguïsation o 292 règles ~ o Choix de l'interprétation la plus probable d'un mot en fonction de son contexte o Désambiguïsation de certains traits o Règles de la forme : interprétations = | Contexte-G | choix | Contexte-D| /*** REGLE DESAMB 68 ***\ / même lui\ 1> adj,adv = adv |pron[noun:~]|

14 14 Segmentation o 121 règles ~ o Groupement des mots en segments (chunks) o Règles organisées par niveaux, pas de retour arrière, pas de récursivité o Règles de la forme : nœud non lexical -> | Ctxte| suite de nœuds |Ctxte| / très grand \ 1> AP -> (adv+[last:~]),adj[verb:~].

15 15 Dépendances o 22 règles ~ o Création de relations de dépendance entre les mots o Deux types de règles : o Création de dépendances o Ajout de nouvelles caractéristiques o Règles de la forme : |pattern| if … | SC { NP}, VP, NP} | if (~Subj(#,#2)) Subj (#1,#2),Obj (#2,#3) #2 #3 #1 TOP SC NP VP Det Nom chatLe Verbe mange lasouris Subj(chat,manger) Obj(manger,souris)

16 16 o XIP, un analyseur robuste Les systèmes de questions-réponses Les systèmes de questions-réponses oEtude du système QALC oExemple dappariement syntaxique oEvolution du domaine et perspectives

17 17 Recherche dinformations précises Type dinformations Type dinformations –Accès aux informations externes –Veille scientifique, technique, commerciale, … –Gestion des informations internes Besoin informationnel Besoin informationnel –Large : constitution dun dossier Sangatte Sangatte –Précis : question précise Date de création de Sangatte Date de création de Sangatte

18 18 Différentes applications pour différents besoins Recherche de documents liés au thème Recherche de documents liés au thème Les camps de réfugiés : Sangatte Les camps de réfugiés : Sangatte Recherche de réponses à des questions précises Quand Sangatte a-t-il été créé ? Résumé Visualisation 24 septembre 1999

19 19 Recherche dinformations précises … là), marche à pied (on a déjà surpris des étrangers marchant dans le tunnel). Les tentatives de traversées de la Manche sont à peine moins surveillées que les baignades. Quand le temps n'est pas mauvais, on perçoit les côtes anglaises distantes d'une quinzaine de kilomètres. Sur la mer, naviguent en permanence d'énormes ferries. Le camp ouvert à Sangatte on dira ici plutôt « camp » que « centre », à cause des conditions de vie qui y prévalent (voir ci-dessous) et de l'improbable statut juridique de cette « chose » sans précédent, sauf les camps des Républicains espagnols à la fin des années 30 a été inauguré le 24 septembre 1999 dans un hangar où était installée, pendant le forage du tunnel sous la Manche, la logistique technique française. L'ouvrage, qui appartenait à la société du tunnel, a été réquisitionné in extremis par les pouvoirs publics pour le transformer en lieu d'accueil, alors qu'il allait être vendu. Il a la …

20 20 Questions-réponses o Objectif: répondre de façon exacte à des questions en langue naturelle o Recherche dInformation + Traitement Automatique des Langues ALASKA.com|FAQ:How can I become a state park volunteer ? … How can I become a state park volunteer ?... Alaska Elections – State Division of Elections Home Page Alaska State Legislature Homepage… in 1959 GOOGLE QALC * When did Alaska become a state? *QALC : système de Question-Réponse du LIMSI When did Alaska become a state?

21 21 Caractéristiques des systèmes de questions-réponses (SQR) o Questions en domaine ouvert oVs domaine fermé (météo, voyages) o Systèmes actuels : o Questions factuelles ou encyclopédiques : o Qui a conçu lordinateur Macintosh ? o Quel métal a le plus haut point de fusion ? o Qui a été le premier gouverneur de lAlaska ? o Quest-ce que lhoméopathie ? o Réponses courtes

22 22 Exemples de questions Questions de définition Questions de définition Acronymes: What is the ESA? Acronymes: What is the ESA? Personnes: Who is Goodwill Zwelithini? Personnes: Who is Goodwill Zwelithini? Objet ou organisation: What is the Civic Alliance? Objet ou organisation: What is the Civic Alliance? Questions factuelles Questions factuelles Instances: Name a university in Berlin. Instances: Name a university in Berlin. Personnes: What is the Serbian President's name? Personnes: What is the Serbian President's name? Caractéristique: How old is Jacques Chirac? Caractéristique: How old is Jacques Chirac? Evénementielles: What did astronomers from Alabama University discover? Evénementielles: What did astronomers from Alabama University discover? Descriptives: Which genes regulate the immune system? Descriptives: Which genes regulate the immune system?

23 23 Evaluations Venues de la communauté de la RI Venues de la communauté de la RI Internationales Internationales –TREC pour langlais –CLEF : nombreuses langues + multilingue Francophone Francophone –EQueR Caractéristiques Caractéristiques –Corpus = grandes collections majoritairement journalistiques –Jugement sur la réponse + sur sa fiabilité

24 24 Evaluation des réponses (1/2) Critères inspirés du dialogue (maximes de Grice) Critères inspirés du dialogue (maximes de Grice) Evaluation des réponses en fonction de leur : Evaluation des réponses en fonction de leur : –Pertinence La réponse doit répondre à la question ! La réponse doit répondre à la question ! Quelle est la taille de la statue de la Liberté ? Quelle est la taille de la statue de la Liberté ? –Précision Niveau de granularité adéquat Niveau de granularité adéquat Où est né Harry Truman ? aux Etats-Unis/Lamar, Missouri Où est né Harry Truman ? aux Etats-Unis/Lamar, Missouri –Concision La réponse ne doit pas contenir dinformation inutile La réponse ne doit pas contenir dinformation inutile Quel fleuve des Etats-Unis est surnommé le « Big Muddy » ? Quel fleuve des Etats-Unis est surnommé le « Big Muddy » ? « Le Mississippi, connu aussi sous le nom de « Big Muddy », est la plus » « Le Mississippi, connu aussi sous le nom de « Big Muddy », est la plus »

25 25 Evaluation des réponses (2/2) –Complétude La réponse doit être complète La réponse doit être complète 500 au lieu de au lieu de 500 –Simplicit é L utilisateur doit pouvoir lire la r é ponse facilement L utilisateur doit pouvoir lire la r é ponse facilement –Justification La réponse doit être fournie avec un contexte qui permet de comprendre pourquoi la réponse a été choisie La réponse doit être fournie avec un contexte qui permet de comprendre pourquoi la réponse a été choisie Qui était le 16ème Président des Etats-Unis ? le texte doit préciser que Lincoln était le 16ème Qui était le 16ème Président des Etats-Unis ? le texte doit préciser que Lincoln était le 16ème –Contexte Contexte de validité de la réponse Contexte de validité de la réponse Qui est le Premier Ministre Français ? date Qui est le Premier Ministre Français ? date

26 26 Etat de lart Actuellement, les meilleurs systèmes à TREC répondent à environ 70% des questions Actuellement, les meilleurs systèmes à TREC répondent à environ 70% des questions Approches variées : Approches variées : –Méthodes sappuyant sur des bases de connaissances et des techniques de TAL –Méthodes utilisant des techniques de surface

27 27 Architecture d'un SQR Question Traitement des questions Traitement des documents Recherche de la réponse Réponse Moteur de recherche Question ou mots-clefs Phrases candidates Documents pertinents Informations pertinentes

28 28 o XIP, un analyseur robuste o Les systèmes de questions-réponses Etude du système QALC Etude du système QALC Analyse des questions Analyse des questions oSélection et traitement des documents oAnalyse des phrases candidates oRésultats oExemple dappariement syntaxique oEvolution du domaine et perspectives

29 29 Caractérisation des questions Quelles informations ? Quelles informations ? –Sur le type de la réponse attendue Entité nommée Entité nommée Type général Type général –Sur le contexte de la réponse Lexical Lexical –Mots de la question Syntaxique Syntaxique –Forme syntaxique de la question Formulation de la réponse Sémantique Sémantique –Objet (focus, thème?) de la question Entité présente dans la réponse –Catégorie de la question

30 30 Exemple danalyse de la question What currency does Argentina use? Forme de la question Forme syntaxique de la question What GN GV GN GV Type attendu de la réponse Type général :currency Objet de la question : Entité présente dans la phrase réponse : Argentina / currency ? Formulation de réponse : GNRéponse, GNObjet The austral, Argentina 's currency

31 31 Module danalyse de la question Question Etiquetage morpho-syntaxique Analyse syntaxique Analyse de la question Reconnaissance du type attendu Reconnaissance de la catégorie Caractéristiques de la question (XML) Lexiques Patrons + Lexiques

32 32 Performances sur lanalyse des questions oModule d'analyse des questions fiable (TREC 10) oPerformances variables selon le type de la question : oMeilleure reconnaissance des questions attendant une EN oMauvaise reconnaissance de lobjet de la question sur certaines catégories o oPertinence de lobjet de la question (TREC 9) o o 90 % des questions ont une phrase réponse contenant l'objet o o 57 % des phrases réponses contiennent lobjet Forme de la question Type de la réponse Objet de la question 97 % 90 % 85 %

33 33 Analyse syntaxique des questions o Analyseurs syntaxiques non appropriés pour les questions : –Verbe non reconnu : What year did the Titanic sink? –Superlatif non reconnu : What metal has the highest melting point? Remaniement des sorties Remaniement des sorties

34 34 Caractérisation des questions o Objet de la question : pas toujours l'entité sur laquelle il faut se focaliser Question : What is one national park in Indiana ? Réponse : The study examine haze and visitor statistics at Acadia National Park in Maine ; Big bend national park in Texas ; … Indiana Dunes National Lakeshore in Indiana ; Mount Rainier National Park in Washington … => Focalisation sur « national park » donne «Rainier National Park » au lieu de «Indiana Dunes National Lakeshore »

35 35 o XIP, un analyseur robuste o Les systèmes de questions-réponses Etude du système QALC Etude du système QALC o Analyse des questions Sélection et traitement des documents Sélection et traitement des documents oAnalyse des phrases candidates oRésultats oExemple dappariement syntaxique oEvolution du domaine et perspectives

36 36 Sélection et traitement des documents Dans QALC Dans QALC –Moteur de recherche Passages de texte de la taille dun paragraphe en sortie Passages de texte de la taille dun paragraphe en sortie Etiquetage morpho-syntaxique Etiquetage morpho-syntaxique –Traitement des documents Ré-indexation et pondération en utilisant Fastr Ré-indexation et pondération en utilisant Fastr Sélection Sélection Etiquetage des entités nommées Etiquetage des entités nommées Pré ou post-traitement ? Pré ou post-traitement ?

37 37 Variation linguistique (1/2) Question Phrase réponse Commentaires How many scandals was Tapie implicated in, while boss at Marseille? While boss at Marseille, Tapie said : I have been implicated in four scandals in seven years. Tous les mots (pleins) de la question se retrouvent dans le passage réponse, mais il y a une référence. What is Alexander Solzhenitsyn's wife's name? However his wife Natalya suggested Solzhenitsyn's criticism of the government (…). criticism of the government (…). Le prénom de Solzhenitsyn n'est pas donné. Who is the Norwegian king? Even Crown Prince Harald, who is now Norway's king, called it a wild idea. king est dans la phrase réponse, mais Norwegian devient Norway's

38 38 Variation linguistique (2/2) Question Phrase réponse Commentaires When will the Human Genome Project be completed? The Human Genome Project, a 15-year, $3-billion effort, is set for completion in will be completed devient is set for completion Which space probe set off for the Moon on 25 January 1994 ? Clementine, which will map the moon and fly by an asteroid while testing military sensors, had been in a circular orbit around Earth since it was launched Jan. 25 from Vandenberg Air Force Base. space probe disparaît, set off devient launched, January est abrégé en Jan. When was the safety zone in southern Lebanon created? Israel has held to an occupation strip in south Lebanon since 1978 (...) in order to protect itself from (...) in order to protect itself from Crossborder guerrilla attacks. zone devient strip, southern devient south, safety devient to protect itself, created devient since...

39 39 Fastr pour re-indexer (1/2) (Christian Jacquemin) Regroupement de termes multi-mots : les variantes linguistiques d'un concept Regroupement de termes multi-mots : les variantes linguistiques d'un concept –genetic disease genetic diseasesFlexion disease is geneticSyntaxe hereditary diseaseSémantique genetically determined forms of the diseaseMorphologie disease is familial Sémantique + Syntaxe transmissible neurodegenerative diseases Sémantique + Syntaxe genetic risk factors for artery disease Variante incorrecte

40 40 Fastr pour re-indexer (2/2) Ressources Ressources –Famille sémantique d'un mot (à partir du thésaurus WordNet), par exemple, manufacturer, shaper pour le nom maker –Famille morphologique d'un mot (à partir de la base CELEX), par exemple, maker, make, remake, to make et to remake pour le nom maker Application de patrons : Application de patrons : … making many automobiles… -> variante de car maker

41 41 Etiquetage des entités nommées (EN) Entités nommées = éléments quil est intéressant de pouvoir distinguer du reste du texte Entités nommées = éléments quil est intéressant de pouvoir distinguer du reste du texte Entités : personnes, organisations, lieux Entités : personnes, organisations, lieux Dates : dates, heures Dates : dates, heures Quantités : montants financiers, pourcentages Quantités : montants financiers, pourcentages Pour tous les documents retenus : Pour tous les documents retenus : –Par utilisation de listes : Pour les prénoms, les villes,… Pour les prénoms, les villes,… –Par application de règles (grammaires locales) Organisation -> NomOrg SP Organisation -> NomOrg SP – Ministère des Affaires Étrangères – Ministère des Affaires Étrangères Personne -> Prénom NPropre Personne -> Prénom NPropre – Jacques Chirac – Jacques Chirac

42 42 Hiérarchie des entités nommées Entité nommée Nom propre Lieu Organisation Personne Entité numérique Nombre Pourcentage Montant financier Physique Température Longueur Volume Vitesse Poids Expression temporelle Age Période Durée Jour Date

43 43 Exemple de document TheDTthe HumanNPHuman GenomeNNgenome ProjectNPProject,,, aDTa $$ $ 3-billionCD3-billion effortNNeffort,,, isVBZbe setVVN set forINfor completionNNcompletion inINin .SENT. Variantes Fastr: human genome project Human Genome Project When will the Human Genome Project be completed ?

44 44 Des documents aux phrases… Poids pour toutes les phrases : Poids pour toutes les phrases : –Lemmes de la question et leurs variantes poids de référence poids de référence – + si mots exacts et proximité de ces mots – + si entité nommée du type attendu –X phrases par question : dépend des évaluations!

45 45 o XIP, un analyseur robuste o Les systèmes de questions-réponses Etude du système QALC Etude du système QALC o Analyse des questions oSélection et traitement des documents Analyse des phrases candidates Analyse des phrases candidates oRésultats oExemple dappariement syntaxique oEvolution du domaine et perspectives

46 46 Stratégie fondée sur les EN Sélection de lEN du bon type la plus proche des mots de la question Sélection de lEN du bon type la plus proche des mots de la question En quelle année a été achetée lAlaska? Type EN attendu : année En quelle année a été achetée lAlaska? Type EN attendu : année « En 1867, lorsque W.H.Seward a négocié lachat de lAlaska… »

47 47 Recherche des EN En quelle année a été achetée lAlaska ? Traitement des questions Traitement des documents Recherche de la réponse 1867 Moteur de recherche En 1867, lorsque W.H.Seward a négocié lachat de lAlaska… (…) En 1867, lorsque W.H.Seward a négocié lachat de lAlaska… (…) EN Date attendue

48 48 Stratégie insuffisante (1/3) o Très bonne reconnaissances des EN mais : o Difficultés de délimitation des EN o Certaines EN ne sont pas reconnues (incomplétude des listes dEN, de déclencheurs, de règles…) o Ambiguïté du type attendu de la réponse o Qui a gagné la dernière coupe du monde de foot ? o Organisation (équipe) attendue et non pas personne o Où la bile est-elle produite ? o Partie du corps attendue et non pas lieu

49 49 Stratégie insuffisante (2/3) o Ambiguïté des phrases candidates –Présence de plusieurs EN du type attendu o Question : How late is Disneyland open? Phrase réponse : During the summer, the park is open from 8 a.m. until midnight –Présence dune EN du bon type, mais qui ne correspond pas du tout à la réponse o Question : What is Marilyn Monroe's real name? Type attendu de la réponse : Personne Phrase candidate : "the rumors about J.F. Kennedy and Marilyn Monroe …«

50 50 Stratégie insuffisante (3/3) o Certaines questions nattendent pas une réponse EN o De quel instrument Mozart jouait-il ? o Comment est mort Micky Mantel ? o Nécessité de connaissances linguistiques o Recherche plus précise de la réponse o Analyse de questions non EN

51 51 Utilisation de lanalyse de la question o On dispose des informations suivantes : –Objet + autres mots de la question –Type attendu de la réponse - EN ou type général –Forme de la question et donc formulations possibles de la réponse o Stratégies adoptées : –Recherche de reformulations de la question o Patrons syntaxiques

52 52 Utilisation des informations lors de la recherche de la réponse o Patrons syntaxiques Question : What does Knight Ridder publish? Forme de la question : WhatDoGNverbe Formulation : GN verbe GNréponse « Knight Ridder published 30 daily newspapers … » o Stratégie efficace mais –écriture manuelle fastidieuse – pas toujours fiables : patrons de proximité – mettre en place des règles de vérification

53 53 o XIP, un analyseur robuste o Les systèmes de questions-réponses Etude du système QALC Etude du système QALC oAnalyse des questions oAnalyse des phrases candidates Résultats Résultats oExemple dappariement syntaxique oEvolution du domaine et perspectives

54 54 Résultats du système QALC Sur les questions anglaises de la campagne dévaluation CLEF 2005 Sur les questions anglaises de la campagne dévaluation CLEF 2005

55 55 Outils externes principaux de QALC (et autres) Moteurs de recherche Moteurs de recherche –MG en anglais, Lucene en français Etiqueteurs morpho-syntaxiques Etiqueteurs morpho-syntaxiques –TreeTagger en anglais, TreeTagger+XIP en français Analyseurs syntaxiques Analyseurs syntaxiques –Cass en anglais, XIP en français Ressources terminologiques Ressources terminologiques –Fastr pour variations –WordNet pour synonymes en anglais

56 56 oXIP, un analyseur robuste oLes systèmes de questions-réponses oEtude du système QALC Exemple dappariement syntaxique Exemple dappariement syntaxique oEvolution du domaine et perspectives

57 57 Pourquoi analyser les phrases réponses ? Question : Who killed Lee Harvey Oswald? Question : Who killed Lee Harvey Oswald? Phrase réponse : Jack Ruby, who killed JFKs assassin Lee Harvey Oswald …. Stratégies actuelles inefficaces Stratégies actuelles inefficaces Utilisation de relations syntaxiques : Utilisation de relations syntaxiques : Question: sujet (?, kill) et objet (kill, L.H.O.) Réponse: sujet (Jack Ruby, kill) et objet (kill, L.H.O.)

58 58 Principe de l'appariement o Analyse syntaxique Who is the evil H. R. Director in Dilbert ? Who is the evil H. R. Director in Dilbert ? sujet (?, be) et attribut (Director, be) o Recherche des relations de la question ou de reformulations Catbert is the evil H. R. Director in Dilbert… Catbert is the evil H. R. Director in Dilbert… sujet (Catbert, be) et attribut (Director, be) Catbert, the evil H. R. Director in Dilbert, … Catbert, the evil H. R. Director in Dilbert, … apposition (Catbert, Director)

59 59 Méthodes pour lappariement o Appariement à partir des relations de dépendance –Quel formalisme de représentation pour les questions et les phrases candidates ? –Quel mécanisme dappariement ? o Quelques possibilités –Graphes + algorithme de relaxation de contraintes –Réseaux sémantiques + règles dinférence –Représentation logique + démonstrateur

60 60 Un exemple dappariement fondé sur les relations syntaxiques o LCC (Language Computer Corporation) [Moldovan et al., 2002] –Analyse syntaxique des questions et des phrases candidates –Passage à une forme logique –Appariement question-réponse grâce à : oRessources sémantiques oDémonstrateur logique –Extraction de la réponse

61 61 Architecture du système Analyse syntaxique Transformation sémantique Reconnaissance du type attendu de la réponse Extraction de mots-clefs Passages Recherche de passages Index de documents Extraction de la réponse Justification Classement Démonstrateur Base de connaissances Question Réponse Traitement de la question Traitement des documents Extraction de la réponse Reconnaissance des EN Hiérarchie des types de réponses Collection de documents Harabagiu et al., 2004 (schéma simplifié, valable uniquement pour les questions factuelles)

62 62 Formes logiques Représentation intermédiaire entre lanalyse syntaxique et une forme sémantique profonde Représentation intermédiaire entre lanalyse syntaxique et une forme sémantique profonde Utilisation de relations de dépendance : sujets, objets, rattachements prépositionnels… Utilisation de relations de dépendance : sujets, objets, rattachements prépositionnels… Exemple Exemple –Phrase : Heavy selling of Standard & Poor s 500-stock index futures in Chicago relentlessly beat stocks downward. –Forme logique : heavy_JJ(x1) & selling_NN(x1) & of_IN(x1,x6) & Standard_NN(x2) & &_CC(x13,x2,x3) & Poor_NN(x3) & s_POS(x6,x13) & 500-stock_JJ(x6) & index_NN(x4) & future_NN(x5) & nn_NNC(x6,x4,x5) & in_IN(x1,x8) & Chicago_NN(x8) & relentlessly_RB(e12) & beat_VB(e12,x1,x9) & stocks_NN(x9) & downward_RB(e12) x : variables, e : prédicats

63 63 Extended WordNet o Enrichissement sémantique : –Wordnet : Base de données lexicale Base de données lexicale Organisation : concepts (ensemble de synonymes) Organisation : concepts (ensemble de synonymes) Catégories de mots : noms, verbes, adjectifs et adverbes Catégories de mots : noms, verbes, adjectifs et adverbes Relations entre ces concepts : hyponymie, hyperonymie, méronymie Relations entre ces concepts : hyponymie, hyperonymie, méronymie –Extended WordNet : Transcription sous forme logique de toutes les informations de WordNet o Exemples dutilisation dExtended WordNet par LCC : –Q : How many chromosomes does a human zygote have ? –A : 46 chromosomes that lie in the nucleus of every normal human cell –Chaîne lexicale formée : zygote:n#1 -> HYPERNYM -> cell:n#1 -> HAS_PART -> nucleus:n#1 –Q : What Spanish explorer discovered the Mississipi River ? –A : Spanish explorer Hernando de Soto reached the Mississipi River –Chaîne lexicale : Discover:v#7 -> GLOSS -> reach:v#1

64 64 Exemple dappariement o Question Which company created the Internet Browser Mosaic? o Forme logique de la question organization AT(x2) & company NN(x2) & create VB(e1,x2,x6) & Internet NN(x3) & browser NN(x4) & Mosaic NN(x5) & nn NNC(x6,x3,x4,x5) o Phrase réponse (…) a program called Mosaic, developed by the National Center for Supercomputing Applications… o Exemple de chaînes extraites de WordNet –Develop make et make create

65 65 Exemples de difficultés (1/2) o Reconnaissance du texte brut, avec erreurs de frappe ou dorthographe o Niagra « Niagara » non reconnu « Niagara » non reconnu o Erreur détiquetage morpho-syntaxique o Where did the Maya people live? « live » étiqueté comme un nom « live » étiqueté comme un nom o Mauvais type de réponse attendu o In what area of the world was the Six day War fought? type Quantity attendu au lieu de Location type Quantity attendu au lieu de Location oWhat is the average life span of an agouti? type Average attendu au lieu de Number type Average attendu au lieu de Number

66 66 o Mauvais mots-clefs dans la requête au moteur de recherche o « Where did the Battle of the Bulge take place ? » place conservé place conservé o Expansion de requête incomplète o « What is the murder rate in Windsor, Ontario ? » phrase réponse contient «homicide» phrase réponse contient «homicide» o Requêtes trop larges o « Who was the first president of the U.S. ? » la réponse nest pas dans les 500 premiers documents la réponse nest pas dans les 500 premiers documents o EN non reconnues Exemples de difficultés (2/2)

67 67 Résultats TREC 2002 o Tâche principale CWS = Confidence-Weighted Score : scores pondérés par la confiance que les systèmes donnent à leurs réponses

68 68 oXIP, un analyseur robuste oLes systèmes de questions-réponses oEtude du système QALC oExemple dappariement syntaxique Evolution du domaine et perspectives Evolution du domaine et perspectives

69 69 Evolution du domaine Evolution des réponses depuis 1er TREC : chaîne de 250 caractères à réponse précise Evolution des réponses depuis 1er TREC : chaîne de 250 caractères à réponse précise Evolution des types de questions dans les évaluations Evolution des types de questions dans les évaluations –Questions « à thème » (TREC 2004) –Questions temporelles (CLEF 2005)

70 70 Catégories classiques de questions Questions factuelles générales Questions factuelles générales –How many people live in Iceland? Questions de définition Questions de définition –définir une personne : Who is Antonia Coello Novello? –un groupe de personnes : What is Destiny's Child? –ou un objet quelconque : What is Bollywood?, What is a quasar? Questions ``listes'' qui attendent un ensemble de réponses Questions ``listes'' qui attendent un ensemble de réponses –Who are professional female boxers?, List the names of casinos owned by Native Americans.

71 71 Extensions : Questions « à thème » (1/3) Plusieurs questions portant sur un même thème Plusieurs questions portant sur un même thème Who founded the Black Panthers organization? Who founded the Black Panthers organization? When was it founded? When was it founded? Bobby Seale 1966

72 72 Questions « à thème » (2/3) Where was it founded? Who have been members of the organization? Where was it founded? Who have been members of the organization? Oakland, California Mumia Abu-Jamal, Jamil Abdullah Al-Amin, Bill Brent, Elaine Brown, Rap Brown, Tony Bryant, Stokeley Carmichael, Mark Clark, Eldridge Cleaver, Fred Hampton, David Hilliard, Ericka Huggins, Lonnie McLucas, Huey Newton, Elmer "Geronimo" Pratt, Alex Rackley, Bobby Rush, Bobby Seale

73 73 Questions « à thème » (3/3) Other Other vital Black militant group vital Radical chic heroes of the 60's okay Emphasized multiculturalism okay Emphasized community empowerment okay Hilliard later ran for Oakland City Council okay Seale later ran for Oakland mayor okay Rush later became congressperson okay Infiltrated by FBI COINTELPRO okay Provided health care to poor.

74 74 Questions « temporelles » (1/2) CLEF 2005 : introduction des questions temporelles : CLEF 2005 : introduction des questions temporelles : –What newspaper was founded in Kiev in 1994? –Who played the role of Superman before being paralyzed? –Who was the President of the United States of America between 1976 and 1980?

75 75 Questions « temporelles »(2/2) Who praised Indurain for his « capacity for sacrifice, class and healthy spirit of competition », when he won the Tour de France for the fourth time? Who praised Indurain for his « capacity for sacrifice, class and healthy spirit of competition », when he won the Tour de France for the fourth time? Who continued to be supplied with contaminated blood products six months after an American blood-screening test and heat-treatment process were available in other countries? Who continued to be supplied with contaminated blood products six months after an American blood-screening test and heat-treatment process were available in other countries? Whose government broke off negotiations with the Tamil rebels, following Dissanayake's murder? Whose government broke off negotiations with the Tamil rebels, following Dissanayake's murder?

76 76 Dune langue à plusieurs… CLEF : CLEF : –Question dans une langue, documents dans une autre –CLEF 2006 Monolingue : bulgare, allemand, espagnol, français, italien, néerlandais et portugais Monolingue : bulgare, allemand, espagnol, français, italien, néerlandais et portugais Autres langues sources : anglais, indonésien, roumain Autres langues sources : anglais, indonésien, roumain Autre langue cible : anglais Autre langue cible : anglais Contexte de recherche : RI interlingue et multilingue Contexte de recherche : RI interlingue et multilingue

77 77 Architecture du système bilingue Analyse de la question Moteur de recherche Traitement des documents Question en français Fusion Réponses en anglais Traduction vers langlais Termes en anglais Questions en anglais Collection de documents

78 78 Stratégies possibles Traduction de la question Traduction de la question –Avantages : une seule traduction assez fiable –Inconvénients : questions non grammaticales Traduction des termes Traduction des termes –Traductions mot à mot et validation des multitermes en corpus –Avantages : analyse de la question sur une question bien formée –Inconvénients : bruit des traductions

79 79 Résultats des systèmes bilingues Système du LIMSI, sur les questions de la tâche français vers anglais de CLEF 2005 Système du LIMSI, sur les questions de la tâche français vers anglais de CLEF 2005 –Traduction des questions

80 80 Difficultés de traduction Forme syntaxique Forme syntaxique –Quand est mort Gengis Khan ? When died Gengis Khan? –Qu'est-ce que le GATT ? What the GATT? –Depuis quand Israël et la Jordanie sont-ils en guerre ? Since when Israel and Jordan they are at war? Choix lexicaux de traduction Choix lexicaux de traduction –Dans combien de scandales fut impliqué Tapie, lorsqu'il était patron de Marseille ? In how many scandals was involved Hidden, when he was a boss of Marseille? –Quel montant Selten, Nash et Harsanyi ont-ils reçu pour le prix Nobel d'économie ? What going up Selten, Nash and Harsanyi did they receive for the Nobel prize of economy?

81 81 Quelques limitations des systèmes de QR actuels o Questions factuelles ou encyclopédiques o Pas de traitement de lambiguïté dans les questions o Réponses extraites dun seul document o Peu de raisonnement nécessaire o Architecture des systèmes influencée par les évaluations o Pas de modélisation de lutilisateur

82 82 Extensions possibles o Interactivité –Q : Quelle est la longueur dun Boeing 747 ? Et sa hauteur ? o Méthodes de raisonnement simples –Q : Comment est mort Socrate ? –R : En buvant du vin empoisonné o Fusion dinformation –Q : Comment fabriquer une bicyclette ? o Capacités spéculatives, récapitulatives… –Q : Les Etats-Unis sont-ils sortis de la récession ?

83 83 En conclusion… o Analyse syntaxique robuste = atout pour les systèmes de Question-Réponse o Questions : –Détermination des informations nécessaires à la recherche de la réponse o Phrases candidates : –Possibilité de passage à un formalisme plus profond –Possibilité de lien avec des connaissances sémantiques

84 84 Références Quelques références… o XIP o Aït-Mokhtar S., Chanod J.-P., Roux C. (2002), Robustness beyond shallowness: incremental deep parsing, Journal of Natural Language Enginerring, Vol. 8 (3-2). o QALC ou autres systèmes du LIMSI o o L'extraction des réponses dans un système de question-réponse; A.-L. Ligozat, B. Grau, I. Robba, A. Vilnat, TALN 2006, Louvain, Belgique. o Evaluation and Improvement of Cross-Lingual Question Answering Strategies; A.-L. Ligozat, B. Grau, I. Robba, A. Vilnat, Workshop MLQA d'EACL, Trente, o LCC o o Dan I. Moldovan, Marius Pasca, Sanda M. Harabagiu, Mihai Surdeanu: Performance Issues and Error Analysis in an Open-Domain Question Answering System. ACL 2002: o Evaluations Question-Réponse o TREC : o CLEF : o Equer :


Télécharger ppt "Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay."

Présentations similaires


Annonces Google