Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parÉlise Lessard Modifié depuis plus de 9 années
1
Appariement syntaxique question-réponse Séminaire groupe LIR 21/10/2003
2
2 I. Mon stage de DEA Objectif : étudier les possibilités d’appariement syntaxique dans QALC → Système de question-réponse en anglais → Niveau : extraction de la réponse → Idée: utiliser les relations de dépendance fournies par un analyseur syntaxique
3
3 Système Question - Réponse QuestionsCorpus journalistique Traitement des documents Ré-indexation et sélection des documents Reconnaissance des EN dans les documents sélectionnés Phrases pertinentes Recherche de la réponse Sélection phrases candidates Extraction de la réponse Réponse + Document Traitement des questions Informations pertinentes Moteur de recherche Documents pertinents
4
4 L’analyse syntaxique dans QALC 2 entités à considérer la question analyse syntaxique fine les phrases candidates pas d’analyse syntaxique appariement syntaxique
5
5 Pourquoi analyser les phrases réponses ? Question : Who killed Lee Harvey Oswald ? Phrase réponse : Jack Ruby, who killed JFK’s assassin Lee Harvey Oswald …. EN retournée n’est pas la réponse Stratégies actuelles inefficaces Comment faire ? Relations syntaxiques Question: sujet (?, kill) et objet (kill, L.H.O.) Réponse: sujet (Jack Ruby, kill) et objet (kill, L.H.O.)
6
6 Principe de l’appariement Analyse syntaxique Who is the evil H. R. Director in Dilbert ? sujet (?, be) et attribut (Director, be) Recherche des relations de la question ou de reformulations → Catbert is the evil H. R. Director in Dilbert… sujet (Catbert, be) et attribut (Director, be) Catbert, the evil H. R. Director in Dibert, … apposition (Catbert, Director)
7
7 II. Études préalables Etat de l’art A quel niveau intégrer l’analyse syntaxique ? Pertinence d’un appariement syntaxique Étude des analyseurs syntaxiques
8
8 Autres travaux utilisant des connaissances syntaxiques Segmentation en constituants Généralement exploitée (patrons syntaxiques) Relations de dépendance –Buchholz : degré de correspondance entre les relations de dépendance de la question et des phrases réponses ; prédominance du verbe –LCC : élaboration de prédicats logiques à partir des résultats de l’analyseur syntaxique
9
9 Intégrer les relations syntaxiques Au niveau de la sélection des phrases –Privilégier les phrases possédant les mêmes relations syntaxiques que la question Au niveau de l'extraction de la réponse –Définition des relations syntaxiques susceptibles de fournir la réponse
10
10 Pertinence d’un appariement syntaxique Étude d’un corpus de questions TREC –Analyse syntaxique parfaite –Pas de variantes lexicales Réponses Ejectées : 13%Inchangées : 87 % ? : 50% FaussesBonnes Bruit : 5% Confirmées : 45%
11
11 Évaluation des outils syntaxiques IFSP pour l’anglais, XIP pour le français –Performances moins bonnes sur des phrases interrogatives –Certaines relations syntaxiques plus fiables Traitement à adapter Complémentaire aux autres stratégies
12
12 Erreurs de l’analyseur XIP Erreurs de reconnaissance des parties du discours « Charles Lindbergh a été le premier à réussir la traversée de l’Atlantique Nord » → « Atlantique » reconnu comme adjectif Difficulté de segmentation de certains groupes nominaux « L’empereur du Japon Akihito, qui a eu 69 ans… » → « Japon Akihito » considéré comme un seul nom propre Difficulté de reconnaissance de certaines relations syntaxiques Sujets mal reconnus, participes passés non reliés à l’auxiliaire… « James Earl Ray a-t-il tué Martin Luther King ? » « tué » pas reconnu comme participe passé
13
13 III. Réalisations et difficultés rencontrées Réalisations Quelles relations prendre en compte ? Difficultés dues à l’analyseur Pas de prise en compte des variantes
14
14 Étude des questions WHO Tests de sélection des phrases candidates sur l’anglais –Choix d'une phrase candidate parmi les 50 phrases les mieux classées –Poids affectés selon les relations syntaxiques présentes dans la phrase réponse Résultats –Pour 30 % des questions, phrase candidate choisie contenant la réponse –Améliorations possibles : meilleure définition des relations syntaxiques à chercher, extension des reformulations possibles
15
15 Tests d’appariement Tests d’appariement question-réponse en anglais –Difficultés dues à la mauvaise qualité de l’analyseur Retour au français –Questions sur des informations contenues dans un corpus tiré du journal Le Monde –Etude en cours
16
16 Choix des relations Quelles relations prendre en compte ? –Sujet, complément d’objet, attribut –Sur l’objet de la question –Les plus fiables de l’analyseur objet Qui était le 33ème président des Etats-Unis ? sujet attribut
17
17 Intérêt inégal des relations « De quel parti politique Lionel Jospin est-il membre ? » « politique » pas essentiel « Quel est le symbole du parti démocrate ? » « démocrate » essentiel Question à éclaircir
18
18 Prise en compte des variantes (1) Au niveau du mot –Lien sémantique dans WordNet What was the name of the dog in the Thin Man movies ? in « The Thin Man », Asta, the wire haired terrier… –Pas de lien WordNet What tourist attractions are there in Reims? Cathedrals, champagne…
19
19 Prise en compte des variantes (2) Au niveau de la phrase –Reformulation who invented ? the inventor of… –Raisonnement Pas de lien morphologique ou sémantique direct What school did Emmitt Smith go to ? Emmitt Smith, then a freshman at Escambia High School… Aucun lien explicite What is the chemical formula for sulphur dioxide? Sulphur dioxyde (SO2) Problèmes de référence The most memorable race in history may have been Roger Bannister’s breakthrough, when he became the first to run a mile faster than four minutes.
20
20 IV. Sujet de thèse Utilisation d’inférences en contexte large et application au domaine de question-réponse Idée : combiner plusieurs documents pour fournir la réponse à une question Ex: Quel coureur espagnol a gagné le Tour de France en 2000 ? –Nom du vainqueur –Liste des coureurs avec leur nationalité
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.