La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.

Présentations similaires


Présentation au sujet: "Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan."— Transcription de la présentation:

1 Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan

2 2 Plan de l’exposé Présentation du contexte Description de l’expérimentation Evaluation et discussion Conclusion et perspectives

3 3 Questions définitoires dans les systèmes de questions-réponses Campagne d’évaluation TREC-12 QA (Voorhees, 2003)  50 questions « définitoires » sur 500  30 questions portent sur un personnage et 10 sur des institutions Campagne EQueR (EVALDA - 2004):  Questions/Réponses en domaine ouvert et tâche spécifique au domaine médical  70 questions « définitoires » sur 200

4 4 Réponse à des questions définitoires TREC-QA 2003 : pépites d’information  Éléments « vitaux »  Éléments non « vitaux »  Éléments non pertinents Énoncés définitoires  Des structures qui permettent de réaliser un acte de définition en discours (Rebeyrolle, 2000)  Un énoncé qui peut servir de définition du dictionnaire, ou qui donne au moins un élément sémantique propre à construire une telle définition (Meyer, 2001)

5 5 Méthodologies de recherche de réponses « définitoires » Recherche en corpus d’énoncés définitoires Utilisation de ressources extérieures (projection en corpus de définitions de dictionnaires) Approche mixte (Hildebrandt et al., 2004)

6 6 Recherche d’énoncés définitoires en corpus Extraction à partir de règles : DEFINDER (Klavans & Muresan, 2001) Extraction par exploration contextuelle (Cartier, 1997) Extraction par patrons lexico- syntaxiques (Rebeyrolle, 2000)

7 7 Plan de l’exposé Présentation du contexte Description de l’expérimentation Evaluation et discussion Conclusion et perspectives

8 8 Corpus et ressource complémentaire Corpus médical de la campagne EQueR  5621 documents indexés par le Catalogue et Index des Sites Médicaux Francophones (CISMeF) (9 « sites éditeurs » + documents un lien plus loins)  19 millions de mots 735 définitions de termes du thésaurus MeSH rédigées par l’équipe CISMeF

9 9 Deux types de questions définitoires La recherche d’acronymes (5 questions) Système STIM-LIPN (Delbecque et al., 2005)  Comment l’IPS peut-il être défini?  Expression (ACRONYME) : L’index de pression systolique (IPS)… La recherche d’autres énoncés définitoires (65 questions)  Quelle est la définition de la désinfection?  Qu’est-ce que le syndrome du décalage horaire?

10 10 Traitement des questions définitoires – domaine médical Repérage et indexation des énoncés définitoires Traitement des énoncés définitoires : repérage du terme défini Analyse de la question Sélection et classement des énoncés définitoires correspondant au terme de la question

11 11 Repérage des énoncés définitoires Compilation de marqueurs et de patrons lexico-syntaxiques pour le repérage d’énoncés définitoires (Fuchs, 1994 ; Auger, 1997; Rebeyrolle, 2000 ; …) Adaptation à un corpus d’anthropologie et création de nouveaux patrons  non spécifiques au domaine médical

12 12 Traitement des ED : repérage du terme défini Extraction de deux parties de l’énoncé susceptibles de contenir le terme défini  Par dépendance syntaxique si le marqueur est ou contient un verbe, et s’il a un sujet et objet dans l’énoncé extrait (Cordial Analyseur, société Synapse)  Par extraction contextuelle si le marqueur est un nom, une parenthèse ou si le verbe n’a pas de sujet et objet dans l’énoncé Stockage des groupes syntaxiques et des énoncés dans une table, indexée par les GS contenant potentiellement les termes définis

13 13 Analyse de la question Traitement générique des questions médicales : transducteurs mis au point par l’équipe du LIPN (Thierry Poibeau) Traitement spécifique des questions définitoires : Quelle est la définition de la chimiothérapie?  Suppression des « mots vides » de la question (quelle est la de la)  Suppression des mots désignant une définition (définition)  Résultat du traitement : chimiothérapie

14 14 Recherche d’une réponse à une question définitoire Comparaison des questions traitées avec les definienda potentiels indexés  Contrainte : tous les mots composant le terme de la question doivent être présents Deux types de réponses :  Courte : le groupe lexical ne contenant pas le terme de la question, s’il n’est pas vide  Longue : l’énoncé définitoire global

15 15 Exemple d’extraction Question : Qu’est-ce qu’une aniridie? Enoncé 5590-2 : Aniridie sporadique L'aniridie est une absence clinique d'iris (où persiste tout de même une ébauche basale de tissu irien circulaire visible en gonioscopie) s'accompagnant d'une amblyopie sévère avec… Critères diagnostiques / définition L'aniridie se définit comme l'absence totale d'iris. On peut néanmoins observer … Réponse courte : comme l'absence totale d'iris Passage : Aniridie sporadique […] comme l'absence totale d'iris.

16 16 Mise au point de la chaîne de traitement Mise au point de la chaîne de traitement sur le corpus EQueR avec le jeu de 735 définitions médicales fourni par l’équipe CISMeF Evaluation sur le corpus EQueR et les questions définitoires portant sur le domaine médical d’EQueR

17 17 Plan de l’exposé Présentation du contexte Description de l’expérimentation Evaluation et discussion Conclusion et perspectives

18 18 Modalités d’évaluation Réponse courte  Réponse correcte (juste et précise)  Réponse inexacte (pas assez précise)  Réponse incorrecte (pas juste)  Réponse injustifiée (correcte mais non justifiée dans le document) Passage long  Correct : contient au moins une partie d’une réponse juste  Incorrect : ne contient pas assez ou pas du tout d’éléments corrects

19 19 Evaluation Hors de l’évaluation officielle Considère trois catégories principales  Sûrement correcte  Possiblement correcte  Incorrecte Deux scores : « laxiste » et « strict »

20 20 Résultats 17 792 énoncés repérés comme potentiellement définitoires 22 réponses proposées aux 65 questions définitoires  5 à 10 réponses courtes correctes  9 à 16 des passages corrects Evaluation stricte : bon passage au 3e rang en moyenne, la ½ des questions n’obtiennent pas de bonne réponses Evaluation « laxiste » : bon passage au second rang et seulement 6 questions sans réponse

21 21 Discussion des résultats Difficultés de comparaison avec les autres évaluations  Référentiel différent d’avec TREC-QA 2003 (recherche de personnes, pépites de connaissances)  Problèmes de conversion du corpus Différentes sources d’erreur  Patrons LS (non spécifiques au domaine médical) entraînent à la fois bruit et silence  Traitement des questions  Classement des réponses

22 22 Plan de l’exposé Présentation du contexte Description de l’expérimentation Evaluation et discussion Conclusion et perspectives

23 23 Conclusion et Perspectives Système propose des réponse aux questions définitoires de l’évaluation EQueR, tâche médicale Seul système à renvoyer certaines réponses, comme celle de : Quelle est la définition de désinfection? Rappel à améliorer, mais précision honorable Tester les méthodes du type apprentissage pour un meilleur classement des réponses Tester le gain d’une approche mixte s’appuyant également sur des ressources extérieures (dictionnaire médical)

24 24 Merci de votre attention!


Télécharger ppt "Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan."

Présentations similaires


Annonces Google