Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.

Slides:



Advertisements
Présentations similaires
Définitions Analyse documentaire
Advertisements

La recherche documentaire
Le statut social des enfants de 0 à 5 ans influe-t-il sur la prise en charge de leurs problèmes de santé ? A partir d'une étude réalisée en médecine générale.
Le dossier documentaire
Stage pédagogie de projet en classe de seconde St Raphaël 6 avril 2012.
Épreuve pratique en Terminale Mercatique
APPROCHE PAR LES COMPETENCES ET
Urbanisation de Systèmes d'Information
Exemple : Itinéraire de lecture.
Circonscription d’Avranches Février 2012
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
METHODOLOGIE.
Le Programme Personnalisé de Réussite Éducative. Le PPRE est proposé aux élèves des cycles II et III de lécole élémentaire qui éprouvent des difficultés.
Le Programme Personnalisé de Réussite Éducative. Le PPRE est proposé aux élèves de lécole élémentaire qui éprouvent des difficultés résistant à la « différenciation.
Indexation textuelle : Systèmes de recherche d’informations
II- Les annotations des productions écrites
Outils d’aide à l’évaluation des acquis des élèves
ONRN V2 Guide de contribution. Organisation des documents Listes de valeurs Ce répertoire contient les listes de valeurs qui sont utilisées pour qualifier.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
LES OUTILS POUR LA GOUVERNANCE DES DONNÉES LA PASSION DES DONNÉES LA PRÉCISION DES RÉSULTATS.
ORGANISATION INTERNATIONALE DU TRAVAIL Service des conditions de travail et demploi (TRAVAIL) 2012 Module 13: Evaluation de la protection de la maternité
Le Programme Personnalisé de Réussite Éducative
BD IA 2007 EDUCATION A LA SANTE Méthodologie. BD IA 2007 Pourquoi Demande de linstitution (orientation de santé publique) Ex: obésité – sexualité – conduites.
Annuaires et moteurs de recherche d’information sur Internet
Stage pédagogie de projet en classe de seconde Toulouse 28 mars 2014.
Chap 4 Les bases de données et le modèle relationnel
Annotations sémantiques pour le domaine des biopuces
- Elaborer et conduire un projet -
Enseignement Spécifique (Coefficient 7) Enseignements de spécialité (Coefficient 9)
RDF(S)
Recherche Documentaire et traitement de l’information
LES NOUVELLES ÉPREUVES DE SCIENCES ÉCONOMIQUES ET SOCIALES.
Moteur de recherche d’information
Points importants de la semaine Les constantes de compilation. Les fonctions.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Forum des Industries de la Langue, 17 mars 2010
Évaluation des apprentissages et des compétences en enseignement supérieur 1er cours Claire Bélanger Chargée de cours Claire Bélanger Chargée de cours.
CLASSIFICATION DES EMPLOIS
Mai 2013 La codification des compétences collégiales dans le SOBEC Session 3 - Présentations en rencontre plénière sur le thème Exemples de pratiques.
Module 8 : Surveillance des performances de SQL Server
LA TECHNIQUE DU RÉSUMÉ Résumer un texte, c'est réduire un énoncé selon un certain nombre de mots imposé, en en restituant l'essentiel des idées et la structure.
Rédaction d’un dossier SVT 3eme.
Amélioration de la performance des SISR et de l’utilisation de l’information pour la gestion des systèmes de santé CESAG, Dakar, du 03 au 21 Mai 2010 Solutions.
HOPITAL PUBLIC - INTERMEDICA 2002
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Organisation administrative
Dominique LAURENT Patrick SEGUELA
Recherche d’information
TALN 08 juin 2005  ELRA/ELDA CA /1 Atelier TALN’05 EASy - EQueR EVALDA.
CISMeF Pierre Claveirole UNAFORMEC. CISMeF (CHU de Rouen) catalogue des sites médicaux francophones interrogation par langage MeSH français indexation.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Le Traitement Automatique des Langues (TAL)
Informatique et Sciences du Numérique
I-expo 9 juin 2004 Les référentiels métier à l’heure de la mobilité professionnelle et géographique Table Ronde.
Les épreuves du baccalauréat en Sciences économiques et sociales (M
Initiation à des recherches dans le domaine de l’enseignement
1 Logiciels de confection automatique d’horaires.
BIENVENUE TOUT LE MONDE au Module :
A. Ce qui vous est demandé Analyse de la consigne officielle.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
CONSTRUIRE UN COURS (De la séquence à la séance… )
Les critères des référentiels suffisent-ils à l’évaluation ?
PREVENTION SANTE ENVIRONNEMENT NOUVELLES MODALITES D’EVALUATION
Christel Touraille LP Albert THOMAS - ROANNE
MES STRATÉGIES DE LECTURE
IRIDOC 2 : tutoriel de formation à la recherche documentaire Outils méthodologiques > Les mots-clefs.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan

2 Plan de l’exposé Présentation du contexte Description de l’expérimentation Evaluation et discussion Conclusion et perspectives

3 Questions définitoires dans les systèmes de questions-réponses Campagne d’évaluation TREC-12 QA (Voorhees, 2003)  50 questions « définitoires » sur 500  30 questions portent sur un personnage et 10 sur des institutions Campagne EQueR (EVALDA ):  Questions/Réponses en domaine ouvert et tâche spécifique au domaine médical  70 questions « définitoires » sur 200

4 Réponse à des questions définitoires TREC-QA 2003 : pépites d’information  Éléments « vitaux »  Éléments non « vitaux »  Éléments non pertinents Énoncés définitoires  Des structures qui permettent de réaliser un acte de définition en discours (Rebeyrolle, 2000)  Un énoncé qui peut servir de définition du dictionnaire, ou qui donne au moins un élément sémantique propre à construire une telle définition (Meyer, 2001)

5 Méthodologies de recherche de réponses « définitoires » Recherche en corpus d’énoncés définitoires Utilisation de ressources extérieures (projection en corpus de définitions de dictionnaires) Approche mixte (Hildebrandt et al., 2004)

6 Recherche d’énoncés définitoires en corpus Extraction à partir de règles : DEFINDER (Klavans & Muresan, 2001) Extraction par exploration contextuelle (Cartier, 1997) Extraction par patrons lexico- syntaxiques (Rebeyrolle, 2000)

7 Plan de l’exposé Présentation du contexte Description de l’expérimentation Evaluation et discussion Conclusion et perspectives

8 Corpus et ressource complémentaire Corpus médical de la campagne EQueR  5621 documents indexés par le Catalogue et Index des Sites Médicaux Francophones (CISMeF) (9 « sites éditeurs » + documents un lien plus loins)  19 millions de mots 735 définitions de termes du thésaurus MeSH rédigées par l’équipe CISMeF

9 Deux types de questions définitoires La recherche d’acronymes (5 questions) Système STIM-LIPN (Delbecque et al., 2005)  Comment l’IPS peut-il être défini?  Expression (ACRONYME) : L’index de pression systolique (IPS)… La recherche d’autres énoncés définitoires (65 questions)  Quelle est la définition de la désinfection?  Qu’est-ce que le syndrome du décalage horaire?

10 Traitement des questions définitoires – domaine médical Repérage et indexation des énoncés définitoires Traitement des énoncés définitoires : repérage du terme défini Analyse de la question Sélection et classement des énoncés définitoires correspondant au terme de la question

11 Repérage des énoncés définitoires Compilation de marqueurs et de patrons lexico-syntaxiques pour le repérage d’énoncés définitoires (Fuchs, 1994 ; Auger, 1997; Rebeyrolle, 2000 ; …) Adaptation à un corpus d’anthropologie et création de nouveaux patrons  non spécifiques au domaine médical

12 Traitement des ED : repérage du terme défini Extraction de deux parties de l’énoncé susceptibles de contenir le terme défini  Par dépendance syntaxique si le marqueur est ou contient un verbe, et s’il a un sujet et objet dans l’énoncé extrait (Cordial Analyseur, société Synapse)  Par extraction contextuelle si le marqueur est un nom, une parenthèse ou si le verbe n’a pas de sujet et objet dans l’énoncé Stockage des groupes syntaxiques et des énoncés dans une table, indexée par les GS contenant potentiellement les termes définis

13 Analyse de la question Traitement générique des questions médicales : transducteurs mis au point par l’équipe du LIPN (Thierry Poibeau) Traitement spécifique des questions définitoires : Quelle est la définition de la chimiothérapie?  Suppression des « mots vides » de la question (quelle est la de la)  Suppression des mots désignant une définition (définition)  Résultat du traitement : chimiothérapie

14 Recherche d’une réponse à une question définitoire Comparaison des questions traitées avec les definienda potentiels indexés  Contrainte : tous les mots composant le terme de la question doivent être présents Deux types de réponses :  Courte : le groupe lexical ne contenant pas le terme de la question, s’il n’est pas vide  Longue : l’énoncé définitoire global

15 Exemple d’extraction Question : Qu’est-ce qu’une aniridie? Enoncé : Aniridie sporadique L'aniridie est une absence clinique d'iris (où persiste tout de même une ébauche basale de tissu irien circulaire visible en gonioscopie) s'accompagnant d'une amblyopie sévère avec… Critères diagnostiques / définition L'aniridie se définit comme l'absence totale d'iris. On peut néanmoins observer … Réponse courte : comme l'absence totale d'iris Passage : Aniridie sporadique […] comme l'absence totale d'iris.

16 Mise au point de la chaîne de traitement Mise au point de la chaîne de traitement sur le corpus EQueR avec le jeu de 735 définitions médicales fourni par l’équipe CISMeF Evaluation sur le corpus EQueR et les questions définitoires portant sur le domaine médical d’EQueR

17 Plan de l’exposé Présentation du contexte Description de l’expérimentation Evaluation et discussion Conclusion et perspectives

18 Modalités d’évaluation Réponse courte  Réponse correcte (juste et précise)  Réponse inexacte (pas assez précise)  Réponse incorrecte (pas juste)  Réponse injustifiée (correcte mais non justifiée dans le document) Passage long  Correct : contient au moins une partie d’une réponse juste  Incorrect : ne contient pas assez ou pas du tout d’éléments corrects

19 Evaluation Hors de l’évaluation officielle Considère trois catégories principales  Sûrement correcte  Possiblement correcte  Incorrecte Deux scores : « laxiste » et « strict »

20 Résultats énoncés repérés comme potentiellement définitoires 22 réponses proposées aux 65 questions définitoires  5 à 10 réponses courtes correctes  9 à 16 des passages corrects Evaluation stricte : bon passage au 3e rang en moyenne, la ½ des questions n’obtiennent pas de bonne réponses Evaluation « laxiste » : bon passage au second rang et seulement 6 questions sans réponse

21 Discussion des résultats Difficultés de comparaison avec les autres évaluations  Référentiel différent d’avec TREC-QA 2003 (recherche de personnes, pépites de connaissances)  Problèmes de conversion du corpus Différentes sources d’erreur  Patrons LS (non spécifiques au domaine médical) entraînent à la fois bruit et silence  Traitement des questions  Classement des réponses

22 Plan de l’exposé Présentation du contexte Description de l’expérimentation Evaluation et discussion Conclusion et perspectives

23 Conclusion et Perspectives Système propose des réponse aux questions définitoires de l’évaluation EQueR, tâche médicale Seul système à renvoyer certaines réponses, comme celle de : Quelle est la définition de désinfection? Rappel à améliorer, mais précision honorable Tester les méthodes du type apprentissage pour un meilleur classement des réponses Tester le gain d’une approche mixte s’appuyant également sur des ressources extérieures (dictionnaire médical)

24 Merci de votre attention!