Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parYvain Buisson Modifié depuis plus de 9 années
1
TALN 08 juin 2005 ELRA/ELDA CA /1 Atelier TALN’05 EASy - EQueR EVALDA
2
TALN 08 juin 2005 ELRA/ELDA CA /2 1.Présentation générale des deux campagnes 2.Table ronde 3.Session posters
3
TALN 08 juin 2005 ELRA/ELDA CA /3 Table ronde Types de corpus incluant la dichotomie oral-écrit (EASY-EQUER) – Jean Véronis Types de corpus incluant la dichotomie oral-écrit (EASY-EQUER) – Jean Véronis Qu’est-ce qu’un mot, qu’est-ce qu’une phrase (EASY) – Didier Bourigault Qu’est-ce qu’un mot, qu’est-ce qu’une phrase (EASY) – Didier Bourigault Articulation syntaxe – sémantique (EASY-EQUER) – Pierre Zweigenbaum Articulation syntaxe – sémantique (EASY-EQUER) – Pierre Zweigenbaum Qu’est-ce qu’une entité nommée ? (EASY-EQUER) –Thierry Poibeau Evaluation des inférences, plus généralement du processus de résolution (EQUER) – Brigitte Grau Evaluation des inférences, plus généralement du processus de résolution (EQUER) – Brigitte Grau Qu’est-ce qu’une bonne réponse (EQUER) - Dominique Laurent Qu’est-ce qu’une bonne réponse (EQUER) - Dominique Laurent Evaluation interactive (1 coup, requête itérée/dialogue) (EQUER) – Anne Vilnat Evaluation interactive (1 coup, requête itérée/dialogue) (EQUER) – Anne Vilnat Utilisation des résultats de l’évaluation (choix d’outils, identification des algorithmes les plus performants, etc.) – Patrick Paroubek Utilisation des résultats de l’évaluation (choix d’outils, identification des algorithmes les plus performants, etc.) – Patrick Paroubek
4
TALN 08 juin 2005 ELRA/ELDA CA /4 Campagne EQueR Campagne d’Evaluation des Systèmes de Question-Réponse EVALDA
5
TALN 08 juin 2005 ELRA/ELDA CA /5 Présentation générale 1. Présentation générale 2.Collections de documents 3.Corpus de questions 4.Validation des questions 5.Déroulement de l’évaluation 6.Jugement humain des résultats 7.Calcul des scores 8.Présentation des résultats 9.Conclusion EVALDA / EQUER
6
TALN 08 juin 2005 ELRA/ELDA CA /6 1.1. Partenaires Organisateur : ELDA (Paris) Responsable scientifique : Brigitte Grau (LIMSI) Fournisseurs de corpus et d’outils : - ELDA (Paris) : corpus général - CISMEF (Rouen) : corpus médical - Systal / Pertimm (Asnières-sur-Seine) : moteur de recherche EVALDA / EQUER 1.Présentation générale (1/4)
7
TALN 08 juin 2005 ELRA/ELDA CA /7 1.1. Partenaires (suite) Participants : 3 institutions privées : France Télécom, Sinequa, Synapse 5 laboratoires publics : Limsi-CNRS, LIA & iSmart, STIM / AP-HP, CEA, Université de Neuchâtel EVALDA / EQUER 1.Présentation générale (2/4)
8
TALN 08 juin 2005 ELRA/ELDA CA /8 1.2. Objectifs Alimenter l’activité de recherche dans le domaine en fournissant une photographie de l’état de l’art en France Permettre le développement de cette activité en fournissant des corpus aux chercheurs 1.3. Trois tâches étaient prévues -Tâche « généraliste » -Tâche « spécialisée », domaine spécifique (médical) -Tâche « généraliste » Web abandonnée EVALDA / EQUER 1.Présentation générale (3/4)
9
TALN 08 juin 2005 ELRA/ELDA CA /9 1.4. Composants d’un système QR Analyse des questionsTraitement des documents Extraction de la réponse Etiquetage morpho- syntaxique Analyse syntaxique Désambiguation Typage des réponses Choix de mots pivots et de relations Reconnaissance des entités nommées Sélection de documents ou de passages Moteur de recherche Constitution de la requête Sélection de passages ou de phrases Analyse des phrases Extraction des réponses Ordonnancement des réponses
10
TALN 08 juin 2005 ELRA/ELDA CA /10 2.1. Corpus « général » environ 1,5 Go constitution et nettoyage (ELDA) Articles, dépêches de presse et rapports institutionnels : - Le Monde (1992-2000) source : xml - Le Monde Diplomatique (1992-2000) source : xml - SDA (Schweitzeriche Depeschenagentur (1994-1995) source : xml - Le Sénat (1996-2001) sources : html EVALDA / EQUER 2.Collections de documents (1/2)
11
TALN 08 juin 2005 ELRA/ELDA CA /11 2.Collections de documents (2/2) 2.2. Corpus « médical » environ 50 Mo constitution et nettoyage (CISMEF/STIM) Articles scientifiques du domaine médical, recommandations, tirés des sites Web : - Santé Canada - Orphanet - CHU Rouen - FNLCC (Fédération Nationale de Lutte Contre le Cancer) EVALDA / EQUER
12
TALN 08 juin 2005 ELRA/ELDA CA /12 3.Corpus de questions (1/3) 3.1. Corpus « général » Corpus de 500 Questions (ELDA) : -407 questions « factuelles » simples (personne, organisation, date, lieu, mesure, manière et objet/autre) : Qui a écrit Germinal ? Emile Zola -31 questions factuelles dont la réponse attendue est une « liste » : Quels sont les 7 pays du G7 ? Allemagne, Canada, Etats-Unis, France,Grande- Bretagne, Italie et Japon -32 questions dont la réponse est une « définition » : Qui est Alexander Popov ? Nageur russe -30 questions dont la réponse est « oui/non » : Existe-t-il une ligne de TGV Valenciennes-Paris ? OUI EVALDA / EQUER
13
TALN 08 juin 2005 ELRA/ELDA CA /13 3.Corpus de questions (2/3) 3.2. Corpus « médical » Corpus de 200 Questions (CISMEF) : -81 questions « factuelles » simples (personne, organisation, date, lieu, mesure, manière et objet/autre) : Citer un traitement de la schyzophrénie. La neurochirurgie -25 questions factuelles dont la réponse attendue est une « liste » : Quels sont les 4 stades du cancer de l’ovaire ? -70 questions dont la réponse est une « définition » : Comment XXX cf. corpus de questions medical -24 questions dont la réponse est « oui/non » : Le mercure est-il un métal toxique ? OUI EVALDA / EQUER
14
TALN 08 juin 2005 ELRA/ELDA CA /14 EVALDA / EQUER 3.Corpus de questions (3/3) 3.3. Constitution du corpus de questions « général » Selon les sources, extraction de balises de mots-clés ou de titres etats-unis réfugies cubains nombre record Combien de réfugiés cubains ont débarqué en Floride en 1993 ? sarajevo visite de giscard d estaing Valéry Giscard d'Estaing a-t-il visité Sarajevo ? L'ex-président zambien inculpé de rétention d'information Qui est le président de la Zambie ? Classement par type de question et recherche de questions pour les types manquants
15
TALN 08 juin 2005 ELRA/ELDA CA /15 Validation des corpus de questions à l’aide du moteur de recherche Pertimm : –Indexation des collections de documents dans Pertimm –Transformation des questions en requêtes –Élargissement des requêtes jusqu’à obtenir 100 identifiants de documents pour chaque question –Vérification manuelle de la présence d’au moins un bon document parmi les 100 renvoyés par Pertimm EVALDA / EQUER 4.Validation des questions (1/2)
16
TALN 08 juin 2005 ELRA/ELDA CA /16 Exemples de requêtes : Qui a fondé le Festival international de la bande dessinée d'Angoulême ? Festival;++bande dessinée;++Angoulême Quel est le traitement de l'algie vasculaire de la face ? algie;++vasculaire;++face;++traitement EVALDA / EQUER 4.Validation des questions (2/2)
17
TALN 08 juin 2005 ELRA/ELDA CA /17 16 juillet 2004 : Envoi du corpus d’évaluation aux participants : corpus de questions tâche générale corpus de questions tâche médicale pour chaque question, les 100 premiers identifiants de documents retournés par Pertimm 23 juillet 2004 : Renvoi des résultats par les participants (dernier délai) chaque participant pouvait nous renvoyer jusqu’à 2 soumissions par tâche EVALDA / EQUER 5.Déroulement de l’évaluation
18
TALN 08 juin 2005 ELRA/ELDA CA /18 6.1. Spécifications évaluation évaluation des réponses courtes ET des passages possibles (les passages sont évalués systématiquement) 4 jugements possibles pour les réponses courtes : - Correct- Incorrect - Inexact- Non justifié 2 jugements possibles pour les passages : - Correct- Incorrect EVALDA / EQUER 6.Jugement humain des résultats (1/3)
19
TALN 08 juin 2005 ELRA/ELDA CA /19 6.2. Tâche générale 2 étudiants ont évalué les résultats pendant 1 mois évaluation croisée pour validation de la cohérence inter-juges : moins de 5% de désaccords jugements validés Au total, 12 soumissions évaluées EVALDA / EQUER 6.Jugement humain des résultats (2/3)
20
TALN 08 juin 2005 ELRA/ELDA CA /20 6.3. Tâche spécialisée une spécialiste du CISMEF (CHU Rouen) a évalué les résultats Au total, 7 soumissions évaluées EVALDA / EQUER 6.Jugement humain des résultats (3/3)
21
TALN 08 juin 2005 ELRA/ELDA CA /21 2 métriques utilisées : MRR : Moyenne de l’inverse du Rang (Mean Reciprocal Rank) -Questions « factuelles » simples. -Questions dont la réponse est une « définition ». -Questions dont la réponse est « oui/non ». NIAP : Précision moyenne (Non Interpolated Average Precision) -Questions dont la réponse est une « liste ». EVALDA / EQUER 7.Calcul des scores (1/3)
22
TALN 08 juin 2005 ELRA/ELDA CA /22 EVALDA / EQUER MRR : Moyenne de l’inverse du Rang Ce critère tient compte du rang de la première bonne réponse trouvée. Si une bonne réponse est trouvée plusieurs fois, elle n’est comptée qu’une seule fois. Les systèmes ne trouvant pas la bonne réponse en rang 1 sont désavantagés. 7.Calcul des scores (2/3)
23
TALN 08 juin 2005 ELRA/ELDA CA /23 EVALDA / EQUER NIAP : Précision Moyenne Ce critère tient compte du rappel et de la précision mais aussi de la position des bonnes réponses dans la liste. 7.Calcul des scores (3/3) avec : et :
24
TALN 08 juin 2005 ELRA/ELDA CA /24 8.1. Corpus général, réponses courtes et passages EVALDA / EQUER 8.Présentation des résultats (1/4)
25
TALN 08 juin 2005 ELRA/ELDA CA /25 8.2. Corpus médical, réponses courtes et passages EVALDA / EQUER 8.Présentation des résultats (2/4)
26
TALN 08 juin 2005 ELRA/ELDA CA /26 8.3. Corpus général : factuelles, définitions et oui-non EVALDA / EQUER 8.Présentation des résultats (3/4)
27
TALN 08 juin 2005 ELRA/ELDA CA /27 8.4. Corpus médical : factuelles, définitions et oui-non EVALDA / EQUER 8.Présentation des résultats (4/4)
28
TALN 08 juin 2005 ELRA/ELDA CA /28 8.5. TREC (USA) et NTCIR (Japon) EVALDA / EQUER
29
TALN 08 juin 2005 ELRA/ELDA CA /29 9.1. Bilan -Participants : -Véritable succès : participation et intérêt croissant d’une très large majorité des acteurs du domaine dont de nouveaux participants qui n’avaient jamais fait d’évaluation Q-R auparavant. -beaucoup d’équipes françaises en comparaison avec le nombre de participants européens à CLEF (en général 1 participant par pays) -Evaluation : -nouveau type de questions (questions « oui/non ») -des questions-réponses sur un corpus spécialisé EVALDA / EQUER 9.Conclusion (1/2)
30
TALN 08 juin 2005 ELRA/ELDA CA /30 9.2. Perspectives - Package d’évaluation Ensemble des données relatives au projet et fournies aux participants lors de la campagne : ensemble des spécifications de la campagne, corpus, outils et résultats. But : permettre à n’importe quel industriel ou académique de faire tourner son système dans des conditions identiques afin de pouvoir évaluer lui- même son système. - Une suite à EQueR ? Liens forts avec la tâche CLEF-QA de la campagne européenne CLEF (Cross Language Evaluation Forum) EVALDA / EQUER 9.Conclusion (2/2)
31
TALN 08 juin 2005 ELRA/ELDA CA /31 EVALDA / EQUER
32
TALN 08 juin 2005 ELRA/ELDA CA /32 EVALDA / EQUER
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.