TALN 08 juin 2005  ELRA/ELDA CA /1 Atelier TALN’05 EASy - EQueR EVALDA.

Slides:



Advertisements
Présentations similaires
TRACE ATELIER DE REVISION Centre International de Formation de lOIT, Turin (Italie) Les juin 2006 PRESENTATION DES RESULTATS ACTION CLE N° 17 Partenaire.
Advertisements

Réunion de lancement du Lundi 4 Février 2008
La recherche documentaire
Les politiques dalimentation et de développement des Archives Ouvertes Atelier Archives Ouvertes – Monastir – 15 mai 2012 Jean-François LUTZ Université
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Navigation Interactive dans les documents
Navigation Interactive dans les documents Brigitte Grau et Jean-Paul Sansonnet J.P. Fournier, N. Hernandez, M. Hurault-Plantet, J-C. Martin, G. Pitel,
Projet Coménius « Turning the blue planet green » Lycée Jean MICHEL.
L’utilisation des Normes ISO 9001 et ISO 9004 dans la démarche qualité
Institut national du cancer Mise en place de la veille sur le cancer Lyon, 26 octobre 2005 Ingrid Aubry.
Le référencement des pages web
La Recherche en Ligne.
Analyse des moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
Midi pédagogique Bienvenue à toutes et à tous!. Lévaluation formative Petite évaluation diagnostique pour débuter… Document 1.
ORGANISER UNE RENCONTRE Projet EPS. Quatre temps forts 1- Trois mois avant la manifestation 2- Trois semaines avant la rencontre 3- Pendant la rencontre.
et contrôle des retraites
Les systèmes de Question-Réponse
Evaluation des besoins en renforcement des capacitEs
Session 4: Le suivi de la feuille de route de la Stratégie de Dakar
DPC et APP en 2014 : les nouveaux fondamentaux pratiques
SÉMINAIRE DE LANCEMENT DES COURS EN LIGNE
Bibliothèque Saint-Jean Octobre 2013 ANTHE 393 Travail dapplication #3: Santé dans un contexte multiculturel contemporain.
Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005
Quest-ce lévaluation pour lapprentissage? Trilogie de lévaluation * Lévaluation diagnostique elle se situe avant lenseignement * Lévaluation formative.
Chercher et trouver Module 1 Déroulement : Souhaiter la bienvenue
Moteur de recherche d’information
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Systeme Question-Reponse SQR
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
La veille numérique : un outil pour s'informer intelligemment &
Présentation du projet edot Revue intermédiaire - 29 Juin 2004.
Les moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
GNU Free Documentation License
Bordeaux - Juin HAL – Le contenu / Les acteurs
Etape 1: Poser le problème
1 BEP métiers de l’électronique Déroulement de l’examen (Candidats scolarisés)
1 Registration Physique Séminaire du Master Davide Bazzi Université de Fribourg
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
Management de la qualité
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
L’ergonomie des IHM : pourquoi, comment ?
EASY Campagne EASY Campagne d’Évaluation des Analyseurs Syntaxiques.
BACCALAUREAT PROFESSIONNEL
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Management de la qualité
Colloque JOCAIR 2006, Amiens Les forums de discussion en milieu éducatif, Etat de recherches et des questions France Henri, Bernadette Charlier et Daniel.
VIVRE ENSEMBLE LANGAGE ORAL ET ECRIT
Programme plurinational de lutte contre le VIH/SIDA (PPS) Données programmatiques Collectées entre jan-juin 2004 É quipe de la Campagne de lutte contre.
13/04/2017 École de bibliothéconomie et des sciences de l'information
Trois structures juridiques possibles pour les PRES : -groupement d'intérêt public -établissement public de coopération scientifique -fondation de coopération.
Modalités de mise en place de l’épreuve E5 pour la session de 2009.
Combating Web Spam with TrustRank. OSINI Aurélien.
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Le Traitement Automatique des Langues (TAL)
Informatique et Sciences du Numérique
Les Interactions Plantes / Pathogènes
AUTOÉVALUATION HCERES - ÉTABLISSEMENT
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Structure (Plan) d’un mémoire
COMITE DE SUIVI DES DOCTORANTS France Mentré Principe : responsabilité de l’Ecole Doctorale d'aider chaque Doctorant à aboutir à une thèse –s’appuyant.
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
Règlement Intérieur Université Paris Saclay Guy Wormser Laboratoire de l’Accélérateur Linéaire 12 Septembre 2014.
Le contrôle de gestion dans le secteur public
Master 1 « diffusion de la culture » Formation à la maîtrise de l’information scientifique et technique Séance 2 Jeudi 02/10/2014 SID2 1.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
Pioche les cartes, réponds aux questions Et gagne des points !!!!
Journée d’étude GRCDI-ESPE Caen-Rouen "L’EMI en questions : enjeux, prescriptions, contenus, apprentissages" Caen, 18 mars 2016 L’EMI sur le web : cartographie.
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
Transcription de la présentation:

TALN 08 juin 2005  ELRA/ELDA CA /1 Atelier TALN’05 EASy - EQueR EVALDA

TALN 08 juin 2005  ELRA/ELDA CA /2 1.Présentation générale des deux campagnes 2.Table ronde 3.Session posters

TALN 08 juin 2005  ELRA/ELDA CA /3 Table ronde Types de corpus incluant la dichotomie oral-écrit (EASY-EQUER) – Jean Véronis Types de corpus incluant la dichotomie oral-écrit (EASY-EQUER) – Jean Véronis Qu’est-ce qu’un mot, qu’est-ce qu’une phrase (EASY) – Didier Bourigault Qu’est-ce qu’un mot, qu’est-ce qu’une phrase (EASY) – Didier Bourigault Articulation syntaxe – sémantique (EASY-EQUER) – Pierre Zweigenbaum Articulation syntaxe – sémantique (EASY-EQUER) – Pierre Zweigenbaum Qu’est-ce qu’une entité nommée ? (EASY-EQUER) –Thierry Poibeau Evaluation des inférences, plus généralement du processus de résolution (EQUER) – Brigitte Grau Evaluation des inférences, plus généralement du processus de résolution (EQUER) – Brigitte Grau Qu’est-ce qu’une bonne réponse (EQUER) - Dominique Laurent Qu’est-ce qu’une bonne réponse (EQUER) - Dominique Laurent Evaluation interactive (1 coup, requête itérée/dialogue) (EQUER) – Anne Vilnat Evaluation interactive (1 coup, requête itérée/dialogue) (EQUER) – Anne Vilnat Utilisation des résultats de l’évaluation (choix d’outils, identification des algorithmes les plus performants, etc.) – Patrick Paroubek Utilisation des résultats de l’évaluation (choix d’outils, identification des algorithmes les plus performants, etc.) – Patrick Paroubek

TALN 08 juin 2005  ELRA/ELDA CA /4 Campagne EQueR Campagne d’Evaluation des Systèmes de Question-Réponse EVALDA

TALN 08 juin 2005  ELRA/ELDA CA /5 Présentation générale 1. Présentation générale 2.Collections de documents 3.Corpus de questions 4.Validation des questions 5.Déroulement de l’évaluation 6.Jugement humain des résultats 7.Calcul des scores 8.Présentation des résultats 9.Conclusion EVALDA / EQUER

TALN 08 juin 2005  ELRA/ELDA CA / Partenaires Organisateur : ELDA (Paris) Responsable scientifique : Brigitte Grau (LIMSI) Fournisseurs de corpus et d’outils : - ELDA (Paris) : corpus général - CISMEF (Rouen) : corpus médical - Systal / Pertimm (Asnières-sur-Seine) : moteur de recherche EVALDA / EQUER 1.Présentation générale (1/4)

TALN 08 juin 2005  ELRA/ELDA CA / Partenaires (suite) Participants : 3 institutions privées : France Télécom, Sinequa, Synapse 5 laboratoires publics : Limsi-CNRS, LIA & iSmart, STIM / AP-HP, CEA, Université de Neuchâtel EVALDA / EQUER 1.Présentation générale (2/4)

TALN 08 juin 2005  ELRA/ELDA CA / Objectifs  Alimenter l’activité de recherche dans le domaine en fournissant une photographie de l’état de l’art en France  Permettre le développement de cette activité en fournissant des corpus aux chercheurs 1.3. Trois tâches étaient prévues -Tâche « généraliste » -Tâche « spécialisée », domaine spécifique (médical) -Tâche « généraliste » Web  abandonnée EVALDA / EQUER 1.Présentation générale (3/4)

TALN 08 juin 2005  ELRA/ELDA CA / Composants d’un système QR Analyse des questionsTraitement des documents Extraction de la réponse Etiquetage morpho- syntaxique Analyse syntaxique Désambiguation Typage des réponses Choix de mots pivots et de relations Reconnaissance des entités nommées Sélection de documents ou de passages Moteur de recherche Constitution de la requête Sélection de passages ou de phrases Analyse des phrases Extraction des réponses Ordonnancement des réponses

TALN 08 juin 2005  ELRA/ELDA CA / Corpus « général » environ 1,5 Go constitution et nettoyage (ELDA) Articles, dépêches de presse et rapports institutionnels : - Le Monde ( )  source : xml - Le Monde Diplomatique ( )  source : xml - SDA (Schweitzeriche Depeschenagentur ( ) source : xml - Le Sénat ( ) sources : html EVALDA / EQUER 2.Collections de documents (1/2)

TALN 08 juin 2005  ELRA/ELDA CA /11 2.Collections de documents (2/2) 2.2. Corpus « médical » environ 50 Mo constitution et nettoyage (CISMEF/STIM) Articles scientifiques du domaine médical, recommandations, tirés des sites Web : - Santé Canada - Orphanet - CHU Rouen - FNLCC (Fédération Nationale de Lutte Contre le Cancer) EVALDA / EQUER

TALN 08 juin 2005  ELRA/ELDA CA /12 3.Corpus de questions (1/3) 3.1. Corpus « général » Corpus de 500 Questions (ELDA) : -407 questions « factuelles » simples (personne, organisation, date, lieu, mesure, manière et objet/autre) :  Qui a écrit Germinal ? Emile Zola -31 questions factuelles dont la réponse attendue est une « liste » :  Quels sont les 7 pays du G7 ? Allemagne, Canada, Etats-Unis, France,Grande- Bretagne, Italie et Japon -32 questions dont la réponse est une « définition » :  Qui est Alexander Popov ? Nageur russe -30 questions dont la réponse est « oui/non » :  Existe-t-il une ligne de TGV Valenciennes-Paris ? OUI EVALDA / EQUER

TALN 08 juin 2005  ELRA/ELDA CA /13 3.Corpus de questions (2/3) 3.2. Corpus « médical » Corpus de 200 Questions (CISMEF) : -81 questions « factuelles » simples (personne, organisation, date, lieu, mesure, manière et objet/autre) :  Citer un traitement de la schyzophrénie. La neurochirurgie -25 questions factuelles dont la réponse attendue est une « liste » :  Quels sont les 4 stades du cancer de l’ovaire ? -70 questions dont la réponse est une « définition » :  Comment XXX cf. corpus de questions medical -24 questions dont la réponse est « oui/non » :  Le mercure est-il un métal toxique ? OUI EVALDA / EQUER

TALN 08 juin 2005  ELRA/ELDA CA /14 EVALDA / EQUER 3.Corpus de questions (3/3) 3.3. Constitution du corpus de questions « général » Selon les sources, extraction de balises de mots-clés ou de titres etats-unis réfugies cubains nombre record  Combien de réfugiés cubains ont débarqué en Floride en 1993 ? sarajevo visite de giscard d estaing  Valéry Giscard d'Estaing a-t-il visité Sarajevo ? L'ex-président zambien inculpé de rétention d'information  Qui est le président de la Zambie ? Classement par type de question et recherche de questions pour les types manquants

TALN 08 juin 2005  ELRA/ELDA CA /15 Validation des corpus de questions à l’aide du moteur de recherche Pertimm : –Indexation des collections de documents dans Pertimm –Transformation des questions en requêtes –Élargissement des requêtes jusqu’à obtenir 100 identifiants de documents pour chaque question –Vérification manuelle de la présence d’au moins un bon document parmi les 100 renvoyés par Pertimm EVALDA / EQUER 4.Validation des questions (1/2)

TALN 08 juin 2005  ELRA/ELDA CA /16 Exemples de requêtes : Qui a fondé le Festival international de la bande dessinée d'Angoulême ?  Festival;++bande dessinée;++Angoulême Quel est le traitement de l'algie vasculaire de la face ?  algie;++vasculaire;++face;++traitement EVALDA / EQUER 4.Validation des questions (2/2)

TALN 08 juin 2005  ELRA/ELDA CA /17  16 juillet 2004 : Envoi du corpus d’évaluation aux participants : corpus de questions tâche générale corpus de questions tâche médicale pour chaque question, les 100 premiers identifiants de documents retournés par Pertimm  23 juillet 2004 : Renvoi des résultats par les participants (dernier délai)  chaque participant pouvait nous renvoyer jusqu’à 2 soumissions par tâche EVALDA / EQUER 5.Déroulement de l’évaluation

TALN 08 juin 2005  ELRA/ELDA CA / Spécifications évaluation évaluation des réponses courtes ET des passages possibles (les passages sont évalués systématiquement) 4 jugements possibles pour les réponses courtes : - Correct- Incorrect - Inexact- Non justifié 2 jugements possibles pour les passages : - Correct- Incorrect EVALDA / EQUER 6.Jugement humain des résultats (1/3)

TALN 08 juin 2005  ELRA/ELDA CA / Tâche générale 2 étudiants ont évalué les résultats pendant 1 mois évaluation croisée pour validation de la cohérence inter-juges : moins de 5% de désaccords  jugements validés Au total, 12 soumissions évaluées EVALDA / EQUER 6.Jugement humain des résultats (2/3)

TALN 08 juin 2005  ELRA/ELDA CA / Tâche spécialisée une spécialiste du CISMEF (CHU Rouen) a évalué les résultats Au total, 7 soumissions évaluées EVALDA / EQUER 6.Jugement humain des résultats (3/3)

TALN 08 juin 2005  ELRA/ELDA CA /21 2 métriques utilisées :  MRR : Moyenne de l’inverse du Rang (Mean Reciprocal Rank) -Questions « factuelles » simples. -Questions dont la réponse est une « définition ». -Questions dont la réponse est « oui/non ».  NIAP : Précision moyenne (Non Interpolated Average Precision) -Questions dont la réponse est une « liste ». EVALDA / EQUER 7.Calcul des scores (1/3)

TALN 08 juin 2005  ELRA/ELDA CA /22 EVALDA / EQUER  MRR : Moyenne de l’inverse du Rang Ce critère tient compte du rang de la première bonne réponse trouvée. Si une bonne réponse est trouvée plusieurs fois, elle n’est comptée qu’une seule fois. Les systèmes ne trouvant pas la bonne réponse en rang 1 sont désavantagés. 7.Calcul des scores (2/3)

TALN 08 juin 2005  ELRA/ELDA CA /23 EVALDA / EQUER  NIAP : Précision Moyenne Ce critère tient compte du rappel et de la précision mais aussi de la position des bonnes réponses dans la liste. 7.Calcul des scores (3/3) avec : et :

TALN 08 juin 2005  ELRA/ELDA CA / Corpus général, réponses courtes et passages EVALDA / EQUER 8.Présentation des résultats (1/4)

TALN 08 juin 2005  ELRA/ELDA CA / Corpus médical, réponses courtes et passages EVALDA / EQUER 8.Présentation des résultats (2/4)

TALN 08 juin 2005  ELRA/ELDA CA / Corpus général : factuelles, définitions et oui-non EVALDA / EQUER 8.Présentation des résultats (3/4)

TALN 08 juin 2005  ELRA/ELDA CA / Corpus médical : factuelles, définitions et oui-non EVALDA / EQUER 8.Présentation des résultats (4/4)

TALN 08 juin 2005  ELRA/ELDA CA / TREC (USA) et NTCIR (Japon) EVALDA / EQUER

TALN 08 juin 2005  ELRA/ELDA CA / Bilan -Participants : -Véritable succès : participation et intérêt croissant d’une très large majorité des acteurs du domaine dont de nouveaux participants qui n’avaient jamais fait d’évaluation Q-R auparavant. -beaucoup d’équipes françaises en comparaison avec le nombre de participants européens à CLEF (en général 1 participant par pays) -Evaluation : -nouveau type de questions (questions « oui/non ») -des questions-réponses sur un corpus spécialisé EVALDA / EQUER 9.Conclusion (1/2)

TALN 08 juin 2005  ELRA/ELDA CA / Perspectives - Package d’évaluation Ensemble des données relatives au projet et fournies aux participants lors de la campagne : ensemble des spécifications de la campagne, corpus, outils et résultats. But : permettre à n’importe quel industriel ou académique de faire tourner son système dans des conditions identiques afin de pouvoir évaluer lui- même son système. - Une suite à EQueR ? Liens forts avec la tâche CLEF-QA de la campagne européenne CLEF (Cross Language Evaluation Forum) EVALDA / EQUER 9.Conclusion (2/2)

TALN 08 juin 2005  ELRA/ELDA CA /31 EVALDA / EQUER

TALN 08 juin 2005  ELRA/ELDA CA /32 EVALDA / EQUER