La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement.

Présentations similaires


Présentation au sujet: "Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement."— Transcription de la présentation:

1 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Langues Patrick Paroubek Laboratoire pour la Mécanique et les Sciences de lIngénieur Centre National de la Recherche Scientifique

2 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février Le paradigme dévaluation 2.Contrastes Historiques Europe / États-Unis 3.Le traitement de lécrit 1.Annoter (Kappa) & Aligner (Prog. Dyn.) & Évaluer (Précision/Rappel) 2.Morphosyntaxe 3.Syntaxe 4.Remarque sur lévaluation des systèmes de dialogue

3 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février Le paradigme dévaluation

4 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Évaluation : subst fém. Action dévaluer, dapprécier la valeur (dun chose); technique, méthode destimation. [TLFI] Lévaluation est "une formalisation" dun processus de sélection naturelle. Lévaluation est inhérente au processus scientifique. Trouver une réponse (optimale) à un problème. Comment comparer les réponses ? Lévaluation nécessite ladoption dun système de valeurs.

5 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février )Quévalue ton ? (identifier la frontière du système et la tâche effectuée par le système) 2)Évalue ton un système ou un couple système-utilisateur ? 3)Par rapport à quel système de valeurs ? 4)Par rapport à quel objectif ? (réponse apportée par lévaluation). Rem. Lévaluation nest pas une compétition (compétition = qui ?, évalution = comment ?)

6 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Lévaluation fait peur (sélection/compétition). Le rapport ALPAC 1966 a engendré un arrêt des financements aux USA pour la Traduction Automatique pendant 20 ans. Mais ce qui est dangereux nest pas lévaluation, mais la manière dont on utilise ses résultats. Par ex. une lecture abusive du livre de Minsky & Papert (Perceptrons) a retardé lavènement des réseaux de neurones multi-couches dune dizaine dannées. Maghi King, « When is the next ALPAC report due? », 10th International Conference on Computational Linguistics, Proceedings of Coling84, July 1984, Stanford University, Ca (ACL 1984); p

7 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Les campagnes dévaluations sont un accélérateur du processus scientifique: ressources, outils, standards, infrastructure, synergie. LDC (http ://www.ldc.upenn.edu) aux USA et ELRA/ELDA en Europe (http ://www.elra.org ou Objectif : créer, maintenir, distribuer, partager des ressources linguistiques. LDC = Linguistic Data Consortium, consortium ouvert de laboartoires de recherche, univsertités, industriels et agences gouvernementales, fondé en 1992 (ARPA et NSF), hébergé à lUniversité Pennsylvania.

8 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 ELRA association à buts non lucratifs (loi 1901), basée au Luxembourg, fondée en février ELDA, S.A. fondée en février 1995, instrument exécutif dELRA. Financement Européen initial, puis auto-financement. Objectif: pérenniser/partager les ressources produites par les projets Européens, ainsi que produire de nouvelles ressources. Impact de lévaluation : Ex. Progrès en reconnaissance de Parole grace aux évaluations DARPA aux USA qui ont amené la technologie sur le marché.

9 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Compétition: 1 critère, ordre total, pas daudit de performance, pas de reproductibilité Validation : plusieurs critères, ordre partiel, seuil de performance, réponse oui/non, reproductibilité Évaluation: plusieurs critères, ordre partiel, audit de performance, reproductibilité.

10 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 ELSE distingue : 5 types dévaluations: ELSE: http: //www.limsi.fr/TLP/ELSE

11 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février Évaluation en recherche de base, pour valider des idées nouvelles et quantifier leur apport, 2.Évaluation de technologie, mesure de la performance et de ladéquation de méthodes pour résoudre un problème bien défini, simplifié et abstrait, 3.Évaluation orientée utilisateur, utilisabilité dune technologie pour résoudre un problème de terrain, en conditions réelles dutilisation, 4.Évaluation dimpact, conséquences socio-économique du déploiement dune technologie, 5.Évaluation de programme, évaluation dimpact des technologies supportées par un programme institutionnel.

12 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 « extrinsic » / « intrinsic » evaluation criteria, Intrinsèque = critère lié uniquement à la fonction propre du système Extrinsèque = critère lié à la fonction du système, considérée dans son environnement de déploiement usuel. Karen Spark-Jones & Julia R. Galliers, « Evaluating Natural Language Processing Systems », Springer, 1995.

13 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 EAGLES distingue 3 types dévaluation: 1.« adequacy » evaluation, adéquation dun système pour une fonction donnée 2.« diagnostic » evaluation, identification des raisons de dysfonctionnement 3.« progress » evaluation, mesure des progrès en performance EAGLES : http: //www.issco.unige.ch/projects/ewg96/ewg96.html (evalutation of NLP systems : final report, )

14 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Qualitative (morpholympics) Quantitative (NIST/DARPA, Technolangue-EVALDA) Comparative (NIST/DARPA, Technolangue-EVALDA) Boîte « noire » (NIST/DARPA, Technolangue-EVALDA) Boîte « blanche » (DISC) Subjective (morpholympics) Objective (NIST/DARPA, Technolangue-EVALDA)

15 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Le paradigme dévaluation (Joseph Mariani) 1.Assembler des acteurs (évaluateurs, participants, producteurs de ressources) 2.Organiser une campagne dévaluation sur de données communes 3.Définir une mesure de performance commune Joseph Mariani, Patrick Paroubek, "Human Language Technologies Evaluation in the European Framework", actes de l'atelier DARPA Broadcast News Workshop, Whashington, February 1999, Morgan Kaufman Publishers, ISBN , pp

16 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Une infrastructure pour l évaluation en ingéniérie linguistique : 1.Comparative & Collaborative 2.Tâche/Application Indépendente 3.Semi-Automatique & Reproduisible 4.Boîte Noire + Conférence 5.Quantitative 6.Multilingue 7.Oral & écrit

17 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Actors in the infrastructure European Commission ELRA ParticipantsEvaluators Users & Customers (EU / non EU) L. R. Producers Research Industry Citizens

18 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Attentes: 1.Renforcement de lutilisation des standards 2.Des informations et des connaissances sur les applications et les technologies disponibles de meilleur qualité et plus abondantes 3. Des produits et des ressources de meilleurs qualité 4.Un accroissement de la quantité de ressources linguistiques annotées et validées

19 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Structure dune campagne 1.Phase 1 - Développement (distribution calibrage / données dentrainement) 2.Phase 2 - Essais + première Adjudication (+ Conférence/Atelier) 3.Phase 3 - Tests + seconde Adjudication + Conférence/Atelier 4.Phase 4 - Valorisation (distribution des données produites et des résultats) 5.Phase 4 - Étude d Impact

20 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 La tâche de contrôle 1.La fonction de traitement du language doit être facile a comprendre 2.Elle peut être réalisée manuellement 3.Il peut sagir dune tâche « artificielle » 4.Il existe un formalisme commun, facilement accessible (projection/transcodage aisé) 5.Il est « facile » de définir une mesure de performance

21 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février Contrastes Historiques Europe / États-Unis

22 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Contexte international 1.États-Unis 1.Campagnes d évaluation NIST - DARPA 1.Depuis 1987, ouvertes en Ecrit / Oral 3.Production / distribution des ressources (LDC) 4.Organisation des campagnes (NIST) 2.Traitement du Langage Parlé 1.Dictée Vocale (RM, WSJ, NAB) 2.Compréhension de la langue parlée (ATIS) 3.Transcription infos radio/télédiffusées (BN) 4.Reconnaissance de conversations (switchboard) 5.Reconnaissance du locuteur 6.Reconnaissance de la langue parlée

23 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006

24 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Contexte international 1.États-Unis 1.Traitement du Langage Écrit 1.Recherche dInformations Textuelles (TREC) 2.Compréhension de Messages (MUC) 3.Traduction Automatique 2.Traitement du Langage Écrit + Parlé 1.Extraction dEntités Nommées (dans BN) 2.Détection et Suivi de Thèmes (TDT) (dans BN) 3.Reconnaissance de caractères etc...

25 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Évaluation aux USA (Parole) 1.CSR (DARPA) read & found english, LVCSR conversationel, multilingue 3.ATIS (DARPA) 4.DARPA/NSF en 1998 (multilingue): 1.Extraction d entité nommées 2.Détection et suivit de thèmes 3.Transcription de nouvelles 4.COMMUNICATOR

26 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Traitement Automatique des Langues et Industrie de la Langue Évaluation (USA) COMMUNICATOR dialogue oral pour la réservation de transport, lhébergement et planification ditinéraire TIDES extraction dinformation interlingue, traduction et résumé automatique

27 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Traitement Automatique des Langues et Industrie de la Langue Évaluation (USA) AQUAINT (Defense Ministry) programme de l ARDA, extraction d'information étendue en amont et en aval sur des données multimodales, pour incorporer des connaissances à des données factuelles du types de celles manipulées dans les évaluations TREC ITR (NSF) recherche en technologie de l'information)

28 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Traitement Automatique des Langues et Industrie de la Langue Évaluation (USA) SYMPHONY (DARPA) suite de COMMUNICATOR et dont les objectifs sont : la reconnaissance de la parole robuste en milieu bruité, le compte rendu automatique de réunion, la fusion de données multimodales, l'interprète automatique, les interfaces homme-machine dialogiques, la traduction automatique (déjà présente dans le programme TIDES), et l'exploitation rapide et automatique de langues nouvelles

29 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Évaluation aux USA (écrit) 1.Tipster program (DARPA & NIST) 2.MUC-1 (1987) to MUC-7 (1998) 3.MET-1 (1995) and MET-2 (1998) 4.TREC-1 (1992) to TREC-7 (1998) 5.SUMMAC 6.MT Evaluation (1992, 1993, 1994)

30 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Traitement Automatique des Langues et Industrie de la Langue Évaluation (USA) Les directions de recherche favorisées par le DARPA: les technologies robustes à large couverture, les technologie de base largement réutilisables, la multilingualité, le partage des données ( LDC) les corpus arborés (U. Penn) les évaluation comparatives supportées par des métriques quantitatives, les expériences d'intégration et de faisabilité Lobjectif à plus long terme étant la compréhension du langage

31 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Contexte international 1.Japon, National Institute of Informatics (http ://www.nii.ac.jp) 1.Research Center for Information Ressources (test collection for IR systems) 2.Research Center for Testbeds and Prototyping (scholarly information retrieval) 2.Cocosda / Oriental Cocosda ( International Committee for the Coordination and Standardisation of Speech Databases and Assesment Techniques) 3.Conférences : 1.HLT workshop 02, 03, 04, 06 2.LREC conference 98, 00, 02, 04, 06 3.LangTech conference 02, 03,

32 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Évaluation en Europe EAGLES TSNLP DIET TEMAA SQALE SPARKLE DISC MATE COCOSDA SAM & SAM-A Morpholympics Actions de recherche concerté de lAUPELF GRACE (CNRS) VerbMobil

33 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Pilot Senseval / Romanseval Task: Word Sense Disambiguating (Senseval/English) 20 nouns, 20 adjectives and 20 verbs Romanseval, same task in French & Italian. 8 month (December September 1998) 35 teams interested / 21 systems evaluated Senseval: FR, USA, IT, UK, CH, KO, MA, CA, SP, NL Romanseval: FR, IT, CH Budget :61 KEuros(English) Data, hardware and computing for free. Evaluatees not funded.

34 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 SQALE Project Duration 1993 to Evaluation of 3 different ASR 3 languages + 1 common (Fr., Germ., UK Eng. + US Eng.) TNO-IZF (NL), Philips (D), U. Cambridge (UK), Limsi- CNRS (F) Task: dictation of newspaper texts Result: If a system is better on the common language than another system, it will also be better on its own language. Comparison with human performance was studied.

35 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 DISC Project Reference methodology for SLDS development. Best practice development and evaluation (existing components & procedures) Results: Guidelines and Heuristics 2 Guiding principles: Grid Aspects of SLDS components and Development Lifecycle of SLDS 7 Participants: NIS (DK), LIMSI (F), IMS (D), KTH (S), Vocalis (UK), D-Benz (D), ELSNET (NL) Duration: 1 year (1998) Follow-up: DISC-2 (January 1999) information update, packaging, access and usability

36 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 DISC Project

37 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 EAGLES Evaluation WG EAGLES was launched in 1993 Aim: standards for NLP technology (including evaluation) Eval. working group started from ISO 9126 (software) User-oriented methodology (consumer report paradigm) for adequacy evaluation or progress evaluation Formalism (based on feature structures) for classifying products and users. Case studies on: spelling checkers (LRE-TEMAA), grammar checkers and translators aids. Follow-up: EAGLES-II ( ), consolidate, extend and disseminate EAGLES results.

38 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 ELSE Project Evaluation in Language and SpeechEngineering 8 partners: MIP (DK), LIMSI (FR), DFKI (D), U. Pisa (I), EPFL (CH), XRCE (FR), U. Sheffiel (UK), CECOJI (FR) + ELSNET & ELRA Duration: January April Budget: 414 KECU Draw a blueprint for an evaluation infrastructure (IST Key Actions of FP5 ?) Evaluation Paradigm: contrastive quantitative Technology Evaluation.

39 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Actors in the infrastructure European Commission ELRA ParticipantsEvaluators Users & Customers (EU / non EU) L. R. Producers Research Industry Citizens

40 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Traitement Automatique des Langues et Industrie de la Langue Évaluation (Europe) EAGLES TSNLP DIET TEMAA SQALE SPARKLE DISC MATE COCOSDA SAM & SAM-A Morpholympics Actions de recherche concerté de l AUPELF GRACE (CNRS) VerbMobil ELSE

41 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Traitement Automatique des Langues et Industrie de la Langue Évaluation (Europe) CLASS Evaluation URL: http: //www.limsi.fr/TLP/CLASS Disponibles sur le site : Actes de LREC2000 CLASS atelier satellite sur lévaluation. 1.Actes de EACL 2OO1, Toulouse, atelier « Evaluation for Language & Dialog Systems » 2. Présentations du Bullet Course on the paradigm of Evaluation in Speech and Language, Juillet, Paris 02 et

42 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Traitement Automatique des Langues et Industrie de la Langue Évaluation (Europe) CLEF: recherche dinformation interlingue SENSEVAL: désambiguïsation sémantique SMARTKOM: nouveau projet allemand. TCSTAR technologie pour interprète automatique ECOM (ELRA) évaluation

43 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 FRANCIL Program Created : June 1994 Coordinator: J. Mariani, F. Néel Networking (70 laboratories, 9 countries) Training Collaborative Research Actions (ARP) Strategic Research Actions (ARC) Budget: 4 Meuro / 4 years - 2 Meuro ARC

44 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 ARC Use of the evaluation paradigm for accompanying research : Infrastructure for evaluation (protocols, metrics, organization...) Language Resources for systems development and evaluation Discussion of the advantages and disadvantages of different approaches based on objective evaluation conducted on common data Written and spoken language

45 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 ARC ILEC (Written Language) Language Resources for written French language and system evaluation: A1 (Amaryllis): Natural Language Access to textual information A2 (Arcade): (Bi/Multi)lingual (French-English) corpus alignment A3: Automated terminological database design A4: Text understanding

46 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 ARC ILOR (Spoken language) Language Resources for spoken French language and system evaluation B1: Voice Dictation (large vocabulary recognition) B2: Vocal Dialog B3: Text-to-Speech synthesis

47 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 ARC: Calendar & Budget Call for proposals in July 1994, selection in November 1994 of 50 proposals (34 labs) out of 89 proposals. 2 evaluation campaigns of a two year time span ( and ) Total budget (6 ARCs) = 2 Meuros ( 4 years) 167 Keuros / campaign / control task (1 evaluator, ~ 7 evaluatees, 3 different countries)

48 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 CNRS CCIIL GRACE Action Control Task: POS tagging for French. Corpora: Train.= 10 Mw, D.R.= 450Kw, T.= 650 Kw Call for tenders November Training January Dry run October Workshop (JST April 1997). Tests December Workshop in May First results disclosed on the WEB in November participants, 5 countries (CA, USA, D, CH, FR). Budget 800 Keuros Byproducts: eval. results, com. prod., 1 Mw valid. corpus

49 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 TechnoLangue Programme dinfrastructure en soutien à la R&D, la R&D restant dans les RRIT et le programme spécifique« Veille » TECHNOLANGUE RNRTRNTLRIAMVSE

50 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006

51 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Programme dévaluation TECHNOLANGE: EVALDA ARCADE II alignement de documents CESART acquisition de terminologie CESTA traduction automatique EASy analyse syntaxique Equer Question-Réponses ESTER transcription émission radio Evasy Synthétiseur de parole français MEDIA compréhension du dialogue

52 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Le traitement de lécrit 1.Annoter (kappa et segmentation) 2.Aligner (Programmation Dynamique) 3.Évaluer (Précision/Rappel) 4.Morphosyntaxe (GRACE) 5.Syntaxe (EASY)

53 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Le (coefficient) Kappa est une mesure permettant de quantifier la plus ou moins grande similarité entre deux systèmes dannotation (accord inter-annotateur). Le kappa est fréquemment utilisée en TALN. Il a été défini par [Cohen 1960]. Le principe est de relativiser la valeur effectivement observée pour le taux daccord en la rapportant à celle qui aurait été obtenue en comparant deux systèmes affectant les étiquettes de façon aléatoire dans les mêmes proportions que les systèmes effectivement comparés.

54 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Barbara Di Eugenio and Michael Glass (2004). The kappa statistic: A second look. Computational Linguistics, 30(1): Véronis, J. (1998a). A study of polysemy judgements and inter-annotator agreement. Senseval workshop, 2-4 Sept Herstmonceux Castle, England. Bruce, R., Wiebe, J. (1998). Word sense distinguishability and inter-coder agreement. Proceedings of the 3rd Conference on Empirical Methods in Natural Language Processing (EMNLP-98). ACL SIGDAT, Granada, Spain, June Carletta, J. (1996). Assessing agreement on classification tasks: the kappa statistics. Computational Linguistics, 22(2),

55 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Jones, A. P., Johnson, L. A., Butler, M. C., & Main,D. S Apples and oranges: An empirical comparison of commonlyused indices of interrater agreement. Academy of Management Journal, 26(3): Davies, M., Fleis, J. L. (1982). measuring agreement for multinomial data. Biometrics, 38, Brenann, R. L. & Prediger, D.J. (1981). Coefficient Kappa : Some uses,misuses and alternatives. Educational and Psychological Measurement,4, Hubert, L Kappa revisited. Psychological Bulletin, 84(2):

56 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Landis J.R.; Koch G.G. (1977) The measurement of observer agreement for categorial data. Biometrics 45: Fleiss, J. L.; Cohen, J.; and Everitt, B. S. Largesample standard errors of kappa and weighted kappa. Psychological Bulletin 72 (1969): Cohen, J. (1960) A coefficient of agreement for nominal scales. Educational and Psychological Measurements 20(1):

57 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février qualifier « lindépendance » de 2 annotations (o/n) 2.quantifier laccord de 2 annotations Pour (1) pas de pb, mais pour (2) hypothèse dindépendance des annotateurs suscite des questions Valeurs de kappa, accord [Landis & Koch, 77]: faible modéré substantiel (poser des hypothèses) presque parfait (les vérifier)

58 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 K = (P(A) - P(E) ) / (1 - P(E)) P(A) = probabilité daccord mesurée P(E) = probabilité estimée dun accord du au hasard -V -454 V15301 A1 A2 365 occurrences de la forme « est » annotées par 2 systèmes en V (verbe) ou autre (-)

59 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Kappa = 0.7, en estimant les probabilités par la fréquence avec la loi des grands nombres (risque 5%) et en supposant les annotations indépendantes. … V V – – V V V V – …

60 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 En TALN, analyser cest de manière générale : 1. Segmenter (par ex. frontières de mots) 2. Identifier ( par ex. lister les étiquettes morpho- syntaxiques possibles) 3. Désambiguïser, éventuellement (par ex. choisir la bonne étiquette morpho-syntaxique) Le problème est circulaire! A la base: Quest-ce quun mot ? Importance en TALN du choix des unités élémentaires, les (tokens).

61 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février INkms 1oùPr-mp-- 2lPp3msn-/1.3 3'Pp3msn-/2.3 4onPp3msn-/3.3 5commenceVmip3s- 6àSp 7neRpn 8pasRgn 9comprendreVmn cePd-ms-- 11nRpn/1.2 12'Rpn/2.2 13estVmip3s- 14pasRgn 15sansSp 16uneDa-fs-i 17certaineAi-fs 18émotionNcfs 19quePr-fs-- 20jePp1msn-

62 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Nombre de mots en fonction du participant (GRACE)

63 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Nombre de phrases en fonction du participant (GRACE)

64 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Outil dalignement acquis de lévaluation de loral pour lequel beaucoup de travail a été fait sur la mesure fondamentale en transcription de parole, le taux derreur de transcription (Word Error Rate). La meilleur mesure (fidélité) : mesure du nombre dinsertions, de suppressions et de substitutions. [ J. Makhoul and F. Kubala and R. Schwartz and R. Weischedel, Performance measures for information extraction, Proceedings of DARPA Broadcast News Workshop, 1999, Herndon, VA, February, http ://citeseer.ist.psu.edu/makhoul99performance.html ]

65 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Cette mesure repose sur le réalignement des données produites par un système avec la transcription de référence au moyen de lalgorithme de Programmation Dynamique (réalignement optimal, minimum de distortions introduites) DP utilise une métrique de Levenshtein (ou distance d'édition de Seller) [allison90] L. Allison and C. S. Wallace and C. N. Yee,When is a String Like a String?, Proceedings of International Symposium on Artificial Intelligence in Mathematics (AIM)},1990,Ft. Lauderdale, Florida, January, http ://www.csse.monash.edu.au/~lloyd/tildeStrings/Alignment/90.AIM.html

66 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Fonction de coût : c( x, x )=0 // annotation correcte c( vide, x )=3 // insertion c( x, vide )=3 // omission c( x, y )=4 // substitution Soit la matrice M(i,j), 0

67 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 La somme des coûts d'une insertion (3) et d'une délétion (3) est supérieur au coût d'une substitution (4), on utilisera donc de préférence des substitution à la place de paires insertion-omission, qui seront présentes uniquement pour réaligner les deux flux de données. L'alignement est obtenu en identifiant dans la matrice M(i,j) le chemin de coût minimal, allant de M(L,N) à M(0,0). Pour l'oral, le résultat de l'évaluation pour un tour de parole est donné par le décompte des nombres d'insertion, d'omission et de substitution, pondéré par le nombre de mots présents dans la référence. [Makhoul et al. 99]

68 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février Au DTC:sg cours SBC:sg de PREP Au Sp+Da-ms-d cours Ncfs|Ncms de Da----i|Da-fp-i|Da-mp-i|Sp Alignement (15 systèmes différents pour les tests) Projection des étiquettes dans le jeu GRACE Au Sp/1.3 6/14[ ] cours Ncms|Sp/2.3 6/15[0.4] de Sp 7/13[ ] Combinaison Vote & mesure de confiance P.Paroubek / Limsi-CNRSTALANA 24/01/2001

69 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Des mesures dévaluation des annotations issues de lIR : Précision et Rappel nbr de paires correctes ( mot-annotation ) hypothèse Rappel = nbr total de paires (mot-annotation) référence Si la référence nest pas ambigue (souvent), alors : rappel = proportion dannotations contenant au moins une annotation correcte nbr de paires correctes ( mot-annotation ) hypothèse Précision = nbr total de paires (mot-annotation) hypothèse Si ni la référence, ni lhypothèse ne sont ambigues alors : Précision = Rappel

70 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 P.Paroubek / Limsi-CNRSTALANA 24/01/2001 GRACE, évaluation d'étiquettage morphosyntaxique pour le français, 21 participants, 5 pays: 3 phases: entrainements (10 millions de mots),essais ( ), test ( ) 17 participants aux essais, 13 participants aux tests finaux mesure précision/décision, sur mots, puis mots.étiquettes EAGLES et MULTEXT

71 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Meilleur (P, Dmax): score( P, D ): ( , ) intervalle[Pmin, Pmoy, Pmax]: [ , , ] Meilleur P: score( P, D ): ( , ) intervalle[Pmin, Pmoy, Pmax]: [ , , ] Vote 15 systèmes: score( P, D ): ( , ) intervalle[Pmin, Pmoy, Pmax]: [ , , ] Vote 5 meilleurs P: score( P, D ): ( , ) [Pmin, Pmoy, Pmax]: [ , , ] P.Paroubek / Limsi-CNRSTALANA 24/01/2001

72 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 P.Paroubek / Limsi-CNRSTALANA 24/01/2001

73 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 P. Paroubek / Limsi-CNRS Annotation Morpho-syntaxique 27 / 03 / 01

74 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février Au Sd{1}|Sd/1.3{2}|Sp{1}|Sp+D[ad]-ms-d{1}|Sp+Da-ms-d{5}|Sp/1.2{1}| Sp/1.3{6}|Sp/1.4+Sp/2.4{1} cours Ncfp{3}|Ncfs{1}|Ncmp{2}|Ncms{6}|Sd/2.3{2}|Sp/2.2{1}|Sp/2.3{6}| Sp/3.4{1}|Vmip1s-{2}|Vmip2s-{2}|Vmmp2s-{2} de Da----i{3}|Da-fp-i{2}|Da-mp-i{3}|Di-fp--{1}|Di-fs--{1}| Di-mp--{1}|Di-ms--{1}|Sd/3.3{2}|Sp{7}|Sp/3.3{6}|Sp/4.4{1} Apprentissage Automatique / Combiner plusieurs méthodes pour améliorer les résultats Ada Boost (Schwenk, 1999), cascade de sytèmes similaires pour la reconnaissance de parole. Plus loin dans le temps, stratégie du Winner Take All compétition en unités similaires de traitement (Simpson 1990) P.Paroubek / Limsi-CNRSTALANA 24/01/2001

75 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Combiner pour améliorer NIST, reconnaissance de la parole ROVER - Recognizer Output Voting Error Reduction (Fiscus 1997) Sytème composite, meilleur performance que le meilleur des systèmes. Graphe de mot (alignement), vote à majorité (pondéré par la fréquence maximale d'occurence et un score de confiance). Réduction d'erreur mesurée par Fiscus: 5,6 % en absolu (et 12,5% en relatif). Principe de combinaison de systèmes utilisé par Marquez & Prado 1998 (combinaison de 2 étiquetteurs pour marquer un corpus) Tufis 1999 (plusieurs versions du même système entraîné sur des données différentes) P.Paroubek / Limsi-CNRSTALANA 24/01/2001

76 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Phase 1: formes (4 % des formes) relues pour la catégorie et la sous-catégorie Phase 2: formes (8 % des formes) relues pour les indications de genre, nombre et personne Validation: selection aléatoire de 511 formes, 53 formes identifiées commes douteuses (pas de décision de vote); 27 d'entres elles n'étaient pas correctement étiquettées (erreur de relecture, ou erreur ou ambiguité résiduelle; traits autres que G, N, P), c.a.d. env. 50 % (+-13% avec risque 95%) Inversement sur 458 formes qui n'étaient pas à relire, seules 10 étaient mal étiquettées, ce qui représente un taux d'erreur résiduelle de 2,18% (+-1.34% avec risque 95%) P.Paroubek / Limsi-CNRSTALANA 24/01/2001

77 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 CONCLUSION La campagne GRACE et l'expérience MULTITAG ont prouvé que le paradigme d'évaluation peut servir à produire de manière économique des ressources linguistiques validées de qualité. La généralisation à d'autre tâches de contrôle permet d'augmenter rapidement la quantité de données annotées et validées tout en permettant de déployer le paradigme d'évaluation plus avant. P.Paroubek / Limsi-CNRSTALANA 24/01/2001

78 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février La campagne EASY 2.Annotations pour lanalyse syntaxique 3.Les données 4.Les résultats préliminiaires

79 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 France Telcom R&D GREYC INRIA (ATOLL 1,2) LATL LIC2M LIRMM LORIA XEROX LPL (1,2 & 3) PERTIMM SYNAPSE ERSS TAGMATICA Objectif: évaluation danalyse syntaxique 5 fournis. corpus, 13 participants, 16 systèmes évalués

80 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 ATILF (littéraire) DELIC (oral transcrit, s) ELDA (oral ESTER, MLCC, sénat, questions TREC traduites, questions Amaryllis, web) LLF (Le Monde) STIM (médical) Les fournisseurs de corpus : Il arrive en retard, avec, dans sa poche, un discours quil est obligé de garder.

81 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février GN groupe nominal 2.GP groupe prépositionnel 3.NV noyau verbal 4.GA groupe adjectival 5.GR groupe adverbial Guide dannotation (A. Vilnat) : S_reference_annotations_v1.6.html 5 types de constituants

82 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février Sujet - Verbe 2.Auxiliaire - Verbe 3.Objet direct - Verbe 4.Complément - Verbe 5.Modifieur – Verbe 6.Complémenteur 7.Attribut -Sujet/Objet 8.Modifieur - Nom 9.Modifieur - Adjectif 14 types de relations 10.Modifieur – Adverbe 11.Modifieur – Préposition 12.Coordination 13.Apposition 14.Juxtaposition

83 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Outil dannotation : éditeur HTML + conversion XML (I. Robba) Annotation manuelle en constituants Énoncé 1 En quelle année Desmond Mpilo Tutu a-t-il reçu le prix Nobel … Énoncé 1 GP1 GN 2 NV3 NV4 GN5 En quelle année Desmond Mpilo Tutu a-t-il reçu le prix Nobel … Et en relations etc… sujetverbe GN2 F7 F8 F7

84 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Énoncé 12 NV1GN2NV3GR4GA5 Jepensequemonsieuresttrèsinquiet COD Verbe NV 3 NV1 Complémenteur NV prop. sub. NV 3 NV1 Représentation interne des données au format XML / UTF8 (DTD EASY).

85 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Outils de validation : éditeur graphique (E. Giguet)

86 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Les données ont été fournies aux participants : Brut Segmentées en énoncés Segmentées en mots et en énoncés Segmentées en mots et en énoncés et annotées morphosyntaxiquement (WinBrill + étiquettes GRACE) Corpus de test annoté par les participants : formes énoncés Corpus de mesure : formes énoncés

87 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Web Journal Parlement Littéraire médical Oral man Oral auto Questions Formes Enoncés Corpus de test Corpus de mesure Genre

88 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Les énoncés sont définis à partir de la typographie au moyen dexpressions régulières. Les formes sont définies avec ces mêmes expressions et avec une liste pour les formes composées (non nominales). Les données DELIC ont été segmentées en énoncé manuellement (manque de ponctuation). Toutes les autres données ont été segmentées automatiquement avec les outils EASY

89 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 a_contrario Rgp A_contrario Rgp à_contre-pied Rgp À_contre-pied Rgp à_côté_d' Sp À_côté_d' Sp à_côté_de Sp À_côté_de Sp à_côté_des Sp À_côté_des Sp à_côté_du Sp À_côté_du Sp à_coup_sûr Rgp À_coup_sûr Rgp à_court_terme Rgp Liste des formes composées pour la segmentation de référence formes 38Adjectifs 218Conjonctions 8Interjections 184 Déterminants 128Pronoms 626Adverbes 528Prépositions 2Prepositions ou Adverbes

90 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 fref-f-c3 voilà ben je travaille dans un pressing

91 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février heures À Paris, midi en temps universel, l' information continue sur RFI.

92 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février heures à Paris, midi en temps universel, l' information continue ANNOTATIONS EN CONSTITUANTS

93 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 sur RFI. § ANNOTATIONS EN RELATIONS

94 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Mesures de précision et rappel : par participant, type de constituant, par type de corpus. Mesures strictes (égalité stricte des adresses) et relachement de contrainte sur les adresses de début et de fin de groupes (+/-1). Pour les relations, sugérnération pour certaines relation de la référence (modifieur nom-adjectif intra groupe).

95 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Evaluation en constituants pour 12 systèmes (prec., rap., f-mes., et les mêmes en mode relaché)

96 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Evaluation préliminaire en relations pour 11 systèmes sur sénat, mlcc et littéraire1.

97 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février Les systèmes de dialogue

98 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Pour les systèmes de dialogue oral (SLDS), 2 points essentiels: -évaluation de possible sous de nombreux aspects ( variété des fonctionalités/module, cf figure suivante) - problème : comment décorréler les facteurs humains (ergonomie) et les aspects propres à lapplication réalisée (ex. réservation) de ceux liés au traitement du dialogue proprement dit

99 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Architecture générique dune application de dialogue oral


Télécharger ppt "Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement."

Présentations similaires


Annonces Google