30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Programmes dévaluation pour le traitement de la langue écrite et de la parole Patrick Paroubek / Limsi-CNRS

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Programmes dévaluation pour le traitement de la langue écrite et de la parole Patrick Paroubek / Limsi-CNRS pap@limsi.fr Journée A3CTE: Lévaluation 30 mars 2001, La Pitié Salpétrière

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS 1 Le paradigme d évaluation 2 Les Etats-Unis 3 L Europe 4 Un exemple heureux: GRACE / MULTITAG 5 Lavenir Plan

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS évaluation comparative de technologie Utilisée avec succès aux USA par le DARPA et le NIST (depuis 1984) Échelle plus réduite en Europe (Sqale, Grace, Senseval, CLEF, Amaryllis, ARC-AUF…) Choisir une tâche Rassembler des participants Organiser la campagne (protocoles/mesures/données etc.) nécessaire en fonction de létat de la technologie

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Bénéfices Information partagée par les participants: comment obtenir les meilleurs résultats? Partage de données Informations obtenues par les commanditaires: performance de technologies, progrès/investissement, fixer les priorités Information obtenues par les industriel et les chercheurs non-participants: état de lart, choix des technologies, stratégie de marché, nouveaux produits.

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS transp. de J. Mariani / Limsi-CNRS

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS SPEAKING RATE... CAT. II transp. de J. Mariani / Limsi-CNRS

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Évaluation de Technologie –Attirer des participants –G é n é rique / performance seules –Être peu éloignée dune application réélle Évaluation utilisateur –application / langage spécifique –satisfaction de lutilisateur / performance é Dans les 2 cas, les étapes dune campagne: entraînement, essais, tests, étude dimpacte

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Ressources Langagières Données de Référence construites manuellement (coût + cohérence + guides) Taille Minimale des unités élémentaires Critères de Qualité Minimaux Représentativité des Phénomènes de Langue Réutilisabilité & Multilingualité Les produits de l évaluation deviennent des Ressources

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Les Acteurs Commission EuropéenneELRA ParticipantsÉvaluateurs Utilisateurs & Consommateurs (UE/ non UE) Producteurs R.L. Recherche Industrie Citoyens

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Partie 2: Évaluation aux USA (écrit) Programme Tipster (DARPA & NIST) MUC-1 (1987) to MUC-7 (1998) MET-1 (1995) and MET-2 (1998) TREC-1 (1992) to TREC-7 (1998) SUMMAC MT Evaluation (1992, 1993, 1994)

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Evaluation aux USA (Parole) CSR (DARPA) read & found english, 89-97 LVCSR conversationnel, multilingue ATIS (DARPA) DARPA/NSF en 1998 (multilingue): –Extraction d entité nommées –Détection et suivit de thèmes –Transcription de nouvelles –COMMUNICATOR

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Evaluation aux USA ( maintenant) COMMUNICATOR dialogue oral pour la réservation de transport, lhébergement et planification d itinéraire TIDES extraction dinformation interlingue, traduction et résumé automatique

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Evaluation aux USA ( bientôt) AQUAINT (Defense Ministry) programme de l ARDA, extraction d'information étendue en amont et en aval sur des données multimodales, pour incorporer des connaissances à des données factuelles du types de celles manipulées dans les évaluations TREC ITR (NSF) recherche en technologie de l'information), dont le budget passe de 199 a 215 millions de dollars

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Evaluation aux USA ( bientôt) SYMPHONY (DARPA) suite de COMMUNICATOR et dont les objectifs sont : la reconnaissance de la parole robuste en milieu bruité, le compte rendu automatique de réunion, la fusion de données multimodales, l'interprète automatique, les interfaces homme-machine dialogiques, la traduction automatique (déjà présente dans le programme TIDES), et l'exploitation rapide et automatique de langues nouvelles (programme PUSH).

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Les directions de recherche favorisées par le DARPA: les technologies robustes à large couverture, les technologie de base largement réutilisables, la multilingualité, le partage des données ( LDC) les corpus arborés (U. Penn) les évaluation comparatives supportées par des métriques quantitatives, les expériences d'intégration et de faisabilité Lobjectif à plus long terme étant la compréhension du langage.

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Partie 3: Evaluation en Europe EAGLES TSNLP DIET TEMAA SQALE SPARKLE DISC MATE COCOSDA SAM & SAM-A Morpholympics Actions de recherche concerté de l AUPELF GRACE (CNRS) VerbMobil ELSE

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Evaluation en Europe CLEF: recherche dinformation interlingue (fin Sept. 01) SENSEVAL-2 : désambiguïsation sémantique (fin Juin 01) SMARTKOM: nouveau projet dévaluation allemand. CLASS: projet européen (NIS, DFKI, ITC-IRTS, LIMSI) 3 clusters thématiques & évaluation

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS CLASS Evaluation WEB subsite URL: http://www.limsi.fr/TLP/CLASShttp://www.limsi.fr/TLP/CLASS Available now: Proceedings of the LREC2000 satellite CLASS workshop on evaluation. EACL 2OO1, Toulouse, atelier (2 jours) Evaluation for Language & Dialog Systems Appel à contribution ouvert ! CLASS

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Partie 4: Les projets GRACE et MULTITAG du CNRS. http://www.limsi.fr/TLP/grace GRACE: campagne d évaluation de lannotation morpho-syntaxique du français MULTITAG: la production économique de ressources linguistiques de grande qualité à partir des résultats de GRACE. http://www.limsi.fr/TLP/grace

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS GRACE, évaluation d'étiquetage morpho-syntaxique pour le français, 21 participants, 5 pays: 3 phases: entraînements (10 millions de mots),essais (450.000), test (836.500) 17 participants aux essais, 13 participants aux tests finaux mesure précision/décision, sur 20.000 mots, puis 40.000 mots.étiquettes EAGLES et MULTEXT

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS 000000 Au DTC:sg 000001 cours SBC:sg 000002 de PREP 000000 Au Sp+Da-ms-d 000001 cours Ncfs|Ncms 000002 de Da----i|Da-fp-i|Da-mp-i|Sp Formatter (15 systèmes différents pour les tests) Projection des étiquettes dans le jeu GRACE 000000 Au Sp/1.3 6/14[0.428571] 1/4[0.25] 1/14[0.0714286] 000001 cours Ncms|Sp/2.3 6/15[0.4] 1/2[0.5] 3/15[0.2] 000002 de Sp 7/13[0.538462] 1/2[0.5] 4/13[0.307692] Combinaison Vote & Mesure de confiance P.Paroubek / Limsi-CNRS

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Meilleur (P, Dmax): score( P, D ): (0.948489, 1.000000) intervalle[Pmin, Pmoy, Pmax]: [0.948489, 0.948489, 0.948489 ] Meilleur P: score( P, D ): (0.978802, 0.256331) intervalle[Pmin, Pmoy, Pmax]: [0.251084, 0.404534, 0.952951 ] Vote 15 systèmes: score( P, D ): (0.936202, 0.961558) intervalle[Pmin, Pmoy, Pmax]: [0.903685, 0.917102, 0.933155 ] Vote 5 meilleurs P: score( P, D ): (0.966567, 0.928952) [Pmin, Pmoy, Pmax]: [0.902195, 0.925850, 0.961424 ] P.Paroubek / Limsi-CNRS

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS 000000 Au Sd{1}|Sd/1.3{2}|Sp{1}|Sp+D[ad]-ms-d{1}|Sp+Da-ms-d{5}|Sp/1.2{1}| Sp/1.3{6}|Sp/1.4+Sp/2.4{1} 000001 cours Ncfp{3}|Ncfs{1}|Ncmp{2}|Ncms{6}|Sd/2.3{2}|Sp/2.2{1}|Sp/2.3{6}| Sp/3.4{1}|Vmip1s-{2}|Vmip2s-{2}|Vmmp2s-{2} 000002 de Da----i{3}|Da-fp-i{2}|Da-mp-i{3}|Di-fp--{1}|Di-fs--{1}| Di-mp--{1}|Di-ms--{1}|Sd/3.3{2}|Sp{7}|Sp/3.3{6}|Sp/4.4{1} Apprentissage Automatique / Combiner plusieurs méthodes pour améliorer les résultats Ada Boost (Schwenk, 1999), cascade de sytèmes similaires pour la reconnaissance de parole. Plus loin dans le temps, stratégie du Winner Take All compétition en unités similaires de traitement (Simpson 1990)

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Combiner pour améliorer NIST, reconnaissance de la parole ROVER - Recognizer Output Voting Error Reduction (Fiscus 1997) Système composite, meilleur performance que le meilleur des systèmes. Graphe de mot (alignement), vote à majorité (pondéré par la fréquence maximale d'occurrence et un score de confiance). Réduction d'erreur mesurée par Fiscus: 5,6 % en absolu (et 12,5% en relatif). Principe de combinaison de systèmes utilisé par Marquez & Prado 1998 (combinaison de 2 étiqueteurs pour marquer un corpus) Tufis 1999 (plusieurs versions du même système entraîné sur des données différentes)

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Validation Phase 1: 38643 formes (4 % des 836500 formes) relues pour la catégorie et la sous-catégorie Phase 2: 64061 formes (8 % des 836500 formes) relues pour les indications de genre, nombre et personne Validation: sélection aléatoire de 511 formes, 53 formes identifiées comme douteuses (pas de décision de vote); 27 d'entres elles n'étaient pas correctement étiquetées (erreur de relecture, ou erreur ou ambiguïté résiduelle; traits autres que G, N, P), c.a.d. env. 50 % (+-13% avec risque 95%) Inversement sur 458 formes qui n'étaient pas à relire, seules 10 étaient mal étiquetées, ce qui représente un taux d'erreur résiduelle de 2,18% (+-1.34% avec risque 95%)

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS CONCLUSION de la Partie 4 La campagne GRACE et l'expérience MULTITAG ont prouvé que le paradigme d'évaluation peut servir à produire de manière économique des ressources linguistiques validées de qualité. La généralisation à d'autre tâches de contrôle permettrait d'augmenter rapidement la quantité de données annotées et validées tout en permettant de déployer le paradigme d'évaluation plus avant.

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Partie 5: NO FUTURE? Aller évaluer aux USA ? Ouvrir lEurope aux USA ? Une infrastructure européenne descendante (peu probable) Un institut européen dévaluation ? Une infrastructure européenne ascendante (initialisation par des campagnes bilatérales), plus probable mais a plus long terme.

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Programmes dévaluation pour le traitement de la langue écrite et de la parole Patrick Paroubek / Limsi-CNRS

Présentations similaires

Présentation au sujet: "30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Programmes dévaluation pour le traitement de la langue écrite et de la parole Patrick Paroubek / Limsi-CNRS"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Programmes dévaluation pour le traitement de la langue écrite et de la parole Patrick Paroubek / Limsi-CNRS

Présentations similaires

Présentation au sujet: "30 mars 01- A3CTEP.Paroubek / Limsi-CNRS Programmes dévaluation pour le traitement de la langue écrite et de la parole Patrick Paroubek / Limsi-CNRS"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back