CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière BP 92208 Nantes cedex 3, France chantal.enguehard@irin.univ-nantes.fr Corpus de Référence pour la Reconnaissance de Termes
Identification de termes Identifier des termes : rechercher de nouveaux termes, non connus a priori, dans un corpus Autres ressources termes Identification de termes corpus
Reconnaissance de termes Reconnaître des termes : chercher à reconnaître des termes, a priori connus, dans un corpus corpus Autres ressources Reconnaissance de termes termes avec reconnus
Deux logiciels de reconnaissance de termes FASTR Le formalisme des grammaires d’unification permet d’exprimer des contraintes, des meta-règles autorisent la manipulation des règles lexicales, (Jacquemin & Royauté 1995). Exemple : Metarègle Coor (X1 -> X2 X3) = X1 -> X2 C4 X5 X6 X3; <X1 metaLabel> = 'XX' La métarègle Coor décrit la coordination. Elle peut-être paraphrasée par (le symbole X indique une catégorie syntaxique) : chaque règle traitant une succession de deux mots (X2 et X3) produit une autre règle dans laquelle X2 et X3 sont coordonnés par C4 et les mots X5 et X6 sont insérés. Cette métarègle permet la reconnaissance de coronary artery dans l’extrait (...) coronary and middle cerebral arteries (...).
SYRETE Ce système est fondé sur WD, la distance minimale d'édition entre deux chaînes pondérée par la taille de ces chaînes. Distance minimale d’édition (notée dist) : nombre minimum d’insertions et de suppressions de symboles nécessaires pour transformer une chaîne en l’autre (Wagner 1974). Cette distance peut être pondérée par la somme des longueurs des deux chaînes. WD(x, y) = dist(x, y) / /(|x| + |y|) avec |x| = longueur de x WD varie de 0, quand les chaînes sont strictement égales, à 1 quand les chaînes n’ont aucun symbole en commun. Elle peut être facilement adaptée à la reconnaissance de termes simples ou complexes (Enguehard 2000). Consulter http://www.sciences.univ-nantes.fr/info/perso/permanents/enguehard/
Démarche CoRRecT But Construction d'un corpus de référence, dans lequel les termes donnés sont reconnus et signalés par des balises XML. Mise en oeuvre Intégration des résultats de systèmes de reconnaissance de termes après validation par des experts du domaine Difficultés Il est parfois difficile de déterminer si un candidat est ou n'est pas une variante d'un terme.
Système 1 de Reconnaissance de termes Termes Outil d'alignement Corpus V1 Système 1 de Reconnaissance de termes Termes Outil d'alignement Formulaires de validation Corpus indexé Formulaires validés Spécialiste Formulaires de validation Outil d'intégration Taux rapports Corpus V2 Corpus V1 Système 2 de Reconnaissance de termes Termes Outil d'alignement Formulaires de validation Corpus indexé Formulaires validés Spécialiste Formulaires de validation Outil d'intégration Corpus V2
Système 2 de Reconnaissance de termes Termes Outil d'alignement Taux rapports Corpus V0 Système 2 de Reconnaissance de termes Termes Outil d'alignement Formulaires de validation Corpus indexé Formulaires validés Spécialiste Formulaires de validation Outil d'intégration Corpus V3
Formulaire de validation
Référence extrait des textes composant la référence <notice id="1"> <variante refterme="5564" statut="Y" debut="ID12" fin="ID13"> <avis>aucune variation</avis> </variante> <texte>'Xi' is the dimensionless correlation length of the pair <ancre ID="12"/>correlation function<ancre ID="13"/>. </texte></notice> extrait des textes composant la référence <terme id="5564"> <vedette>Correlation function</vedette> <info>Fonction corrélation N NH</info> </terme> extrait des termes composant la référence
Mise en oeuvre Résultats Corpus : 1280 résumés d’articles scientifiques - chimie des métaux 6582 termes du domaine (5239 termes complexes et 1343 termes simples). Langue : anglais Résultats FASTR Rappel = 63% Précision = 89%
Conclusion Version 3 du corpus : 3866 variantes de termes évaluées. Méthodologie opérationnelle. Le corpus de référence constitue un ensemble de données de grande taille qui sont classées en deux groupes : les occurrences de variantes de termes, et celles qui n’en sont pas. Il peut constituer un ensemble d’entraînement pour des systèmes d’apprentissage fondés sur des exemples et des contrexemples. Des contributions d'autres systèmes de reconnaissance de termes sont nécessaires. Corpus bientôt disponible : http://www.sciences.univ-nantes.fr/info/perso/permanents/enguehard/