CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Eléments de Génie Logiciel
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Algorithmes et structures de données avancés
Olivier Kraif, Agnès Tutin LIDILEM
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
PROBLEMES OUVERTS QUESTIONS OUVERTES
Introduction aux outils de collecte de données de l'ISU et lignes directrices Atelier régional de renforcement des capacités nationales dans les domaines.
5. La physique appliquée en STS IPM
Domaines nominaux XSLT
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Apprendre à lire.
Le projet d’école Un Cadre législatif Une Lecture Une Démarche
Métadonnées pour les thèses numériques françaises
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Lycée Présentation MIRASCOLA 53, avenue de l’Esprit des Lois
Gestion des risques Contrôle Interne
FRE 2645 CIDED04 : 22 Juin 2004 Système de reconnaissance structurelle de symboles, basé sur une multi représentation en graphes de régions, et exploitant.
Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT
C ommission C ommunautaire des P rofessions et des Q ualifications Présentation : Francis OTTE : chargé de mission.
MOT Éditeur de modèles de connaissances par objets typés
Vers des composants TAL réutilisables
Modélisation du robot Azimut-3
Ressources web : évaluer leur validité et leur fiabilité... © Français et Informatique
Introduction à la recherche en science politique
CDP Introduction Définie comme «un savoir-agir fondé sur la mobilisation et l utilisation efficaces d un ensemble de ressources», la compétence dépasse.
BIO1530 Lab2 Littérature scientifique. Objectifs de lexercice Après avoir complété cet exercice, vous devriez être en mesure de: Déterminer si une publication.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Chapitre 3 Syntaxe et sémantique.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
1.
LORTHOGRAPHE. Les nouveaux programmes prévoient entre 2h 30 (horaire minimum) et 3h30 (horaire maximum) pour la grammaire, lorthographe, le vocabulaire.
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
Jacques Cartier, enseignant à l’Université de Franche-Comté Unité de Formation et de Recherche - Sciences du Langage, de l’Homme et de la Société Besançon.
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Implantation de Metalib : par où commencer? Les principales étapes de l’implantation à l’université de Montréal Marie-Josée Leboeuf 8 septembre 2006.
Diaporama réalisé par Damienne PIN, Documentaliste Collège Barbara Hendricks 226 Rue du Limousin Orange LE PROBLEME DE LA QUALITE DE L ’INFORMATION.
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
CONSTRUCTION D’UN REFERENTIEL
La plateforme ETHNOSIRIS Une plateforme web sémantique de social tagging multilingue, multi- dialecte et polygraphe dédiée à la préservation participative.
Université Autonome de l'État d'Hidalgo Faculté de sciences economique administratives Commerce Extérieur informatique apliqué au commerce exterieur L.I.
ISG – Université de Sousse
La recherche dans les bases de données DID-2040 FRANCE BILODEAU AUTOMNE, 2012 Bibliothèque de l’Université Laval.
Science et technologie pour le préscolaire / primaire
Publication Bulletin de sécurité hors cycle MS Révision Bulletin de sécurité MS
Du discours aux modèles… Une tentative d’articulation
Chantal Fontaine Textes et technologies FRN-1104 Université Laval
Module : Langage XML (21h)
STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004.
1 Apport des services Web dans l'amélioration de l’accès à l’information sur le Web. Christian Belbeze & Chantal Soulé-Dupuy Institut de Recherche en Informatique.
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
L’enregistrement d’un classeur 1. Activer le menu « Fichier », 2. Choisir la commande « Enregistrer sous… », 3. Dans la boite du dialogue qui s’affiche,
Le Traitement Automatique des Langues (TAL)
Classification automatique des messages électroniques
Évaluations nationales et maîtrise de la langue Continuité et perspective.
Sixième étape : pondérer les graphes. Longueur d’une chaîne d’un graphe quelconque = nombre des arêtes qui la constituent. Distance entre deux sommets.
France Bilodeau Bibliothécaire-conseil 19 octobre 2015 La recherche d’information en éducation.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Présentation du système
Démarche d’enseignement de l’APL : analyser
LE CHOIX DE LA FORMULE  Reprise du cours du 09 au 12 décembre (GR 1 à 5, même si redites) o Question : vitesse moyenne du cycliste A sur l’ensemble de.
Mme X…, chargée de veille Certifiée CERTIDOC (niveau manager) M. Y…, consultant en système de veille Certifié CERTIDOC (niveau expert) Organisme certificateur.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
SOCLE COMMUN Enseigner par compétences Cathia BATIOT.
Le nouveau manuel de FLE allons-y!
Transcription de la présentation:

CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière BP 92208 Nantes cedex 3, France chantal.enguehard@irin.univ-nantes.fr Corpus de Référence pour la Reconnaissance de Termes

Identification de termes Identifier des termes : rechercher de nouveaux termes, non connus a priori, dans un corpus Autres ressources termes Identification de termes corpus

Reconnaissance de termes Reconnaître des termes : chercher à reconnaître des termes, a priori connus, dans un corpus corpus Autres ressources Reconnaissance de termes termes avec reconnus

Deux logiciels de reconnaissance de termes FASTR Le formalisme des grammaires d’unification permet d’exprimer des contraintes, des meta-règles autorisent la manipulation des règles lexicales, (Jacquemin & Royauté 1995). Exemple : Metarègle Coor (X1 -> X2 X3) = X1 -> X2 C4 X5 X6 X3; <X1 metaLabel> = 'XX' La métarègle Coor décrit la coordination. Elle peut-être paraphrasée par (le symbole X indique une catégorie syntaxique) : chaque règle traitant une succession de deux mots (X2 et X3) produit une autre règle dans laquelle X2 et X3 sont coordonnés par C4 et les mots X5 et X6 sont insérés. Cette métarègle permet la reconnaissance de coronary artery dans l’extrait (...) coronary and middle cerebral arteries (...).

SYRETE Ce système est fondé sur WD, la distance minimale d'édition entre deux chaînes pondérée par la taille de ces chaînes. Distance minimale d’édition (notée dist) : nombre minimum d’insertions et de suppressions de symboles nécessaires pour transformer une chaîne en l’autre (Wagner 1974). Cette distance peut être pondérée par la somme des longueurs des deux chaînes. WD(x, y) = dist(x, y) / /(|x| + |y|) avec |x| = longueur de x WD varie de 0, quand les chaînes sont strictement égales, à 1 quand les chaînes n’ont aucun symbole en commun. Elle peut être facilement adaptée à la reconnaissance de termes simples ou complexes (Enguehard 2000). Consulter http://www.sciences.univ-nantes.fr/info/perso/permanents/enguehard/

Démarche CoRRecT But Construction d'un corpus de référence, dans lequel les termes donnés sont reconnus et signalés par des balises XML. Mise en oeuvre Intégration des résultats de systèmes de reconnaissance de termes après validation par des experts du domaine Difficultés Il est parfois difficile de déterminer si un candidat est ou n'est pas une variante d'un terme.

Système 1 de Reconnaissance de termes Termes Outil d'alignement Corpus V1 Système 1 de Reconnaissance de termes Termes Outil d'alignement Formulaires de validation Corpus indexé Formulaires validés Spécialiste Formulaires de validation Outil d'intégration Taux rapports Corpus V2 Corpus V1 Système 2 de Reconnaissance de termes Termes Outil d'alignement Formulaires de validation Corpus indexé Formulaires validés Spécialiste Formulaires de validation Outil d'intégration Corpus V2

Système 2 de Reconnaissance de termes Termes Outil d'alignement Taux rapports Corpus V0 Système 2 de Reconnaissance de termes Termes Outil d'alignement Formulaires de validation Corpus indexé Formulaires validés Spécialiste Formulaires de validation Outil d'intégration Corpus V3

Formulaire de validation

Référence extrait des textes composant la référence <notice id="1"> <variante refterme="5564" statut="Y" debut="ID12" fin="ID13"> <avis>aucune variation</avis> </variante> <texte>'Xi' is the dimensionless correlation length of the pair <ancre ID="12"/>correlation function<ancre ID="13"/>. </texte></notice> extrait des textes composant la référence <terme id="5564"> <vedette>Correlation function</vedette> <info>Fonction corrélation N NH</info> </terme> extrait des termes composant la référence

Mise en oeuvre Résultats Corpus : 1280 résumés d’articles scientifiques - chimie des métaux 6582 termes du domaine (5239 termes complexes et 1343 termes simples). Langue : anglais Résultats FASTR Rappel = 63% Précision = 89%

Conclusion Version 3 du corpus : 3866 variantes de termes évaluées. Méthodologie opérationnelle. Le corpus de référence constitue un ensemble de données de grande taille qui sont classées en deux groupes : les occurrences de variantes de termes, et celles qui n’en sont pas. Il peut constituer un ensemble d’entraînement pour des systèmes d’apprentissage fondés sur des exemples et des contrexemples. Des contributions d'autres systèmes de reconnaissance de termes sont nécessaires. Corpus bientôt disponible : http://www.sciences.univ-nantes.fr/info/perso/permanents/enguehard/