Amalia Todirascu todiras@unistra.fr Chaînes de références Amalia Todirascu todiras@unistra.fr Amalia Todirascu.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Apprentissage spectral
Ressources électroniques pour l’analyse syntaxique
DTD Sylvain Salvati
Olivier Kraif, Agnès Tutin LIDILEM
Urbanisation de Systèmes d'Information
1 DISIC Option Systèmes Intelligents / Données, Documents et Connaissances DISIC Option Systèmes Intelligents / Données, Documents et Connaissances.
Analyse et structuration thématiques
13/11/2008Conférence des directeurs des affaires financières de la FHF / Ile-de-France Congrès dautomne de la FHF / Ile-de-France Vers une évolution du.
L'étiquetage morpho-syntaxique d'un corpus oral Claudia-Mariana Ionescu Ripoll.
1 Premier bilan de l utilisation de LinguaStream pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
L’observation réfléchie de la langue au cycle 3
Pour un système formel de description linguistique
LES REGLES DE BASE DE L’ORTHOGRAPHE
La base textuelle FRANTEXT
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Introduction à la conception de Bases de Données Relationnelles
Le français dans tous les sens
Building an Electronic Dictionary of Computer Science Terminology
Méthode des k plus proches voisins
4 - Les automates et les lexiques morphologiques : le contenu mot fléchilemmepartie du discourstraits de flexion Habituellement, un lexique morphologique.
Représentation des connaissances Cours 5. Référence Référence Contraintes sur les expressions coréférentes Préférences entre référents possibles Algorithmes.
Project de la langue française
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Nature ou fonction d’un mot
MOT Éditeur de modèles de connaissances par objets typés
Vers des composants TAL réutilisables
Reconnaissance Vocale
Cours 11 Référence Contraintes sur les expressions coréférentes Préférences entre référents possibles Algorithmes de résolution des références.
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Quel(s) contexte(s) pour interpréter la référence aux objets dans le dialogue homme-machine ? Susanne Salmon-Alt LORIA Journée détude ATALA « Référence.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
CloudView Architecture
Forum des Industries de la Langue, 17 mars 2010
Chapitre 2 La description du langage
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Patrons de conceptions de créations
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
Kampala, Uganda, June 2014 Documents d’Edition et de Révision Hiroshi Ota and Vijay Mauree ITU/TSB Forum de normalisation pour l'Afrique (Kampala,
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
Ontologies et description du contenu de documents AV : Une expérimentation dans le domaine médical Mardi 31 mai 2005 Raphaël Troncy 1 & Antoine Isaac 2.
Supports de formation au SQ Unifié
Apprentissage (III) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.
Vers une analyse syntaxique à granularité variable Tristan Van rullen
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Les classes grammaticales
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR.
Initiation à la conception des systèmes d'informations
Programmation annuelle: Etude de la langue
Sylwia Ozdowska1, Vincent Claveau2
Dominique LAURENT Patrick SEGUELA
Modélisation des documents: DTD et Schéma
Découverte de connaissances
( ) Collège de Maisonneuve
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Le Traitement Automatique des Langues (TAL)
Approche de tutorat par niveaux Préparation aux rédactions littéraires Julie Beauchemin en collaboration avec Dominique Lemay.
Les différentes sortes.
Verbe Mot qui exprime / indique une action ou l’état d’une chose ou d’une personne. Action : manger, rire, voir État : être, sembler, paraitre.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Conférences (CR) PACLING'03 Pacific Association for Computational LINGuistics 22 au 25 août 2003 Halifax, côte Est Canada RANLP Recent Advances in Natural.
Algorithmes parallèles
Le syntagme prépositionnel
Transcription de la présentation:

Amalia Todirascu todiras@unistra.fr Chaînes de références Amalia Todirascu todiras@unistra.fr Amalia Todirascu

Plan Les chaînes de référence systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

Chaînes de réference une séquence de plusieurs expressions réferentielles et anaphores qui denomment la même entité expression réferentielle: nom propre, groupe nominal avec article défini, groupe nominal avec article demonstratif anaphore: pronom personnel, pronom possessif Amalia Todirascu

Exemple M.Barack Obama a tenu un discours devant le Congrès sur la reforme de l'assurance maladie. Le président des Etats Unis a souligné l'importance qu'il accorde à cette reforme. M.Barack Obama = antécédent de Le président ... La reforme = antécédent de cette reforme Amalia Todirascu

Expressions référentielles introduisent des entités du discours exprimées par: des entités nommées Le président de la République française, l'ONU, M.Pons par des groupes nominaux définis ou indéfinis complets un chat noir, les experts de la Commission pour l'environnement Amalia Todirascu

Anaphores l'entité dont il réfère à été déjà introduite dans le discours (le président... il ...son) exprimée par le biais d'un élément antérieur‏ plusieurs catégories (Kleiber, 1994) anaphore pronominale pronoms personnels (il, elle, lui, leur) pronoms reflexifs (s)‏ possessifs (son)‏ Amalia Todirascu

Anaphores (II)‏ Anaphores nominales fidèle : coréférence directe groupe nominal avec article demonstratif (Le président ...ce président) infidèle - différence lexicale hyperonymes/hyponymes (le chien...cet animal) synonymes (le changement...la modification)‏ associative (L'eglise du village...ce clocher)‏ plurielle (Jean et Marie ...Marie.... Jean ...ils) Amalia Todirascu

Anaphores (III) anaphore conceptuelle antécédent = phrase anaphore = resumé de l'antécédent Les footballeurs français ont battu les brésiliens. Cette victoire les a faits champions du monde anaphore zéro : élement anaphorique elliptique Amalia Todirascu

Contexte et motivation regrouper les expressions référentielles qui indiquent le même référent = identifier les chaînes de référence souvent deux élements : chaînes anaphoriques applications TAL extraction d'informations détection de thèmes resumé automatique systèmes de questions-réponses Amalia Todirascu

Contexte et motivation (II) modèles linguistiques du discours théorie de l'accessibilité (Ariel, 1990, 1996) expressions réferentielles peu accessibles : entités nouvelles introduites dans le discours expressions accessibles : pronoms reflexifs, personnels théorie du centrage (Grosz et Sidner) notion du centre et des transitions contraintes syntaxiques pour les pronoms Amalia Todirascu

Contexte et motivation (III) rôles des anaphores et de chaînes de référence dans le discours marqueurs de cohesion textuelle (Charolles, 1997) fonctionnement des chaînes (Schnedecker, 1997) thème et chaînes de référence (Cornish, 2005) Amalia Todirascu

Plan Les chaînes de référence systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

Systèmes automatiques (I)‏ systèmes à base de règles français(Hernandez, 2004), (Dupont, 2003) (Victorri 2005), (Popescu Belis, 1996), (Longo, Todirascu, 2010) anglais (Mitkov, 2003), (Bontcheva et al, 2004)‏ vérification de plusieurs contraintes lexicales, syntaxiques, sémantiques pour trouver les affinités entre les possibles antécédents (entités nommées, groupes nominaux définis)‏ dépendentes de langue Amalia Todirascu

Systèmes automatiques (II)‏ systèmes de classification systèmes supervisées (Ng et Cardie, 2002) (Yang et al, 2004)‏ (Weisenbacher & Nazarenko, 2008) nécessitent des données d'apprentissage de grande taille (500,000 – 1,000,000 tokens) annotées au niveau de relations de coréférence et anaphorique données disponibles pour EN, DE, NL, ES, IT mais pas pour le français !!! propriétés: contraintes lexicales, syntaxiques, sémantiques la position dans la phrase, la distance entre les candidats type d'expressions réferentielles (déterminant, nom commun/nom propre etc.) Amalia Todirascu

Systèmes automatiques (III)‏ systèmes non-supervisés (Lang et al, 2009) (Ailloud, Klenner, 2009) (Bean et Riloff, 2004)‏, BART (Versley et al, 2008) exploitation des informations morpho-syntaxiques la position ou la distance le type d'antécédent données : corpus étiquétés lemmatisés, eventuellement annotés syntaxiquement mais pas besoin d'avoir d'annotation des relations de coréférence Amalia Todirascu

Problèmes systèmes à base de règles systèmes de classification nécessite beaucoup d'effort pour construire les ressources connaissances complexes : étiquetage, lemmatisation, analyse syntaxique, identification des entitées nommées systèmes de classification volume important de données données insuffisantes Amalia Todirascu

Plan Les chaînes de référence systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

RefGen Identification automatique de chaînes de référence pour le français RefGen (Longo et Todirascu, 2010) dépendent du genre textuel ordonner les candidats au premier maillon (théorie de l'accessibilité (Ariel, 1990)) trouver des pairs antécédent-anaphore utilisation des filtres (lexicales, syntaxiques, sémantiques) thèse de L.Longo (RBS) utilisée pour un système de détection automatique de thèmes Amalia Todirascu

Architecture RefGen Amalia Todirascu

Outils d'annotation TTL (Ion, 2007)‏ CNP (Longo, Todirascu, 2010)‏ EN Étiquetage selon le jeu d'étiquettes MULTEXT (Ide & Veronis 2004)‏ CNP (Longo, Todirascu, 2010)‏ Groupes nominaux complexes EN Entités nommées (Personne, Organisation, Lieu)‏ Fonction syntaxique Amalia Todirascu

TTL (Ion, 2007) étiquetage et lemmatization jeu d'étiquettes MULTEXT disponible pour le français, le roumain, l'anglais service Web (integré dans la plateforme Weblicht (développé dans le cadre du projet CLARIN)) format de sortie: Text Corpus Format (TCF) ou XCES limité dans la taille du fichier Amalia Todirascu

Groupes nominaux complexes groupes nominaux complexes (plus informatifs) groupes nominaux simples avec plusieurs modifieurs: groupes prépositionnels, relative utilise les annotations de TTL patrons disponibles pour le français Amalia Todirascu

Entités nommées catégories : personnes, organisations, lieux patrons qui utilisent des preuves externes ou internes Amalia Todirascu

"Il" impersonnel plusieurs patrons proposés pour identifier les tournures impersonnelles (stage de Y.Lutz) verbes et adjectifs météorologiques (il pleut, il fait beau) adjectifs (il est nécessaire de...) verbes (il faut+Vinf, il s'agit de...) 77% de il impersonnels reconnus correctement Amalia Todirascu

Amalia Todirascu

algorithme d’identification des chaînes de référence Calcul de la référence algorithme d’identification des chaînes de référence Amalia Todirascu

Sélection des 1ers maillons A partir de l’échelle d’Accessibilité d’(Ariel, 1990) Attribution d’un poids à chaque ER (de 10 à 110) pour chaque critère (inf, rig, att) Expression Référentielle Informativité Rigidité Atténuation Accessibilité Globale Groupe nominal indéfini 110 10 230 Np complet avec modifieur 100 20 220 Np complet 90 30 210 Description définie longue 80 40 200 Description définie courte 70 50 190 Nom de famille 60 180 Prénom 170 Démonstratif 160 Pronom 150 Réfléchi 140 Possessif 120 À partir de l’échelle d’Accessibilité (Ariel, 1990) Les marqueurs référentiels sont classés sur une échelle d’accessibilité fondée sur 3 principes : Informativité : Ex : « Le ministre des affaires étrangères » est plus informatif que « le ministre » : il peut être le thème de la phrase Rigidité (univocité) : Ex : un nom propre complet est plus rigide qu’un pronom : on sait à qui il fait référence Atténuation (brièveté) : Ex : un pronom est plus bref qu’une description définie, c’est une reprise d’un élément déjà évoqué Amalia Todirascu

Sélection des autres maillons On détermine les liens de coréférence entre les candidats d’accessibilité haute et ceux d’accessibilité basse Identification des paires antécédent-anaphore dans la distance moyenne spécifique au genre liste de contraintes à satisfaire = des filtres pour limiter les candidats Lexicaux Morphosyntaxiques Sémantiques De proximité Regroupement des anaphores ayant un référent commun pour former les chaînes de référence Amalia Todirascu

Contraintes (Gegg-Harrison & Byron, 2004) – Optimisation theory (Beaver, 2004) Paires antécédent-anaphore impossibles Pas d'imbrication possible [la soeur [de Marie]] Si les éléments sont les arguments du même verbe (La voiture qu'il a achété...)‏ maximum de contraintes Lexicales Syntaxiques sémantiques Amalia Todirascu

Contraintes (II)‏ Lexicale Syntaxiques Sémantique Reprise du même tête Parallèlisme syntaxique Sémantique Synonymes hyponymes Amalia Todirascu

Exemple Amalia Todirascu

Exemple (II) Amalia Todirascu

Evaluation Amalia Todirascu

RefGen évaluation sur d'autres genres système modulaire, extensible corpus de référence annoté manuellement (E.Vallette d'Osia) format SEMEVAL système modulaire, extensible ajout de contraintes sémantiques (ontologies) peu de connaissances extérieures utilisation pour une annotation automatique de corpus – apprentissage automatique Amalia Todirascu

Plan Les chaînes de référence systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

Quel outil pour la classification? supervisée vs. semi-supervisée quelle taille de corpus? classification spécialisée en fonction de types d'antécédents Amalia Todirascu

Coréférence comme une tâche de classification hypothèse: sur l'ensemble des paires antécédent-anaphore, appliquer un algorithme de classification même chaîne de référence = même classe chaque paire = caractérisée par plusieurs propriétés lexicales, syntaxiques, sémantiques Amalia Todirascu

Corpus disponibles - LiLPa corpus étiquétés et lemmatisés catégorie lexicale informations morpho-syntaxiques lemme possibilité d'obtenir d'autres annotations corpus corrigés manuellement Journalistiques (500 000 tokens)‏ Textes de loi (500 000 tokens)‏ informatique (500 000 tokens)‏ Amalia Todirascu

Corpus disponibles (LiLPa)‏ <segments> <seg lang="fr"> <s id="ttlfr.1"> <w lemma="le" chunk="Np#1" ana="Da-fs" coref="1">La</w> <w lemma="décision" chunk="Np#1" ana="Ncfs" coref="1">décision</w> <w lemma="aller" chunk="Vp#1" ana="Vmip3s">va</w> <w lemma="t" ana="U">-t</w> <w lemma="il" ana="Pp3fs" coref="1">-elle</w> <w lemma="forcer" ana="Vmn">forcer</w> <w lemma="Google" chunk="Np#2" ana="Np" ner="NER#1, Org" coref="2">Google</w> <w lemma="à" chunk="Vp#2" ana="Spa">à</w> <w lemma="infléchir" chunk="Vp#2" ana="Vmn">infléchir</w> <w lemma="son" chunk="Np#3" ana="Ds3fp" coref="2">ses</w> <w lemma="pratique" chunk="Np#3" ana="Ncfp">pratiques</w> <c>?</c> </s> Amalia Todirascu

Annotations Catégorie lexicale + propriétés morpho-syntaxiques (attribut “ana”)‏ Lemme (la forme infinitif du verbe, la forme masculin singulier)(attribut “lemma”)‏ Chunks (groupes non-recursifs) (attribut “chunk”)‏ Det Nom Adj Prep Det Nom Amalia Todirascu

Autres annotations Entités nommées, CNP Fonctions syntaxiques Relations sémantiques Synonymie (French Wordnet)‏ Hyponymie/Hyperonymie (French WordNet)‏ Amalia Todirascu

Propriétés pour la classification Type d'antécédent Informations morpho-syntaxiques Position dans la phrase Fonction syntaxique autres? Amalia Todirascu

Références Ailloud, E, Klenner, M (2009) Vers des contraintes plus linguistiques en résolution d de coréférences, TALN 2009 Cornish, (1998). Les “chaînes topicales” : leur rôle dans la gestion et la structuration du discours, Cahiers de Grammaire, 23 : 19-40. Dupont M. (2003) Une approche cognitive du calcul de la référence, thèse de l’université de Caen, 308 p. Lang, J. Qin, B., Liu, T., Li, s. (2009) Unsupervised Coreference Resolution with HyperGraph Partitionning, Computer and Information Science, Vol 2, no 4. Longo, L, Todirascu, A (2010) RefGen – un module d'identification de chaînes de référence, TALN 2010 Amalia Todirascu

Références (II) Grosz B.J., Weinstein S., Joshi A.K. (1995), “Centering: a framework for modeling the local coherence of discourse”. Computational Linguistics 21(2), 203-225. Ng V., Cardie C. (2002). Improving machine learning approaches to coreference resolution. Actes de ACL (Association For Computational Linguistics), Morristown, 104-111. YANG X., SU J., ZHOU G. & TAN C. (2004). An NP- cluster based approach to coreference resolution. Proceedings of COLING'04 Amalia Todirascu