Télécharger la présentation
Publié parEmmanuel Debray Modifié depuis plus de 10 années
1
Amalia Todirascu todiras@unistra.fr
Chaînes de références Amalia Todirascu Amalia Todirascu
2
Plan Les chaînes de référence
systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu
3
Chaînes de réference une séquence de plusieurs expressions réferentielles et anaphores qui denomment la même entité expression réferentielle: nom propre, groupe nominal avec article défini, groupe nominal avec article demonstratif anaphore: pronom personnel, pronom possessif Amalia Todirascu
4
Exemple M.Barack Obama a tenu un discours devant le Congrès sur la reforme de l'assurance maladie. Le président des Etats Unis a souligné l'importance qu'il accorde à cette reforme. M.Barack Obama = antécédent de Le président ... La reforme = antécédent de cette reforme Amalia Todirascu
5
Expressions référentielles
introduisent des entités du discours exprimées par: des entités nommées Le président de la République française, l'ONU, M.Pons par des groupes nominaux définis ou indéfinis complets un chat noir, les experts de la Commission pour l'environnement Amalia Todirascu
6
Anaphores l'entité dont il réfère à été déjà introduite dans le discours (le président... il ...son) exprimée par le biais d'un élément antérieur plusieurs catégories (Kleiber, 1994) anaphore pronominale pronoms personnels (il, elle, lui, leur) pronoms reflexifs (s) possessifs (son) Amalia Todirascu
7
Anaphores (II) Anaphores nominales
fidèle : coréférence directe groupe nominal avec article demonstratif (Le président ...ce président) infidèle - différence lexicale hyperonymes/hyponymes (le chien...cet animal) synonymes (le changement...la modification) associative (L'eglise du village...ce clocher) plurielle (Jean et Marie ...Marie.... Jean ...ils) Amalia Todirascu
8
Anaphores (III) anaphore conceptuelle
antécédent = phrase anaphore = resumé de l'antécédent Les footballeurs français ont battu les brésiliens. Cette victoire les a faits champions du monde anaphore zéro : élement anaphorique elliptique Amalia Todirascu
9
Contexte et motivation
regrouper les expressions référentielles qui indiquent le même référent = identifier les chaînes de référence souvent deux élements : chaînes anaphoriques applications TAL extraction d'informations détection de thèmes resumé automatique systèmes de questions-réponses Amalia Todirascu
10
Contexte et motivation (II)
modèles linguistiques du discours théorie de l'accessibilité (Ariel, 1990, 1996) expressions réferentielles peu accessibles : entités nouvelles introduites dans le discours expressions accessibles : pronoms reflexifs, personnels théorie du centrage (Grosz et Sidner) notion du centre et des transitions contraintes syntaxiques pour les pronoms Amalia Todirascu
11
Contexte et motivation (III)
rôles des anaphores et de chaînes de référence dans le discours marqueurs de cohesion textuelle (Charolles, 1997) fonctionnement des chaînes (Schnedecker, 1997) thème et chaînes de référence (Cornish, 2005) Amalia Todirascu
12
Plan Les chaînes de référence
systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu
13
Systèmes automatiques (I)
systèmes à base de règles français(Hernandez, 2004), (Dupont, 2003) (Victorri 2005), (Popescu Belis, 1996), (Longo, Todirascu, 2010) anglais (Mitkov, 2003), (Bontcheva et al, 2004) vérification de plusieurs contraintes lexicales, syntaxiques, sémantiques pour trouver les affinités entre les possibles antécédents (entités nommées, groupes nominaux définis) dépendentes de langue Amalia Todirascu
14
Systèmes automatiques (II)
systèmes de classification systèmes supervisées (Ng et Cardie, 2002) (Yang et al, 2004) (Weisenbacher & Nazarenko, 2008) nécessitent des données d'apprentissage de grande taille (500,000 – 1,000,000 tokens) annotées au niveau de relations de coréférence et anaphorique données disponibles pour EN, DE, NL, ES, IT mais pas pour le français !!! propriétés: contraintes lexicales, syntaxiques, sémantiques la position dans la phrase, la distance entre les candidats type d'expressions réferentielles (déterminant, nom commun/nom propre etc.) Amalia Todirascu
15
Systèmes automatiques (III)
systèmes non-supervisés (Lang et al, 2009) (Ailloud, Klenner, 2009) (Bean et Riloff, 2004), BART (Versley et al, 2008) exploitation des informations morpho-syntaxiques la position ou la distance le type d'antécédent données : corpus étiquétés lemmatisés, eventuellement annotés syntaxiquement mais pas besoin d'avoir d'annotation des relations de coréférence Amalia Todirascu
16
Problèmes systèmes à base de règles systèmes de classification
nécessite beaucoup d'effort pour construire les ressources connaissances complexes : étiquetage, lemmatisation, analyse syntaxique, identification des entitées nommées systèmes de classification volume important de données données insuffisantes Amalia Todirascu
17
Plan Les chaînes de référence
systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu
18
RefGen Identification automatique de chaînes de référence pour le français RefGen (Longo et Todirascu, 2010) dépendent du genre textuel ordonner les candidats au premier maillon (théorie de l'accessibilité (Ariel, 1990)) trouver des pairs antécédent-anaphore utilisation des filtres (lexicales, syntaxiques, sémantiques) thèse de L.Longo (RBS) utilisée pour un système de détection automatique de thèmes Amalia Todirascu
19
Architecture RefGen Amalia Todirascu
20
Outils d'annotation TTL (Ion, 2007) CNP (Longo, Todirascu, 2010) EN
Étiquetage selon le jeu d'étiquettes MULTEXT (Ide & Veronis 2004) CNP (Longo, Todirascu, 2010) Groupes nominaux complexes EN Entités nommées (Personne, Organisation, Lieu) Fonction syntaxique Amalia Todirascu
21
TTL (Ion, 2007) étiquetage et lemmatization
jeu d'étiquettes MULTEXT disponible pour le français, le roumain, l'anglais service Web (integré dans la plateforme Weblicht (développé dans le cadre du projet CLARIN)) format de sortie: Text Corpus Format (TCF) ou XCES limité dans la taille du fichier Amalia Todirascu
22
Groupes nominaux complexes
groupes nominaux complexes (plus informatifs) groupes nominaux simples avec plusieurs modifieurs: groupes prépositionnels, relative utilise les annotations de TTL patrons disponibles pour le français Amalia Todirascu
23
Entités nommées catégories : personnes, organisations, lieux
patrons qui utilisent des preuves externes ou internes Amalia Todirascu
24
"Il" impersonnel plusieurs patrons proposés pour identifier les tournures impersonnelles (stage de Y.Lutz) verbes et adjectifs météorologiques (il pleut, il fait beau) adjectifs (il est nécessaire de...) verbes (il faut+Vinf, il s'agit de...) 77% de il impersonnels reconnus correctement Amalia Todirascu
25
Amalia Todirascu
26
algorithme d’identification des chaînes de référence
Calcul de la référence algorithme d’identification des chaînes de référence Amalia Todirascu
27
Sélection des 1ers maillons
A partir de l’échelle d’Accessibilité d’(Ariel, 1990) Attribution d’un poids à chaque ER (de 10 à 110) pour chaque critère (inf, rig, att) Expression Référentielle Informativité Rigidité Atténuation Accessibilité Globale Groupe nominal indéfini 110 10 230 Np complet avec modifieur 100 20 220 Np complet 90 30 210 Description définie longue 80 40 200 Description définie courte 70 50 190 Nom de famille 60 180 Prénom 170 Démonstratif 160 Pronom 150 Réfléchi 140 Possessif 120 À partir de l’échelle d’Accessibilité (Ariel, 1990) Les marqueurs référentiels sont classés sur une échelle d’accessibilité fondée sur 3 principes : Informativité : Ex : « Le ministre des affaires étrangères » est plus informatif que « le ministre » : il peut être le thème de la phrase Rigidité (univocité) : Ex : un nom propre complet est plus rigide qu’un pronom : on sait à qui il fait référence Atténuation (brièveté) : Ex : un pronom est plus bref qu’une description définie, c’est une reprise d’un élément déjà évoqué Amalia Todirascu
28
Sélection des autres maillons
On détermine les liens de coréférence entre les candidats d’accessibilité haute et ceux d’accessibilité basse Identification des paires antécédent-anaphore dans la distance moyenne spécifique au genre liste de contraintes à satisfaire = des filtres pour limiter les candidats Lexicaux Morphosyntaxiques Sémantiques De proximité Regroupement des anaphores ayant un référent commun pour former les chaînes de référence Amalia Todirascu
29
Contraintes (Gegg-Harrison & Byron, 2004) – Optimisation theory (Beaver, 2004) Paires antécédent-anaphore impossibles Pas d'imbrication possible [la soeur [de Marie]] Si les éléments sont les arguments du même verbe (La voiture qu'il a achété...) maximum de contraintes Lexicales Syntaxiques sémantiques Amalia Todirascu
30
Contraintes (II) Lexicale Syntaxiques Sémantique Reprise du même tête
Parallèlisme syntaxique Sémantique Synonymes hyponymes Amalia Todirascu
31
Exemple Amalia Todirascu
32
Exemple (II) Amalia Todirascu
33
Evaluation Amalia Todirascu
34
RefGen évaluation sur d'autres genres système modulaire, extensible
corpus de référence annoté manuellement (E.Vallette d'Osia) format SEMEVAL système modulaire, extensible ajout de contraintes sémantiques (ontologies) peu de connaissances extérieures utilisation pour une annotation automatique de corpus – apprentissage automatique Amalia Todirascu
35
Plan Les chaînes de référence
systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu
36
Quel outil pour la classification?
supervisée vs. semi-supervisée quelle taille de corpus? classification spécialisée en fonction de types d'antécédents Amalia Todirascu
37
Coréférence comme une tâche de classification
hypothèse: sur l'ensemble des paires antécédent-anaphore, appliquer un algorithme de classification même chaîne de référence = même classe chaque paire = caractérisée par plusieurs propriétés lexicales, syntaxiques, sémantiques Amalia Todirascu
38
Corpus disponibles - LiLPa
corpus étiquétés et lemmatisés catégorie lexicale informations morpho-syntaxiques lemme possibilité d'obtenir d'autres annotations corpus corrigés manuellement Journalistiques ( tokens) Textes de loi ( tokens) informatique ( tokens) Amalia Todirascu
39
Corpus disponibles (LiLPa)
<segments> <seg lang="fr"> <s id="ttlfr.1"> <w lemma="le" chunk="Np#1" ana="Da-fs" coref="1">La</w> <w lemma="décision" chunk="Np#1" ana="Ncfs" coref="1">décision</w> <w lemma="aller" chunk="Vp#1" ana="Vmip3s">va</w> <w lemma="t" ana="U">-t</w> <w lemma="il" ana="Pp3fs" coref="1">-elle</w> <w lemma="forcer" ana="Vmn">forcer</w> <w lemma="Google" chunk="Np#2" ana="Np" ner="NER#1, Org" coref="2">Google</w> <w lemma="à" chunk="Vp#2" ana="Spa">à</w> <w lemma="infléchir" chunk="Vp#2" ana="Vmn">infléchir</w> <w lemma="son" chunk="Np#3" ana="Ds3fp" coref="2">ses</w> <w lemma="pratique" chunk="Np#3" ana="Ncfp">pratiques</w> <c>?</c> </s> Amalia Todirascu
40
Annotations Catégorie lexicale + propriétés morpho-syntaxiques (attribut “ana”) Lemme (la forme infinitif du verbe, la forme masculin singulier)(attribut “lemma”) Chunks (groupes non-recursifs) (attribut “chunk”) Det Nom Adj Prep Det Nom Amalia Todirascu
41
Autres annotations Entités nommées, CNP Fonctions syntaxiques
Relations sémantiques Synonymie (French Wordnet) Hyponymie/Hyperonymie (French WordNet) Amalia Todirascu
42
Propriétés pour la classification
Type d'antécédent Informations morpho-syntaxiques Position dans la phrase Fonction syntaxique autres? Amalia Todirascu
43
Références Ailloud, E, Klenner, M (2009) Vers des contraintes plus linguistiques en résolution d de coréférences, TALN 2009 Cornish, (1998). Les “chaînes topicales” : leur rôle dans la gestion et la structuration du discours, Cahiers de Grammaire, 23 : Dupont M. (2003) Une approche cognitive du calcul de la référence, thèse de l’université de Caen, 308 p. Lang, J. Qin, B., Liu, T., Li, s. (2009) Unsupervised Coreference Resolution with HyperGraph Partitionning, Computer and Information Science, Vol 2, no 4. Longo, L, Todirascu, A (2010) RefGen – un module d'identification de chaînes de référence, TALN 2010 Amalia Todirascu
44
Références (II) Grosz B.J., Weinstein S., Joshi A.K. (1995), “Centering: a framework for modeling the local coherence of discourse”. Computational Linguistics 21(2), Ng V., Cardie C. (2002). Improving machine learning approaches to coreference resolution. Actes de ACL (Association For Computational Linguistics), Morristown, YANG X., SU J., ZHOU G. & TAN C. (2004). An NP- cluster based approach to coreference resolution. Proceedings of COLING'04 Amalia Todirascu
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.