La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Amalia Todirascu todiras@unistra.fr Chaînes de références Amalia Todirascu todiras@unistra.fr Amalia Todirascu.

Présentations similaires


Présentation au sujet: "Amalia Todirascu todiras@unistra.fr Chaînes de références Amalia Todirascu todiras@unistra.fr Amalia Todirascu."— Transcription de la présentation:

1 Amalia Todirascu todiras@unistra.fr
Chaînes de références Amalia Todirascu Amalia Todirascu

2 Plan Les chaînes de référence
systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

3 Chaînes de réference une séquence de plusieurs expressions réferentielles et anaphores qui denomment la même entité expression réferentielle: nom propre, groupe nominal avec article défini, groupe nominal avec article demonstratif anaphore: pronom personnel, pronom possessif Amalia Todirascu

4 Exemple M.Barack Obama a tenu un discours devant le Congrès sur la reforme de l'assurance maladie. Le président des Etats Unis a souligné l'importance qu'il accorde à cette reforme. M.Barack Obama = antécédent de Le président ... La reforme = antécédent de cette reforme Amalia Todirascu

5 Expressions référentielles
introduisent des entités du discours exprimées par: des entités nommées Le président de la République française, l'ONU, M.Pons par des groupes nominaux définis ou indéfinis complets un chat noir, les experts de la Commission pour l'environnement Amalia Todirascu

6 Anaphores l'entité dont il réfère à été déjà introduite dans le discours (le président... il ...son) exprimée par le biais d'un élément antérieur‏ plusieurs catégories (Kleiber, 1994) anaphore pronominale pronoms personnels (il, elle, lui, leur) pronoms reflexifs (s)‏ possessifs (son)‏ Amalia Todirascu

7 Anaphores (II)‏ Anaphores nominales
fidèle : coréférence directe groupe nominal avec article demonstratif (Le président ...ce président) infidèle - différence lexicale hyperonymes/hyponymes (le chien...cet animal) synonymes (le changement...la modification)‏ associative (L'eglise du village...ce clocher)‏ plurielle (Jean et Marie ...Marie.... Jean ...ils) Amalia Todirascu

8 Anaphores (III) anaphore conceptuelle
antécédent = phrase anaphore = resumé de l'antécédent Les footballeurs français ont battu les brésiliens. Cette victoire les a faits champions du monde anaphore zéro : élement anaphorique elliptique Amalia Todirascu

9 Contexte et motivation
regrouper les expressions référentielles qui indiquent le même référent = identifier les chaînes de référence souvent deux élements : chaînes anaphoriques applications TAL extraction d'informations détection de thèmes resumé automatique systèmes de questions-réponses Amalia Todirascu

10 Contexte et motivation (II)
modèles linguistiques du discours théorie de l'accessibilité (Ariel, 1990, 1996) expressions réferentielles peu accessibles : entités nouvelles introduites dans le discours expressions accessibles : pronoms reflexifs, personnels théorie du centrage (Grosz et Sidner) notion du centre et des transitions contraintes syntaxiques pour les pronoms Amalia Todirascu

11 Contexte et motivation (III)
rôles des anaphores et de chaînes de référence dans le discours marqueurs de cohesion textuelle (Charolles, 1997) fonctionnement des chaînes (Schnedecker, 1997) thème et chaînes de référence (Cornish, 2005) Amalia Todirascu

12 Plan Les chaînes de référence
systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

13 Systèmes automatiques (I)‏
systèmes à base de règles français(Hernandez, 2004), (Dupont, 2003) (Victorri 2005), (Popescu Belis, 1996), (Longo, Todirascu, 2010) anglais (Mitkov, 2003), (Bontcheva et al, 2004)‏ vérification de plusieurs contraintes lexicales, syntaxiques, sémantiques pour trouver les affinités entre les possibles antécédents (entités nommées, groupes nominaux définis)‏ dépendentes de langue Amalia Todirascu

14 Systèmes automatiques (II)‏
systèmes de classification systèmes supervisées (Ng et Cardie, 2002) (Yang et al, 2004)‏ (Weisenbacher & Nazarenko, 2008) nécessitent des données d'apprentissage de grande taille (500,000 – 1,000,000 tokens) annotées au niveau de relations de coréférence et anaphorique données disponibles pour EN, DE, NL, ES, IT mais pas pour le français !!! propriétés: contraintes lexicales, syntaxiques, sémantiques la position dans la phrase, la distance entre les candidats type d'expressions réferentielles (déterminant, nom commun/nom propre etc.) Amalia Todirascu

15 Systèmes automatiques (III)‏
systèmes non-supervisés (Lang et al, 2009) (Ailloud, Klenner, 2009) (Bean et Riloff, 2004)‏, BART (Versley et al, 2008) exploitation des informations morpho-syntaxiques la position ou la distance le type d'antécédent données : corpus étiquétés lemmatisés, eventuellement annotés syntaxiquement mais pas besoin d'avoir d'annotation des relations de coréférence Amalia Todirascu

16 Problèmes systèmes à base de règles systèmes de classification
nécessite beaucoup d'effort pour construire les ressources connaissances complexes : étiquetage, lemmatisation, analyse syntaxique, identification des entitées nommées systèmes de classification volume important de données données insuffisantes Amalia Todirascu

17 Plan Les chaînes de référence
systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

18 RefGen Identification automatique de chaînes de référence pour le français RefGen (Longo et Todirascu, 2010) dépendent du genre textuel ordonner les candidats au premier maillon (théorie de l'accessibilité (Ariel, 1990)) trouver des pairs antécédent-anaphore utilisation des filtres (lexicales, syntaxiques, sémantiques) thèse de L.Longo (RBS) utilisée pour un système de détection automatique de thèmes Amalia Todirascu

19 Architecture RefGen Amalia Todirascu

20 Outils d'annotation TTL (Ion, 2007)‏ CNP (Longo, Todirascu, 2010)‏ EN
Étiquetage selon le jeu d'étiquettes MULTEXT (Ide & Veronis 2004)‏ CNP (Longo, Todirascu, 2010)‏ Groupes nominaux complexes EN Entités nommées (Personne, Organisation, Lieu)‏ Fonction syntaxique Amalia Todirascu

21 TTL (Ion, 2007) étiquetage et lemmatization
jeu d'étiquettes MULTEXT disponible pour le français, le roumain, l'anglais service Web (integré dans la plateforme Weblicht (développé dans le cadre du projet CLARIN)) format de sortie: Text Corpus Format (TCF) ou XCES limité dans la taille du fichier Amalia Todirascu

22 Groupes nominaux complexes
groupes nominaux complexes (plus informatifs) groupes nominaux simples avec plusieurs modifieurs: groupes prépositionnels, relative utilise les annotations de TTL patrons disponibles pour le français Amalia Todirascu

23 Entités nommées catégories : personnes, organisations, lieux
patrons qui utilisent des preuves externes ou internes Amalia Todirascu

24 "Il" impersonnel plusieurs patrons proposés pour identifier les tournures impersonnelles (stage de Y.Lutz) verbes et adjectifs météorologiques (il pleut, il fait beau) adjectifs (il est nécessaire de...) verbes (il faut+Vinf, il s'agit de...) 77% de il impersonnels reconnus correctement Amalia Todirascu

25 Amalia Todirascu

26 algorithme d’identification des chaînes de référence
Calcul de la référence algorithme d’identification des chaînes de référence Amalia Todirascu

27 Sélection des 1ers maillons
A partir de l’échelle d’Accessibilité d’(Ariel, 1990) Attribution d’un poids à chaque ER (de 10 à 110) pour chaque critère (inf, rig, att) Expression Référentielle Informativité Rigidité Atténuation Accessibilité Globale Groupe nominal indéfini 110 10 230 Np complet avec modifieur 100 20 220 Np complet 90 30 210 Description définie longue 80 40 200 Description définie courte 70 50 190 Nom de famille 60 180 Prénom 170 Démonstratif 160 Pronom 150 Réfléchi 140 Possessif 120 À partir de l’échelle d’Accessibilité (Ariel, 1990) Les marqueurs référentiels sont classés sur une échelle d’accessibilité fondée sur 3 principes : Informativité : Ex : « Le ministre des affaires étrangères » est plus informatif que « le ministre » : il peut être le thème de la phrase Rigidité (univocité) : Ex : un nom propre complet est plus rigide qu’un pronom : on sait à qui il fait référence Atténuation (brièveté) : Ex : un pronom est plus bref qu’une description définie, c’est une reprise d’un élément déjà évoqué Amalia Todirascu

28 Sélection des autres maillons
On détermine les liens de coréférence entre les candidats d’accessibilité haute et ceux d’accessibilité basse Identification des paires antécédent-anaphore dans la distance moyenne spécifique au genre liste de contraintes à satisfaire = des filtres pour limiter les candidats Lexicaux Morphosyntaxiques Sémantiques De proximité Regroupement des anaphores ayant un référent commun pour former les chaînes de référence Amalia Todirascu

29 Contraintes (Gegg-Harrison & Byron, 2004) – Optimisation theory (Beaver, 2004) Paires antécédent-anaphore impossibles Pas d'imbrication possible [la soeur [de Marie]] Si les éléments sont les arguments du même verbe (La voiture qu'il a achété...)‏ maximum de contraintes Lexicales Syntaxiques sémantiques Amalia Todirascu

30 Contraintes (II)‏ Lexicale Syntaxiques Sémantique Reprise du même tête
Parallèlisme syntaxique Sémantique Synonymes hyponymes Amalia Todirascu

31 Exemple Amalia Todirascu

32 Exemple (II) Amalia Todirascu

33 Evaluation Amalia Todirascu

34 RefGen évaluation sur d'autres genres système modulaire, extensible
corpus de référence annoté manuellement (E.Vallette d'Osia) format SEMEVAL système modulaire, extensible ajout de contraintes sémantiques (ontologies) peu de connaissances extérieures utilisation pour une annotation automatique de corpus – apprentissage automatique Amalia Todirascu

35 Plan Les chaînes de référence
systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

36 Quel outil pour la classification?
supervisée vs. semi-supervisée quelle taille de corpus? classification spécialisée en fonction de types d'antécédents Amalia Todirascu

37 Coréférence comme une tâche de classification
hypothèse: sur l'ensemble des paires antécédent-anaphore, appliquer un algorithme de classification même chaîne de référence = même classe chaque paire = caractérisée par plusieurs propriétés lexicales, syntaxiques, sémantiques Amalia Todirascu

38 Corpus disponibles - LiLPa
corpus étiquétés et lemmatisés catégorie lexicale informations morpho-syntaxiques lemme possibilité d'obtenir d'autres annotations corpus corrigés manuellement Journalistiques ( tokens)‏ Textes de loi ( tokens)‏ informatique ( tokens)‏ Amalia Todirascu

39 Corpus disponibles (LiLPa)‏
<segments> <seg lang="fr"> <s id="ttlfr.1"> <w lemma="le" chunk="Np#1" ana="Da-fs" coref="1">La</w> <w lemma="décision" chunk="Np#1" ana="Ncfs" coref="1">décision</w> <w lemma="aller" chunk="Vp#1" ana="Vmip3s">va</w> <w lemma="t" ana="U">-t</w> <w lemma="il" ana="Pp3fs" coref="1">-elle</w> <w lemma="forcer" ana="Vmn">forcer</w> <w lemma="Google" chunk="Np#2" ana="Np" ner="NER#1, Org" coref="2">Google</w> <w lemma="à" chunk="Vp#2" ana="Spa">à</w> <w lemma="infléchir" chunk="Vp#2" ana="Vmn">infléchir</w> <w lemma="son" chunk="Np#3" ana="Ds3fp" coref="2">ses</w> <w lemma="pratique" chunk="Np#3" ana="Ncfp">pratiques</w> <c>?</c> </s> Amalia Todirascu

40 Annotations Catégorie lexicale + propriétés morpho-syntaxiques (attribut “ana”)‏ Lemme (la forme infinitif du verbe, la forme masculin singulier)(attribut “lemma”)‏ Chunks (groupes non-recursifs) (attribut “chunk”)‏ Det Nom Adj Prep Det Nom Amalia Todirascu

41 Autres annotations Entités nommées, CNP Fonctions syntaxiques
Relations sémantiques Synonymie (French Wordnet)‏ Hyponymie/Hyperonymie (French WordNet)‏ Amalia Todirascu

42 Propriétés pour la classification
Type d'antécédent Informations morpho-syntaxiques Position dans la phrase Fonction syntaxique autres? Amalia Todirascu

43 Références Ailloud, E, Klenner, M (2009) Vers des contraintes plus linguistiques en résolution d de coréférences, TALN 2009 Cornish, (1998). Les “chaînes topicales” : leur rôle dans la gestion et la structuration du discours, Cahiers de Grammaire, 23 : Dupont M. (2003) Une approche cognitive du calcul de la référence, thèse de l’université de Caen, 308 p. Lang, J. Qin, B., Liu, T., Li, s. (2009) Unsupervised Coreference Resolution with HyperGraph Partitionning, Computer and Information Science, Vol 2, no 4. Longo, L, Todirascu, A (2010) RefGen – un module d'identification de chaînes de référence, TALN 2010 Amalia Todirascu

44 Références (II) Grosz B.J., Weinstein S., Joshi A.K. (1995), “Centering: a framework for modeling the local coherence of discourse”. Computational Linguistics 21(2), Ng V., Cardie C. (2002). Improving machine learning approaches to coreference resolution. Actes de ACL (Association For Computational Linguistics), Morristown, YANG X., SU J., ZHOU G. & TAN C. (2004). An NP- cluster based approach to coreference resolution. Proceedings of COLING'04 Amalia Todirascu


Télécharger ppt "Amalia Todirascu todiras@unistra.fr Chaînes de références Amalia Todirascu todiras@unistra.fr Amalia Todirascu."

Présentations similaires


Annonces Google