La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Amalia Todirascu1 Chaînes de références Amalia Todirascu

Présentations similaires


Présentation au sujet: "Amalia Todirascu1 Chaînes de références Amalia Todirascu"— Transcription de la présentation:

1 Amalia Todirascu1 Chaînes de références Amalia Todirascu

2 Amalia Todirascu2 Plan Les chaînes de référence systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence

3 Amalia Todirascu3 Chaînes de réference une séquence de plusieurs expressions réferentielles et anaphores qui denomment la même entité expression réferentielle: nom propre, groupe nominal avec article défini, groupe nominal avec article demonstratif anaphore: pronom personnel, pronom possessif

4 Amalia Todirascu4 Exemple M.Barack Obama a tenu un discours devant le Congrès sur la reforme de l'assurance maladie. Le président des Etats Unis a souligné l'importance qu'il accorde à cette reforme. M.Barack Obama = antécédent de Le président... La reforme = antécédent de cette reforme

5 Amalia Todirascu5 Expressions référentielles introduisent des entités du discours exprimées par: des entités nommées Le président de la République française, l'ONU, M.Pons par des groupes nominaux définis ou indéfinis complets un chat noir, les experts de la Commission pour l'environnement

6 Amalia Todirascu6 Anaphores l'entité dont il réfère à été déjà introduite dans le discours (le président... il...son) exprimée par le biais d'un élément antérieur plusieurs catégories (Kleiber, 1994) anaphore pronominale pronoms personnels (il, elle, lui, leur) pronoms reflexifs (s) possessifs (son)

7 Amalia Todirascu7 Anaphores (II) Anaphores nominales fidèle : coréférence directe groupe nominal avec article demonstratif (Le président...ce président) infidèle - différence lexicale hyperonymes/hyponymes (le chien...cet animal) synonymes (le changement...la modification) associative (L'eglise du village...ce clocher) plurielle (Jean et Marie...Marie.... Jean...ils)

8 Amalia Todirascu8 Anaphores (III) anaphore conceptuelle antécédent = phrase anaphore = resumé de l'antécédent Les footballeurs français ont battu les brésiliens. Cette victoire les a faits champions du monde anaphore zéro : élement anaphorique elliptique

9 Amalia Todirascu9 Contexte et motivation regrouper les expressions référentielles qui indiquent le même référent = identifier les chaînes de référence souvent deux élements : chaînes anaphoriques applications TAL extraction d'informations détection de thèmes resumé automatique systèmes de questions-réponses

10 Amalia Todirascu10 Contexte et motivation (II) modèles linguistiques du discours théorie de l'accessibilité (Ariel, 1990, 1996) expressions réferentielles peu accessibles : entités nouvelles introduites dans le discours expressions accessibles : pronoms reflexifs, personnels théorie du centrage (Grosz et Sidner) notion du centre et des transitions contraintes syntaxiques pour les pronoms

11 Amalia Todirascu11 Contexte et motivation (III) rôles des anaphores et de chaînes de référence dans le discours marqueurs de cohesion textuelle (Charolles, 1997) fonctionnement des chaînes (Schnedecker, 1997) thème et chaînes de référence (Cornish, 2005)

12 Amalia Todirascu12 Plan Les chaînes de référence systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence

13 Amalia Todirascu13 Systèmes automatiques (I) systèmes à base de règles français(Hernandez, 2004), (Dupont, 2003) (Victorri 2005), (Popescu Belis, 1996), (Longo, Todirascu, 2010) anglais (Mitkov, 2003), (Bontcheva et al, 2004) vérification de plusieurs contraintes lexicales, syntaxiques, sémantiques pour trouver les affinités entre les possibles antécédents (entités nommées, groupes nominaux définis) dépendentes de langue

14 Amalia Todirascu14 Systèmes automatiques (II) systèmes de classification systèmes supervisées (Ng et Cardie, 2002) (Yang et al, 2004) (Weisenbacher & Nazarenko, 2008) nécessitent des données d'apprentissage de grande taille (500,000 – 1,000,000 tokens) annotées au niveau de relations de coréférence et anaphorique données disponibles pour EN, DE, NL, ES, IT mais pas pour le français !!! propriétés: contraintes lexicales, syntaxiques, sémantiques la position dans la phrase, la distance entre les candidats type d'expressions réferentielles (déterminant, nom commun/nom propre etc.)

15 Amalia Todirascu15 Systèmes automatiques (III) systèmes non-supervisés (Lang et al, 2009) (Ailloud, Klenner, 2009) (Bean et Riloff, 2004), BART (Versley et al, 2008) exploitation des informations morpho-syntaxiques la position ou la distance le type d'antécédent données : corpus étiquétés lemmatisés, eventuellement annotés syntaxiquement mais pas besoin d'avoir d'annotation des relations de coréférence

16 Amalia Todirascu16 Problèmes systèmes à base de règles nécessite beaucoup d'effort pour construire les ressources connaissances complexes : étiquetage, lemmatisation, analyse syntaxique, identification des entitées nommées systèmes de classification volume important de données données insuffisantes

17 Amalia Todirascu17 Plan Les chaînes de référence systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence

18 Amalia Todirascu18 RefGen Identification automatique de chaînes de référence pour le français RefGen (Longo et Todirascu, 2010) dépendent du genre textuel ordonner les candidats au premier maillon (théorie de l'accessibilité (Ariel, 1990)) trouver des pairs antécédent-anaphore utilisation des filtres (lexicales, syntaxiques, sémantiques) thèse de L.Longo (RBS) utilisée pour un système de détection automatique de thèmes

19 Amalia Todirascu19 Architecture RefGen

20 Amalia Todirascu20 Outils d'annotation TTL (Ion, 2007) Étiquetage selon le jeu d'étiquettes MULTEXT (Ide & Veronis 2004) CNP (Longo, Todirascu, 2010) Groupes nominaux complexes EN Entités nommées (Personne, Organisation, Lieu) Fonction syntaxique

21 Amalia Todirascu21 TTL (Ion, 2007) étiquetage et lemmatization jeu d'étiquettes MULTEXT disponible pour le français, le roumain, l'anglais service Web (integré dans la plateforme Weblicht (développé dans le cadre du projet CLARIN)) format de sortie: Text Corpus Format (TCF) ou XCES limité dans la taille du fichier

22 Amalia Todirascu22 Groupes nominaux complexes groupes nominaux complexes (plus informatifs) groupes nominaux simples avec plusieurs modifieurs: groupes prépositionnels, relative utilise les annotations de TTL patrons disponibles pour le français

23 Amalia Todirascu23 Entités nommées catégories : personnes, organisations, lieux patrons qui utilisent des preuves externes ou internes

24 Amalia Todirascu24 "Il" impersonnel plusieurs patrons proposés pour identifier les tournures impersonnelles (stage de Y.Lutz) verbes et adjectifs météorologiques (il pleut, il fait beau) adjectifs (il est nécessaire de...) verbes (il faut+Vinf, il s'agit de...) 77% de il impersonnels reconnus correctement

25 Amalia Todirascu25

26 Amalia Todirascu26 Calcul de la référence algorithme didentification des chaînes de référence

27 Amalia Todirascu27 Sélection des 1 ers maillons Expression R é f é rentielleInformativit é Rigidit é Att é nuationAccessibilit é Globale Groupe nominal ind é fini Np complet avec modifieur Np complet Description d é finie longue Description d é finie courte Nom de famille Pr é nom D é monstratif Pronom R é fl é chi Possessif A partir de léchelle dAccessibilité d(Ariel, 1990) Attribution dun poids à chaque ER (de 10 à 110) pour chaque critère (inf, rig, att)

28 Amalia Todirascu28 Sélection des autres maillons On détermine les liens de coréférence entre les candidats daccessibilité haute et ceux daccessibilité basse Identification des paires antécédent-anaphore dans la distance moyenne spécifique au genre liste de contraintes à satisfaire = des filtres pour limiter les candidats Lexicaux Morphosyntaxiques Sémantiques De proximité Regroupement des anaphores ayant un référent commun pour former les chaînes de référence

29 Amalia Todirascu29 Contraintes (Gegg-Harrison & Byron, 2004) – Optimisation theory (Beaver, 2004) Paires antécédent-anaphore impossibles Pas d'imbrication possible [la soeur [de Marie]] Si les éléments sont les arguments du même verbe (La voiture qu'il a achété...) maximum de contraintes Lexicales Syntaxiques sémantiques

30 Amalia Todirascu30 Contraintes (II) Lexicale Reprise du même tête Syntaxiques Parallèlisme syntaxique Sémantique Synonymes hyponymes

31 Amalia Todirascu31 Exemple

32 Amalia Todirascu32 Exemple (II)

33 Amalia Todirascu33 Evaluation

34 Amalia Todirascu34 RefGen évaluation sur d'autres genres corpus de référence annoté manuellement (E.Vallette d'Osia) format SEMEVAL système modulaire, extensible ajout de contraintes sémantiques (ontologies) peu de connaissances extérieures utilisation pour une annotation automatique de corpus – apprentissage automatique

35 Amalia Todirascu35 Plan Les chaînes de référence systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence

36 Amalia Todirascu36 Quel outil pour la classification? supervisée vs. semi-supervisée quelle taille de corpus? classification spécialisée en fonction de types d'antécédents

37 Amalia Todirascu37 Coréférence comme une tâche de classification hypothèse: sur l'ensemble des paires antécédent-anaphore, appliquer un algorithme de classification même chaîne de référence = même classe chaque paire = caractérisée par plusieurs propriétés lexicales, syntaxiques, sémantiques

38 Amalia Todirascu38 Corpus disponibles - LiLPa corpus étiquétés et lemmatisés catégorie lexicale informations morpho-syntaxiques lemme possibilité d'obtenir d'autres annotations corpus corrigés manuellement Journalistiques ( tokens) Textes de loi ( tokens) informatique ( tokens)

39 Amalia Todirascu39 Corpus disponibles (LiLPa) La décision va -t -elle forcer Google à infléchir ses pratiques ?

40 Amalia Todirascu40 Annotations Catégorie lexicale + propriétés morpho- syntaxiques (attribut ana) Lemme (la forme infinitif du verbe, la forme masculin singulier)(attribut lemma) Chunks (groupes non-recursifs) (attribut chunk) Det Nom Adj Prep Det Nom

41 Amalia Todirascu41 Autres annotations Entités nommées, CNP Fonctions syntaxiques Relations sémantiques Synonymie (French Wordnet) Hyponymie/Hyperonymie (French WordNet)

42 Amalia Todirascu42 Propriétés pour la classification Type d'antécédent Informations morpho-syntaxiques Position dans la phrase Fonction syntaxique autres?

43 Amalia Todirascu43 Références Ailloud, E, Klenner, M (2009) Vers des contraintes plus linguistiques en résolution d de coréférences, TALN 2009 Cornish, (1998). Les chaînes topicales : leur rôle dans la gestion et la structuration du discours, Cahiers de Grammaire, 23 : Dupont M. (2003) Une approche cognitive du calcul de la référence, thèse de luniversité de Caen, 308 p. Lang, J. Qin, B., Liu, T., Li, s. (2009) Unsupervised Coreference Resolution with HyperGraph Partitionning, Computer and Information Science, Vol 2, no 4. Longo, L, Todirascu, A (2010) RefGen – un module d'identification de chaînes de référence, TALN 2010

44 Amalia Todirascu44 Références (II) Grosz B.J., Weinstein S., Joshi A.K. (1995), Centering: a framework for modeling the local coherence of discourse. Computational Linguistics 21(2), Ng V., Cardie C. (2002). Improving machine learning approaches to coreference resolution. Actes de ACL (Association For Computational Linguistics), Morristown, YANG X., SU J., ZHOU G. & TAN C. (2004). An NP- cluster based approach to coreference resolution. Proceedings of COLING'04


Télécharger ppt "Amalia Todirascu1 Chaînes de références Amalia Todirascu"

Présentations similaires


Annonces Google