Sur le statut référentiel des entités nommées Thierry Poibeau LIPN-CNRS
Notion d’entité nommée Séquence lexicale faisant référence à une entité du monde concret Notion de désignateur rigide (Kripke) Univocité du référent Principe du « catalogue » (campagne Ester) Types d’entité distingués Entités « classiques » : nom de personnes, de lieux, d’organismes… Entités dépendant d’un domaine : nom de gênes, de protéines… (en biologie)
Entités et compréhension Élément de base pour l’analyse Extraction d’information Catégorisation et suivi de thèmes (écrit, oral) Gestion du dialogue Tâche bien établie en traitement des langues Repérage des entités isolées Analyse de la référence Chaînes référentielles (variation lexicale)
Repérage des entités Systèmes à base de règles ou à base d’apprentissage Étapes de l’analyse Repérage de séquences potentiellement pertinentes Typage de séquences d’après une typologie pré-définie Analyse de la co-référence (entre entités, anaphores pronominales et anaphores dites infidèles)
Hiérarchie de types Catégorisation d’après une hiérarchie définie a priori Statut référentiel clair typage non ambigu
Autour de la notion de catégorisation Nombreux cas d’entités « polysémiques » en corpus Encore une fois, Paris sera rempli de bals de pompiers pour ce 14 juillet. Événement/fête ? Date ? Problème de catégorisation Problème de référence
Exemples d’emplois polysémiques (1/2) Date / Événement Le 11 septembre 2001 a représenté un tournant dans l’histoire américaine. (Elie Wiesel, site www.france-amerique.com) Organisation / Lieu / … Le journal télévisé a eu lieu hier en direct de l’ONU. L’ONU était en grève hier. L’ONU a fêté ses 50 ans. L’ONU n’acceptera pas une attaque frontale de l’Irak (forum du Monde)
Exemples d’emplois polysémiques (2/2) Organisation / Personne L’Europe veut garder la tête du FMI. (Libération, 10 mars 2004) Personne / Lieu Une rencontre d’un niveau technique assez médiocre à l’Abbé Deschamps. (stade d’Auxerre, Journal L’équipe) Personne / Objet J’ai tout Chirac sur l’étagère Pierre est garé en face. (cf. Cadiot et Visetti 2001, p. 167)
Référentialité des EN Notion de référentialité Trait définitoire des EN Notion de « polysémie » des EN (Ester) Référentialité relative dans les textes La compréhension n’est pas un acte de référentiation a priori Les textes sont compréhensibles sans résoudre explicitement les références L’ambiguïté est inhérente au langage Une séquence lexicale ne correspond pas obligatoirement à une feuille de l’ontologie pré-définie
Analyse linguistique Importance des figures de transfert de sens Métonymie : J’ai tout Chirac sur l’étagère Synecdoque : L’Europe veut garder la tête du FMI L’entité donne accès à un contenu sémantique dynamique interprétable en contexte Pas de référence directe Opération de dénotation par rapport à un ensemble de signifiés
Représentation dynamique Éliminer les ontologies pour éviter de figer le sens a priori ? Proposition de Cadiot et Visetti (2001) Difficilement envisageable en TAL Notion de facette (Cruse) Rend compte des sens variés Ne donne pas d’explication directe aux glissements de sens et aux liens entre sens isolés Difficulté de se passer de toute ontologie en TAL
Notion de focalisation Pour une EN donnée Type majeur accordé d’après la hiérarchie de types Focalisation sur un aspect de l’EN en corpus ONU = Organisation L’ONU n’acceptera pas une telle décision. Focalisation=diplomatic_org Le journal télévisé a eu lieu en direct de l’ONU. Focalisation=localisation
Exemple d’analyse L’ONU en tant qu’organisation diplomatique L’ONU n’acceptera pas une telle décision. Entity{ Lexical_unit=ONU; Sem{ Type=organization; Focalisation=diplomatic_org; } }
Exemple d’analyse L’ONU en tant qu’organisation diplomatique Le journal télévisé a eu lieu en direct de l’ONU. Entity{ Lexical_unit=ONU; Sem{ Type=organization; Focalisation=location; } }
Suivi des EN en corpus Enjeu pour la compréhension : chaînes référentielles Intérêt limité du repérage d’entité hors contexte Identifier les différentes séquences correspondant à une entité (alias) Formulaire d’entité Identifier l’entité Identifier des informations sur l’entité
Mode de représentation Formulaire d’entité (MUC) Informations linguistiques Informations « sur le monde » Analyse de phénomènes linguistiques autour des entités Expliquer les figures de style tels que la métonymie et la synecdoque Rendre compte des anaphores non pronominales
Formulaire d’entité Extrait de formulaire correspondant à une organisation (ONU) Entity{ Lexical_unit=ONU; Sem{ Type=organization; Focalisation=none; } EntityTemplate{ IsLocatedIn = New_York; IsComposedOf = employees && diplomats; IsLeadedBy = Kofi_Annan; KindOf =diplomatic_org)
Création des formulaires Création manuelle Précis Coûteux, manque de couverture, souvent inadapté au corpus Création automatique (dynamique) Repérage d’informations par un ensemble de règles Heuristiques permettant de lier les informations entre elles (règle de proximité) Techniques d’apprentissage pour augmenter la couverture
Analyse des anaphores nominales Définition Groupe nominal libre reprenant une entité nommée du texte IBM… L’entreprise américaine… Anaphore nominale, anaphore infidèle… Technique d’analyse Nécessité de connaissances sur le monde Accès dynamique à un aspect (une facette) de l’entité Analyse en mobilisant les informations contenues dans le formulaire d’entité
Exemple d’analyse Analyse dynamique Justification de l’analyse d’après l’information mise en œuvre à partir du formulaire d’entité L’organisation de Kofi Annan… Syn(L’organisation de Kofi Annan) = ONU Justification: IsLeadedBy(ONU)=Kofi Annan Application au suivi de thème
Conclusion « Relativité » du statut référentiel des entités Formalisme pour représenter dynamiquement Les focalisations en corpus Les glissements de sens Perspective : évaluation sur du texte non restreint à un thème (Ester)