Sur le statut référentiel des entités nommées

Slides:



Advertisements
Présentations similaires
1Er Partie Intervenants : Nuno Barata Alain Joly Thierry Belvigne
Advertisements

Unité Nationale d’Animation du réseau LEADER+ français
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
EVALUATION DE LEXPERIMENTATION DU C2i niveau 2 « Métiers de la Santé » Nguyen Jean-Michel, Université Nantes 1.
Ce que nous dit le BO BO n°20 du 20 mai 2010
Le developpement web  Préparé par : ASSAL Lamiae JAMALI Zakarya
Alexandre Gefen (CNRS-Université Paris 4-Sorbonne)
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Urbanisation de Systèmes d'Information
SujetsContexte, invité, but, etc.… Raisons des tables et Charte de collaboration Préciser et définir les objectifs des tables ainsi que les objectifs.
5. La physique appliquée en STS IPM
Utilisation didactique des extractions lexicales des corpus
Evaluer: un exemple au cycle 2
Grande pauvreté et réussite scolaire Tenir compte pédagogiquement des caractéristiques des élèves vivant dans une grande précarité
METHODOLOGIE.
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Présentation PowerPoint TICE2 Adeline VINCENDEAU
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
La dictée a l’adulte.
Pour un système formel de description linguistique
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Introduction à la sociolinguistique
Épreuve de compréhension orale pour l’examen final clemi 3
LA COMPREHENSION EN LECTURE
Académie de Versailles - Inspection pédagogique régionale de lettres
Découpage technique (storyboard ) 13 règles dans l ’application multimédia interactif
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
A CCOMPAGNEMENT PERSONNALISÉ PEDAGOGIE. A CCOMPAGNEMENT PERSONNALISE : LA PEDAGOGIE 1. Présentation du diaporama 2. Retour dexpériences des activités.
Analyse des discours cours 7 Les genres dans la presse écrite
Vers une auto-évaluation formative en ligne ?
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
Vers une génération automatique du mapping de sources biomédicales
Le FLE en contexte migratoire
Vocabulaire La polysémie
Approches Formelles en Systèmes d'information
Algorithmes et Programmation
LA COMPREHENSION 10 Décembre REFLEXIONS PREALABLES Récolter/recueillir des informations  Aspect fonctionnel, nécessaire mais pas exclusif.  Mobiliser.
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
EAF : Evaluation de l’épreuve orale
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Dominique LAURENT Patrick SEGUELA
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Cours 12 Retour sur l ’examen L ’enseignement dans le cadre du travail de responsable au soutien pédagogique Mise en situation et application concrètes.
Du discours aux modèles… Une tentative d’articulation
Le club de lecture à l’écran
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
( ) Collège de Maisonneuve
TEXT MINING Fouille de textes
Le Traitement Automatique des Langues (TAL)
les compétences des élèves dans le domaine du vocabulaire
Choisir les stratégies communicationnelles Cours 8.
Pierre Malenfant Technologie 9 École du Carrefour
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
Sciences appliquées - BTS Electrotechnique 12 juin Académie de Lyon.
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
LE LANGAGE CARTOGRAPHIQUE ET LE NUMÉRIQUE : DES ENJEUX POUR NOS DISCIPLINES STAGE AEFE Europe du Sud-Est Athènes Novembre 2015 Bruno Eldin- IA-IPR, académie.
Etude critique de document
NIVEAUX DE COMPRÉHENSION DES TEXTES. 1. COMPRÉHENSION LITTÉRALE TRANSCRIPTIVE  Elle exige une lecture fragmentée du texte.  Les lecteurs sont capables.
L’entreprise et sa gestion Chapitre 12. Objectifs Définir la communication. Énumérer cinq éléments du processus de communication. Identifier les principaux.
Licence « Creative Commons » (CC-BY-NC-SA) Catherine Thomas, Projet BourbaKeM, élément n°7, 2015 Projet BourbaKeM Elément n° 7: La codification des connaissances.
Construire une leçon d’histoire
Les bases de données Séance 3 Construction du Modèle Conceptuel de Données.
DESCRIPTEURS NIVEAU B1 du Cadre européen commun de référence pour les langues.
MES STRATÉGIES DE LECTURE
Élaboration d’un référentiel de compétences
Transcription de la présentation:

Sur le statut référentiel des entités nommées Thierry Poibeau LIPN-CNRS

Notion d’entité nommée Séquence lexicale faisant référence à une entité du monde concret Notion de désignateur rigide (Kripke) Univocité du référent Principe du « catalogue » (campagne Ester) Types d’entité distingués Entités « classiques » : nom de personnes, de lieux, d’organismes… Entités dépendant d’un domaine : nom de gênes, de protéines… (en biologie)

Entités et compréhension Élément de base pour l’analyse Extraction d’information Catégorisation et suivi de thèmes (écrit, oral) Gestion du dialogue Tâche bien établie en traitement des langues Repérage des entités isolées Analyse de la référence Chaînes référentielles (variation lexicale)

Repérage des entités Systèmes à base de règles ou à base d’apprentissage Étapes de l’analyse Repérage de séquences potentiellement pertinentes Typage de séquences d’après une typologie pré-définie Analyse de la co-référence (entre entités, anaphores pronominales et anaphores dites infidèles)

Hiérarchie de types Catégorisation d’après une hiérarchie définie a priori Statut référentiel clair  typage non ambigu

Autour de la notion de catégorisation Nombreux cas d’entités « polysémiques » en corpus Encore une fois, Paris sera rempli de bals de pompiers pour ce 14 juillet. Événement/fête ? Date ? Problème de catégorisation Problème de référence

Exemples d’emplois polysémiques (1/2) Date / Événement Le 11 septembre 2001 a représenté un tournant dans l’histoire américaine. (Elie Wiesel, site www.france-amerique.com) Organisation / Lieu / … Le journal télévisé a eu lieu hier en direct de l’ONU. L’ONU était en grève hier. L’ONU a fêté ses 50 ans. L’ONU n’acceptera pas une attaque frontale de l’Irak (forum du Monde)

Exemples d’emplois polysémiques (2/2) Organisation / Personne L’Europe veut garder la tête du FMI. (Libération, 10 mars 2004) Personne / Lieu Une rencontre d’un niveau technique assez médiocre à l’Abbé Deschamps. (stade d’Auxerre, Journal L’équipe) Personne / Objet J’ai tout Chirac sur l’étagère Pierre est garé en face. (cf. Cadiot et Visetti 2001, p. 167)

Référentialité des EN Notion de référentialité Trait définitoire des EN Notion de « polysémie » des EN (Ester) Référentialité relative dans les textes La compréhension n’est pas un acte de référentiation a priori Les textes sont compréhensibles sans résoudre explicitement les références L’ambiguïté est inhérente au langage Une séquence lexicale ne correspond pas obligatoirement à une feuille de l’ontologie pré-définie

Analyse linguistique Importance des figures de transfert de sens Métonymie : J’ai tout Chirac sur l’étagère Synecdoque : L’Europe veut garder la tête du FMI L’entité donne accès à un contenu sémantique dynamique interprétable en contexte Pas de référence directe Opération de dénotation par rapport à un ensemble de signifiés

Représentation dynamique Éliminer les ontologies pour éviter de figer le sens a priori ? Proposition de Cadiot et Visetti (2001) Difficilement envisageable en TAL Notion de facette (Cruse) Rend compte des sens variés Ne donne pas d’explication directe aux glissements de sens et aux liens entre sens isolés Difficulté de se passer de toute ontologie en TAL

Notion de focalisation Pour une EN donnée Type majeur accordé d’après la hiérarchie de types Focalisation sur un aspect de l’EN en corpus ONU = Organisation L’ONU n’acceptera pas une telle décision. Focalisation=diplomatic_org Le journal télévisé a eu lieu en direct de l’ONU. Focalisation=localisation

Exemple d’analyse L’ONU en tant qu’organisation diplomatique L’ONU n’acceptera pas une telle décision. Entity{ Lexical_unit=ONU; Sem{ Type=organization; Focalisation=diplomatic_org; } }

Exemple d’analyse L’ONU en tant qu’organisation diplomatique Le journal télévisé a eu lieu en direct de l’ONU. Entity{ Lexical_unit=ONU; Sem{ Type=organization; Focalisation=location; } }

Suivi des EN en corpus Enjeu pour la compréhension : chaînes référentielles Intérêt limité du repérage d’entité hors contexte Identifier les différentes séquences correspondant à une entité (alias) Formulaire d’entité Identifier l’entité Identifier des informations sur l’entité

Mode de représentation Formulaire d’entité (MUC) Informations linguistiques Informations « sur le monde » Analyse de phénomènes linguistiques autour des entités Expliquer les figures de style tels que la métonymie et la synecdoque Rendre compte des anaphores non pronominales

Formulaire d’entité Extrait de formulaire correspondant à une organisation (ONU) Entity{ Lexical_unit=ONU; Sem{ Type=organization; Focalisation=none; } EntityTemplate{ IsLocatedIn = New_York; IsComposedOf = employees && diplomats; IsLeadedBy = Kofi_Annan; KindOf =diplomatic_org)

Création des formulaires Création manuelle Précis Coûteux, manque de couverture, souvent inadapté au corpus Création automatique (dynamique) Repérage d’informations par un ensemble de règles Heuristiques permettant de lier les informations entre elles (règle de proximité) Techniques d’apprentissage pour augmenter la couverture

Analyse des anaphores nominales Définition Groupe nominal libre reprenant une entité nommée du texte IBM… L’entreprise américaine… Anaphore nominale, anaphore infidèle… Technique d’analyse Nécessité de connaissances sur le monde Accès dynamique à un aspect (une facette) de l’entité Analyse en mobilisant les informations contenues dans le formulaire d’entité

Exemple d’analyse Analyse dynamique Justification de l’analyse d’après l’information mise en œuvre à partir du formulaire d’entité L’organisation de Kofi Annan… Syn(L’organisation de Kofi Annan) = ONU Justification: IsLeadedBy(ONU)=Kofi Annan Application au suivi de thème

Conclusion « Relativité » du statut référentiel des entités Formalisme pour représenter dynamiquement Les focalisations en corpus Les glissements de sens Perspective : évaluation sur du texte non restreint à un thème (Ester)