Alexandre Gefen (CNRS-Université Paris 4-Sorbonne)

Slides:



Advertisements
Présentations similaires
Qu’est-ce que LingPro ? LingPro est la branche ingénierie linguistique de i-KM La collaboration i-KM / LingPro est le résultat d’un partenariat sous forme.
Advertisements

UTILISATION DE LAPPLICATION e-SIN La restitution des données.
[Nom du présentateur] [Titre/position/statut du présentateur] Webinaire pour [nom du groupe] [Nom de l'institution] [Date]
Données structurées et XML
La recherche documentaire
Les formateurs en documentation Rectorat de Lille Maîtrise de linformation au collège Compétences informationnelles et disciplines partenaires.
Le dossier documentaire
Projet Présentation du projet
1 3.Langage XSL = XSLT + XSL-FO transformationFormatage.
Transformation de documents XML
Xavier Blanc Web Services Xavier Blanc
DTD Sylvain Salvati
Atelier Wiki 1.Introduction 2.Définition 3.Fonctionnement 4.Ecrire sur un wiki 5.En pratique 6.Glossaire 7.Ressources.
Urbanisation de Systèmes d'Information
Copyright France Télécom, tous droits réservés Paris Web Ateliers Les bibliothèques JS jQuery Orange Labs Julien Wajsberg, Recherche & Développement.
Données structurées et XML
Les fonctions de XPath et XSLT
Présentation de COUGUAR : Le moteur de recherche pour la consultation et la comparaison des prix.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Indexation textuelle : Systèmes de recherche d’informations
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Initiation au système d’information et aux bases de données
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Initiation au système d’information et aux bases de données
Initiation à la conception des systèmes d'informations
Construire une base de données bibliographiques Elaborer un site web
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Traitement de texte ++.
Sous lencadrement : Catherine RECANATI HENCHIR Mohamed Ali EID – IHM IHM Traitement automatique de langage (TAL)
UNIVERSITE CHOUAIB DOUKKALI Département des mathématiques
Cours 16 LA BIBLIOGRAPHIE
Initiation à la conception de systèmes d'information
10 octobre 2012 Grégory Petit
28 novembre 2012 Grégory Petit
Recherche Documentaire et traitement de l’information
Comment optimiser la visibilité de vos contenus sur les principaux moteurs de recherches ? Rédaction de contenus SEO friendly Publication on-line.
Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005
Chercher et trouver Module 1 Déroulement : Souhaiter la bienvenue
Conservatoire National des Arts et des Métiers de Paris Représentation et édition de documents XML.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Forum des Industries de la Langue, 17 mars 2010
Le projet de terminologie
Initiation aux bases de données et à la programmation événementielle
Initiation à la conception des systèmes d'informations
Travaux Pratiques Représentation des connaissances
Le langage du Web CSS et HTML
XML-schema. Pourquoi XML-schema Les DTD : Pas de typage, peu de contraintes sur les contenus nombre d'apparitions d'un élément à choisir entre 0 et 1.
1 KM et Moteur de recherche: l’approche sémantique de.
Programmation Web : Introduction à XML
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
SGBD Système de gestion de Base documentaire (Logiciel documentaire)
Bureautique M1 Mise en forme évoluée 2.
Web sémantique est pratique documentaire
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Sur le statut référentiel des entités nommées
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
Module : Langage XML (21h)
eXtensible Markup Language. Généralités sur le XML.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
TEXT MINING Fouille de textes
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Initiation aux bases de données et à la programmation événementielle
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Traitement de texte : notions avancées
Faire un dossier documentaire
Initiation à la recherche documentaire Initiation à la recherche documentaire L.Berger Collège St Paul Roanne.
1 Stage Master 2 THYP Wiki Informatique Approches sémantique et ontologique à l’Université Paris 8 14 Septembre 2006.
Situation d’apprentissage Suggestions d’achats pour la bibliothèque Langue et culture – FRA-P106-4 Document de l’élève Centre Louis-Jolliet 1201, rue de.
Transcription de la présentation:

Alexandre Gefen (CNRS-Université Paris 4-Sorbonne) Les entités nommées Alexandre Gefen (CNRS-Université Paris 4-Sorbonne)

Qu’est qu’une entité nommée ? Les unités nommées sont des unités lexicales sélectionnées pour leur intérêt sémantique : dates, unités, noms de lieux, etc. Elles sont à la fois difficilement compréhensibles en contexte et en même temps comparables à d’autres éléments similaires.

Définition linguistique Définition (via N. Dufournaud) : – « Tous les éléments du langage définis par référence : les noms propres au sens classique, les noms propres dans un sens élargi mais aussi les expressions de temps et de quantité » (Friburger, 2006). NB vient de Kripke (désignateurs rigides)

Les noms Quatre types : – Personnes – Lieux – Les fonctions – Les organismes

Les valeurs Dates,heures Montants Numérotations

Pourquoi s’intéresser aux EN? Utiliser les textes comme une base données : Mise en relation des textes Traitement type TAL, cartographie, index (facile avec XSLT) Suivi de tendance, veille Optimisation de recherche et moteur de recherche sémantique Production de savoir par inférence (classification de documents par exemple)

Utile avec par exemple : des dictionnaires des textes de références des textes très longs et complexes : ex. Le Grand Cyrus partie 1, livre 1

En perspective : le web sémantique Le balisage des textes vise à les faire communiquer entre eux mais aussi à créer un web de données destiné à s’intégrer au web sémantique

Exemples Navigateur ontologique basée sur SKOS : YAGO 2 Fiches automatisée de Freebase : Henry Ford facts - Freebase DBpedia : extraction de Wikipedia : Exemples SPARQL - Dbpedia.fr

Présuposé de la production d’EN - un travail d’identification (de balisage) manuel ou dans certains cas automatique -un travail d’indexation et de documentation une catégorisation (arbre de connaissance ou même une ontologie)

Les problèmes de sémantisaion On cherche à définir la référence unique de l’entitée que l’on va nommer : différence avec le niveau sémantique : Alexandre Gefen=deux mots mais une seule entité Problèmes : orthographe et variantes, identité sociale, pseudonyme, limite imprécise entre les titres et les fonctions, changement de noms de lieux (Lutèce/Paris) ou de système de datation

Exemple classique L’ancien premier ministre socialiste Lionel Jospin a confirmé, jeudi 28 septembre, sur RTL, qu’il ne sera pas candidat à l’investiture socialiste pour la présidentielle de 2007. L’ancien premier ministre socialiste <pers>Lionel Jospin</pers> a confirmé, <date>jeudi 28 septembre</date>, sur <org>RTL</org>, qu’il ne sera pas candidat à l’investiture socialiste pour la présidentielle de <date> 2007</date>.

L’ancien premier ministre socialiste Par delà les noms propres, gestion de grands corpus d’information en intégrant les fonctions, les organisations L’ancien premier ministre socialiste L’ ancien <role>premier ministre</role> <org>socialiste</org>

Dans la TEI

Dans la TEI : tout encoder avec <rs> balise générique <p>La famille s'était alors retirée en banlieue, à <rs type="place">Villemomble</rs>, mais <rs type="person">Alfred </rs>aimait se rendre à <rs type="place">Paris</rs> et <rs type="date">un jour de 1917</rs> alors qu'il sortait de <rs type="place">la maison des    Arts et Métiers</rs> il était tombé inanimé dans la rue.</p>

Des balises spécialisées <name> pour les noms propres et <persName> pour les personnes (regroupés en <listPerson> mais non imbriqués) <orgName> pour les institutions (regroupés en <listOrg> et éventuellement imbriqués) <place> pour les lieux (regroupés en <listPlace> et éventuellement imbriqués) <date> pour les dates (avec attribut par exemple : @when pour la précision, @from @to pour un intervalle de temps certain, @notBefore @notAfter pour un intervalle de temps incertain, @calendar pour les calendriers)

Détails de <persName> <surname> nom de famille ou patronyme <forename> prénom <genName> generational name <roleName> titre et avant-nom <addName> épithète <nameLink>particules nobiliaires

Le cas de PersName

PersName Très utile par exemple dans le TEI Header Peut être utilisé aussi dans le corps du texte Peut être limité à une référence externe sans sémantisation : <persName  ref="http://fr.wikipedia.org/wiki/ Alexandre_Gefen>Alexandre Gefen</persName>

Exemple avec <persName>  <forename>Edward</forename>  <forename>George</forename>  <surname>Bulwer-Lytton</surname>, <roleName>Baron Lytton of  <placeName>Knebworth</placeName>  </roleName> </persName>

Exemple 2 avec des type (via N. Dufournaud) <persName> <addName type="epithete-honneur">haute dame</addName> <roleName type="avant-nom">dame</roleName> <forename>Suzanne</forename> <nameLink>de</nameLink> <surname type="maison">Bourbon</surname> <roleName type="titre">dame</roleName> <nameLink>de</nameLink> <placeName type="terre">Rieux</placeName> </persName>

De la balise à la référence, deux outils de pointage par attribut Par un code avec l’attribut @key= "moncode" permet de regrouper des entités nommées : <persName key= "11" >Lou Burnard</persName> ... <persName key= "11" >L. Burnard</persName>

Exemple de définition externe Pour pointer vers une définition : @ref= "maref " : <persName ref="#AG">Alex</persName>.... <persName ref="#AG">Alexandre Gefen</persName> .... <persName ref="#AG">M. Gefen</persName> Le détails se met dans <person> : <person xml:id="AG">  <persName xml:lang="fr">  <persName>Alexandre Gefen</persName>  <persName>  <forename>Alexandre</forename> <surname>Gefen</surname> </persName>  <birth when="197O"/> <note>Alexandre est chercheur ... </note> </person>

Exemple de liste <listPerson> <person xml.id="AG"> <persName>Alexandre Gefen</persName> </person> <person xml.id="LB"> <persName>Lou Burnard</persName> </person> </listPerson>

Exemple de relation <listPerson> <person xml.id="AG"> <persName>Alexandre Gefen</persName> </person> <person xml.id="LB"> <persName>Lou Burnard</persName> </person> <relation name="travail" mutual="#AG #LB"/> </listPerson>

D’innombrables possibilités... Exemples exhaustifs (du dictionnaire à l’index en passanrt par la bibliographie) : Example: <persName> (personal name) D’autres présentations meilleur‎es que la mienne : Data vs Text: encodage des entités non-textuelles ou www.bvh.univ- tours.fr/actualites/TEI_index_11-02-01.pdf

Exercice Faire votre fiche à l’intérieur d’un texte bref inventé en utilisant <persName> Extraire votre définition avec @ref et <person> Ajouter des relations familiales en utilisant <relation> et les attributs @name,@type,@active,@mutual,@passiv e Ajouter des événements biographiques en utilisant <event>

Merci ! alexandre.gefen@paris-sorbonne.fr