Discours et TAL TAL et discours

Slides:



Advertisements
Présentations similaires
L ’esprit du B2i Brevet Informatique Internet 1
Advertisements

Oxford University Press Revues en ligne. Service : Oxford Journals Online Licence : nationale, pour toutes bibliothèques universitaires, de recherche.
Constitution de produits terminologiques à partir de corpus
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
(2005) De Jacques Audran : maître de conférence
Guide rapide pour le gestionnaire Etape
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
1 er décembre 2005Projet ILD&ISTC1 Langues et documents Perspectives.
Exemple : Itinéraire de lecture.
Présentation du B2i école Références : B.O. n° 42 du 16 novembre 2006
Analyse et structuration thématiques
Navigation Interactive dans les documents
Navigation Interactive dans les documents Brigitte Grau et Jean-Paul Sansonnet J.P. Fournier, N. Hernandez, M. Hurault-Plantet, J-C. Martin, G. Pitel,
Girard Pia & Laffont Caroline
1 Premier bilan de l utilisation de LinguaStream pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006.
Le professeur documentaliste et l'éducation à l'orientation
LEVALUATION DIAGNOSTIQUE AU CM2 Animation pédagogique 18/09/2007.
Indexation textuelle : Systèmes de recherche d’informations
L’information scientifique et technique
1 BiblioVIE : Un contenu recentré sur les ressources négociées et financées par le CNRS et intégrant des outils web 2.0 Le Portail dinformation scientifique.
Plateforme de revues et d’articles en sciences humaines et sociales
1 Aziz Bouazzaoui -Directeur de lOMPIC Le projet dépôt en ligne de lOMPIC : réalisations et perspectives.
Le point sur les nouvelles épreuves du baccalauréat
Social Computing est spécialisé dans les domaines de laccès à linformation, des réseaux sociaux et de lintelligence collective
Bonjour. 2 constats numériques Nos livres très clair Bilan.
Le portail documentaire de Paris 1
Annotations sémantiques pour le domaine des biopuces
Recherche Documentaire et traitement de l’information
Doctorat/Web of Science Les nouveautés du Web of Science Formations Master et Doctorants Voir aussi
Corpus parallèles et textométrie
Qu’est-ce qu’un organisateur textuel?
Initiation aux outils de recherche bibliographique dans le cadre de la réalisation dune séquence de formation à la recherche documentaire Luc Verdebout.
Des hypertextes utilisables Cours Ergonomie des Interactions Personne-Machine 15 octobre 2008 Présentation réalisée par Mireille Bétrancourt (
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
PhP-MySQL Pagora 2012/2013 CTD 1 - Presentation de moi ^^
Jura.be, Jurisquare Des outils complémentaires ?
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction théorie et pratique
Alexandra Bujold Marie-Pier Moreau Alix Pampalon
Recherche par mots-clés vs recherche en langue naturelle.
Le portail documentaire de Paris 1
Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques.
E.Dot – juillet 2005 Page 1 Conclusion [ Lot 4. Validation et Évaluation ] Rapport Final 4 juillet 2005.
Méthodologie documentaire
22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français.
Du thème général à la question de recherche Séminaire interdépartemental de méthodologie en linguistique
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Utiliser des ressources en ligne - C. Zaremba 1 Europresse Vous voulez lire la presse en ligne Europresse.com donne accès à une collection de plus de 1.
Un ancien et un nouveau concept, Une notion qui appartient au sens commun et au vocabulaire spécifique  Aptitude d'une autorité publique à effectuer.
LES INFOS de Philippe et Patrick Journal d'informations en ligne Infospp.free.fr Mai 2006.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
LA RECHERCHE DOCUMENTAIRE
B2i école Brevet Informatique et Internet. Le cadre  Le B2i est intégré aux programmes de l’école depuis 2002 (réaffirmé par la circulaire de Juillet.
Dominique LAURENT Patrick SEGUELA
Recherche d’information
23 Nov. 2005Colloque Médiathèques1 Nouvelles méthodes d’accès assisté à l’information Approches sémantiques Documents textuels et multimédia Patrice Enjalbert.
Novembre Pourquoi SIALLE ? De nombreux logiciels pédagogiques, disséminés sur des sites web institutionnels ou non, personnels.
Nicolas Rageul, Yvan Bédard, Jacynthe Pouliot, Michel Fortin
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
TEXT MINING Fouille de textes
L’analyse de système : le cas des hypertextes Cours Ergonomie des Interactions Personne-Machine 28 octobre 2009 Présentation réalisée par Mireille Bétrancourt.
Le Traitement Automatique des Langues (TAL)
Savoir-être : Fréquenter le CDI
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Segmentation des textes : quand énumérations, titres et cadres s’entrecroisent Marie-Paule Péry-Woodley ERSS/Université de Toulouse-Le Mirail.
Transcription de la présentation:

Discours et TAL TAL et discours Marie-Paule Péry-Woodley UE M2 R TAL 18 octobre 2005

Quelle(s) sémantique(s) pour l’accès au contenu textuel? Cf. A. Nazarenko (2005) Sur quelle sémantique reposent les méthodes automatiques d’accès au contenu textuel? « Au-delà de la recherche d’information qui se contente de sélectionner des documents dans une base documentaire, on voit apparaître depuis une décennie des outils d’accès au contenu même des textes et documents. Ces outils reposent sur des méthodes variées, depuis le simple surlignage de textes jusqu’à l’extraction d’information et aux systèmes de question-réponse. Dans cet article, nous nous interrogeons sur la nature de l’analyse sémantique qu’ils mettent en œuvre. » (p.211) Applications envisagées: EI, Q-R, navigation, résumé Constat : « Une analyse par îlots de texte » « On pourrait reprocher aux méthodes d’accès au contenu de considérer le texte comme une succession de syntagmes nominaux complexes. C’est mieux que les « sacs de mots » des moteurs de recherche mais est-ce suffisant? » (p.223) A. Nazarenko pose bien la question mais à mon sens n’y répond pas entièrement: Prégnance d’une logique d’indexation « de quoi parle un document? » = entités dont il est question dans ce document (sémantique référentielle, importance des « entités nommées », sémantique lexicale: problématique des classes sémantiques, relations lexicales/sémantiques) Ds cette optique, corpus servent à découvrir ces relations Ex. voisins de Le Monde (notion de sémantique textuelle: c’est le texte dans son intégralité qui détermine le sens des unités) Tjrs des cette optique, Segmenter un document = déterminer les frontières indiquant qu’on se met à parler d’autre chose, que le focus passe d’une entité à une autre

Vers une sémantique discursive Cf. ex. de C. Fabre : retour / revenir, début de / commencer suj, hausse de/augmenter obj reprise de/relancer obj En discours: M_______________________________________________________________. _________… sont revenus au bercail. _____________________________Ce retour inespéré… ________________________________ Le retour de Zidane M_______________________________________ est revenu_______________________________________________ transition avec sem préc: structures virtuelles émergeant des relations immédiates, pas de prise en compte de la linéarité du texte. Par exemple, lien entre retour/revenir est un lien hors-texte; en revanche le fait que "Son retour" en posiiton sujet apparaisse à la suite, dans le texte, d'un énoncé construit autour du prédicat "revenir", c'est textuel, phénomène anaphorique. Besoin de rétablir la linéarité Mais aussi de tenir compte de structuration hiérarchique (titre/ss-tires) Objets : des fonctions qui ont un rôle dans la constitution de segments discursifs, et sont marquées à la surface chaînes de références (expressions et segments référentiels) titrage: titres et segments titrés encadrement du discours: introducteurs de cadres et segments cadratifs NB modes de structuration interagissent entre eux

Objets au niveau discours Fonctions qui ont un rôle dans la constitution de segments discursifs, et sont marquées à la surface des textes : chaînes de référence (expressions et segments référentiels) titrage: titres et segments titrés encadrement du discours: introducteurs de cadres et segments cadratifs relations de discours et les segments résultants …

Prise en compte du niveau discursif dans des applications Navigation intra-documentaire aide à l’exploitation du résumé auto (Boguraev et al, 1998) aide à l’exploitation de documents longs (Bilhaut et al, 2003; Couto & Minel, 2004) Prise en compte de la structure du discours à différents niveaux de grain Un contexte d’expérimentation: Géosem sémantique discursive, applications "niveau document", géosem, un mode de structuration pertinent: les cadres temporels (pertinent aussi pour QR) ,

Geosem et LinguaStream Un objectif applicatif final: l’accès au contenu de documents géographique (composites) par le biais de critères spatiaux et temporels Un objectif de recherche « en route »: plateforme d’expérimentation et mise en place d’instruments intégrés pour l’analyse des structures discursives : Linguastream exploiter les procédures de TAL éprouvées pour les niveaux de grains inférieurs (notion d’enrichissement incrémental des vues sur le corpus, Widlöcher & Bilhaut 2005) répondre aux besoins spécifiques pour ce niveau d’analyse en termes d’annotation et de visualisation Cf. rapport : « Le projet GéoSem vise à développer des méthodes et des outils, linguistiques et informatiques, d’analyse de contenu de documents géographiques à la fois dans leurs composantes textuelles et imagées (en particulier cartographiques). Ces outils permettront à un lecteur-utilisateur de rechercher une information dans un document ou ensemble de documents en fonction de critères spatiaux et temporels — et éventuellement de recomposer un nouveau document à partir de plusieurs sources ainsi analysées. Les utilisateurs typiques visés sont les décideurs ayant charge d’administrer des territoires, des chargés d’étude intervenant dans l’élaboration de ces politiques, ainsi que les animateurs d’activités culturelles et éducatives ayant une composante géographique affirmée, par exemple liée à une région particulière. » Cf. Habert 2005: « Par instrument (en anglais tool), on entendra un logiciel qui prend en entrée une donnée langagière (du texte, de l’oral, un lexique. . .) et qui permet d’obtenir en sortie une représentation transformée (annotée), soit automatiquement soit semi-automatiquement soit manuellement » (vs outils, logiciels multi-usage, ex. tableur ou gestionnaire BD) annotation discursive automatique et visualisation

Encadrement du discours Expression introductrice de cadre Charolles 1997 De la fin du siècle dernier jusqu’aux années 1950, l’école primaire a été le pilier du système scolaire français. Elle inculquait les connaissances de base, lire, écrire et compter, . Elle avait aussi pour mission . Elle délivrait le certificat d’études qui, . Les sessions du certificat d’études n’ont plus lieu. Nombre d’écoles communales de campagne ont été fermées, ou vont l’être, faute d’enfants à accueillir. Et l’école primaire n’est plus que le premier degré de scolarités ayant maintenant pour objectif le collège puis le lycée. Cadre un mode de structuration pertinent: les cadres temporels (pertinent aussi pour QR)

Références: Bilhaut, F., Ho-Dac, M., Borillo, A., Charnois, T., Enjalbert, P., Le Draoulec, A., Mathet, Y., Miguet, H., Péry-Woodley, M.-P., & Sarda, L. (2003). Indexation discursive pour la navigation intradocumentaire: cadres temporels et spatiaux dans l'information géographique. TALN'03, Batz-sur-Mer..pp 315-320. http://www.sciences.univ-nantes.fr/info/recherche/taln2003/articles/bilhaut.pdf Boguraev, B., Kennedy, C., Bellamy, R., Brawer, S., Wong, Y., Swartz ,J. (2001). Dynamic Presentation of Document content for Rapid On-Line Skimming. AAAI Spring Symposium on Intelligent Text Summarisation, Stanford, CA, March 1998 Couto, J., & Minel, J.-L. (2004, ). Interfaces dynamiques de fouilles textuelles. RIAO 2004, Avignon. pp.420-430 Habert, B. (2005). Portrait de linguiste(s) à l’instrument Nazarenko, A. (2005). Méthodes automatiques d'accès au contenu. In A. Condamines (Ed.), Sémantique et Corpus Paris: Lavoisier. (pp. 211-244). Widlöcher, A., & Bilhaut, F. (2005, ). La plate-forme Linguastream: un outil d'exploration linguistique sur corpus.  TALN 2005, Dourdan, France, pp.517-522, http://taln.limsi.fr/site/talnRecital05/actes-articles.htm#tome1