Discours et TAL TAL et discours Marie-Paule Péry-Woodley UE M2 R TAL 18 octobre 2005
Quelle(s) sémantique(s) pour l’accès au contenu textuel? Cf. A. Nazarenko (2005) Sur quelle sémantique reposent les méthodes automatiques d’accès au contenu textuel? « Au-delà de la recherche d’information qui se contente de sélectionner des documents dans une base documentaire, on voit apparaître depuis une décennie des outils d’accès au contenu même des textes et documents. Ces outils reposent sur des méthodes variées, depuis le simple surlignage de textes jusqu’à l’extraction d’information et aux systèmes de question-réponse. Dans cet article, nous nous interrogeons sur la nature de l’analyse sémantique qu’ils mettent en œuvre. » (p.211) Applications envisagées: EI, Q-R, navigation, résumé Constat : « Une analyse par îlots de texte » « On pourrait reprocher aux méthodes d’accès au contenu de considérer le texte comme une succession de syntagmes nominaux complexes. C’est mieux que les « sacs de mots » des moteurs de recherche mais est-ce suffisant? » (p.223) A. Nazarenko pose bien la question mais à mon sens n’y répond pas entièrement: Prégnance d’une logique d’indexation « de quoi parle un document? » = entités dont il est question dans ce document (sémantique référentielle, importance des « entités nommées », sémantique lexicale: problématique des classes sémantiques, relations lexicales/sémantiques) Ds cette optique, corpus servent à découvrir ces relations Ex. voisins de Le Monde (notion de sémantique textuelle: c’est le texte dans son intégralité qui détermine le sens des unités) Tjrs des cette optique, Segmenter un document = déterminer les frontières indiquant qu’on se met à parler d’autre chose, que le focus passe d’une entité à une autre
Vers une sémantique discursive Cf. ex. de C. Fabre : retour / revenir, début de / commencer suj, hausse de/augmenter obj reprise de/relancer obj En discours: M_______________________________________________________________. _________… sont revenus au bercail. _____________________________Ce retour inespéré… ________________________________ Le retour de Zidane M_______________________________________ est revenu_______________________________________________ transition avec sem préc: structures virtuelles émergeant des relations immédiates, pas de prise en compte de la linéarité du texte. Par exemple, lien entre retour/revenir est un lien hors-texte; en revanche le fait que "Son retour" en posiiton sujet apparaisse à la suite, dans le texte, d'un énoncé construit autour du prédicat "revenir", c'est textuel, phénomène anaphorique. Besoin de rétablir la linéarité Mais aussi de tenir compte de structuration hiérarchique (titre/ss-tires) Objets : des fonctions qui ont un rôle dans la constitution de segments discursifs, et sont marquées à la surface chaînes de références (expressions et segments référentiels) titrage: titres et segments titrés encadrement du discours: introducteurs de cadres et segments cadratifs NB modes de structuration interagissent entre eux
Objets au niveau discours Fonctions qui ont un rôle dans la constitution de segments discursifs, et sont marquées à la surface des textes : chaînes de référence (expressions et segments référentiels) titrage: titres et segments titrés encadrement du discours: introducteurs de cadres et segments cadratifs relations de discours et les segments résultants …
Prise en compte du niveau discursif dans des applications Navigation intra-documentaire aide à l’exploitation du résumé auto (Boguraev et al, 1998) aide à l’exploitation de documents longs (Bilhaut et al, 2003; Couto & Minel, 2004) Prise en compte de la structure du discours à différents niveaux de grain Un contexte d’expérimentation: Géosem sémantique discursive, applications "niveau document", géosem, un mode de structuration pertinent: les cadres temporels (pertinent aussi pour QR) ,
Geosem et LinguaStream Un objectif applicatif final: l’accès au contenu de documents géographique (composites) par le biais de critères spatiaux et temporels Un objectif de recherche « en route »: plateforme d’expérimentation et mise en place d’instruments intégrés pour l’analyse des structures discursives : Linguastream exploiter les procédures de TAL éprouvées pour les niveaux de grains inférieurs (notion d’enrichissement incrémental des vues sur le corpus, Widlöcher & Bilhaut 2005) répondre aux besoins spécifiques pour ce niveau d’analyse en termes d’annotation et de visualisation Cf. rapport : « Le projet GéoSem vise à développer des méthodes et des outils, linguistiques et informatiques, d’analyse de contenu de documents géographiques à la fois dans leurs composantes textuelles et imagées (en particulier cartographiques). Ces outils permettront à un lecteur-utilisateur de rechercher une information dans un document ou ensemble de documents en fonction de critères spatiaux et temporels — et éventuellement de recomposer un nouveau document à partir de plusieurs sources ainsi analysées. Les utilisateurs typiques visés sont les décideurs ayant charge d’administrer des territoires, des chargés d’étude intervenant dans l’élaboration de ces politiques, ainsi que les animateurs d’activités culturelles et éducatives ayant une composante géographique affirmée, par exemple liée à une région particulière. » Cf. Habert 2005: « Par instrument (en anglais tool), on entendra un logiciel qui prend en entrée une donnée langagière (du texte, de l’oral, un lexique. . .) et qui permet d’obtenir en sortie une représentation transformée (annotée), soit automatiquement soit semi-automatiquement soit manuellement » (vs outils, logiciels multi-usage, ex. tableur ou gestionnaire BD) annotation discursive automatique et visualisation
Encadrement du discours Expression introductrice de cadre Charolles 1997 De la fin du siècle dernier jusqu’aux années 1950, l’école primaire a été le pilier du système scolaire français. Elle inculquait les connaissances de base, lire, écrire et compter, . Elle avait aussi pour mission . Elle délivrait le certificat d’études qui, . Les sessions du certificat d’études n’ont plus lieu. Nombre d’écoles communales de campagne ont été fermées, ou vont l’être, faute d’enfants à accueillir. Et l’école primaire n’est plus que le premier degré de scolarités ayant maintenant pour objectif le collège puis le lycée. Cadre un mode de structuration pertinent: les cadres temporels (pertinent aussi pour QR)
Références: Bilhaut, F., Ho-Dac, M., Borillo, A., Charnois, T., Enjalbert, P., Le Draoulec, A., Mathet, Y., Miguet, H., Péry-Woodley, M.-P., & Sarda, L. (2003). Indexation discursive pour la navigation intradocumentaire: cadres temporels et spatiaux dans l'information géographique. TALN'03, Batz-sur-Mer..pp 315-320. http://www.sciences.univ-nantes.fr/info/recherche/taln2003/articles/bilhaut.pdf Boguraev, B., Kennedy, C., Bellamy, R., Brawer, S., Wong, Y., Swartz ,J. (2001). Dynamic Presentation of Document content for Rapid On-Line Skimming. AAAI Spring Symposium on Intelligent Text Summarisation, Stanford, CA, March 1998 Couto, J., & Minel, J.-L. (2004, ). Interfaces dynamiques de fouilles textuelles. RIAO 2004, Avignon. pp.420-430 Habert, B. (2005). Portrait de linguiste(s) à l’instrument Nazarenko, A. (2005). Méthodes automatiques d'accès au contenu. In A. Condamines (Ed.), Sémantique et Corpus Paris: Lavoisier. (pp. 211-244). Widlöcher, A., & Bilhaut, F. (2005, ). La plate-forme Linguastream: un outil d'exploration linguistique sur corpus. TALN 2005, Dourdan, France, pp.517-522, http://taln.limsi.fr/site/talnRecital05/actes-articles.htm#tome1