La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette.

Présentations similaires


Présentation au sujet: "Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette."— Transcription de la présentation:

1 Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette Rebeyrolle, (ERSS), Mustapha Mojahid et Jacques Virbel (IRIT), Brigitte Grau, Christian Jacquemin, Michèle Jardino et Jean-Philippe Merienne (LIMSI), Massih-Reza Amini et Patrick Gallinari (LIP6), Thierry Baccino et Bérénice Closson (LPEQ)

2 Introduction Quapportent ou quexigent les nouvelles interfaces daccès aux documents ? Quelles analyses (semi-)automatiques développer pour préparer ? Quels outils développer pour faciliter ? Quelles observations faire pour évaluer ?

3 Plan Linguistique: nouvelles lectures et analyse des titres Informatique: segmentation automatique Psychologie: observation des stratégies de lecture

4 Dynamisation de la lecture Analyse linguistique des titres

5 DYNAMISATION Affichage - Accès - Parcours Nouvelles technologies daffichage pour la visualisation dynamique des documents transparence, spatialisation, flou, rendu à plusieurs niveaux de détail, orientation tridimensionnelle Nouvelles possibilités de prise de connaissance (accès et parcours) rouleau, codex, hypertexte

6 ECONOMIE de la FACE VISUELLE des DOCUMENTS (1) Cinq composantes importantes : contexte technique ou économique de production, impact de valeurs culturelles, esthétiques ou expressives, genre rédactionnel, efficacité communicationnelle, contribution au sens du texte Dépendances et intrications > Analyse ciblée vers le (re)traitement à des fins de dynamisation

7 ECONOMIE de la FACE VISUELLE des DOCUMENTS (2) Présentation « inerte » / anticipation de processus dutilisations variées –lecture suivie exhaustive –lecture par sauts de niveaux –relecture –consultation rétrospective ponctuelle –« feuilleter » –« lecture en diagonale » (superlecture) –recherche ciblée inédite –… Importance des systèmes de titres

8 Analyse linguistique des titres Les titres ont un rôle triple : délimiter des segments, informer sur le contenu de ces segments, les relier. 3.4 BESOINS DES USAGERS ; PROPOSITION DE DEFINITION D' UN CAHIER DES CHARGES DE L' INFORMATION A DELIVRER BESOINS DES USAGERS L'étude devra permettre d'identifier les besoins réels des usagers en information : […] CAHIER DES CHARGES DE L' INFORMATION ROUTIERE Le titulaire devra […], proposer un cahier des charges de l' information routière […] caractérisation formelle et fonctionnelle des titres étude du lien entre titre et texte

9 Caractérisation formelle corrélation rang/forme corrélation genre discursif/forme Un ensemble de formes diversifiées SNLa géographie stratégique de lère nucléaire SVPenser la guerre totale SPPour une "mondialisation durable" Phrase La place du pétrole dans le bilan énergétique est stable CoordinationRecul de la pauvreté et inégalité internationale PonctuationDécolonisation : une déconstruction politique et militaire Après le rapport Rumsfeld, les réorganisations en cours

10 Caractérisation fonctionnelle Le titre est-il un point d'accès pertinent pour le texte ? classification formelle des types de reprises typologie fonctionnelle => analyser les fonctions des titres par rapport au contenu Observer les liens entre le titre et le texte qui précède entre le titre et te texte qui suit

11 Classification formelle des types de reprises Focalisation sur éléments formels : reprises / anaphores des titres formes des reprises localisation des reprises fonction syntaxique des reprises (sujet) typologie fonctionnelle des titres : émergence de deux pôles

12 2.2.4 BULLETIN PREVISIONNEL Ce bulletin est transmis par télécopieur au CIGT 31 du lundi au samedi vers 16h00. Il recense, pour la zone daction du CRICR du Sud-Ouest, les perturbations (travaux, manifestations,...) attendues pour le lendemain, létat prévisionnel du trafic du lendemain […] fonction : préciser le ou les référents dont la suite du texte va parler. processus interprétatif : attirer lattention du lecteur sur un ou des référents du discours particulier(s) Titres réferentiels

13 Dun point de vue technique Premièrement, linterface a été conçue pour inciter les étudiants à utiliser certains outils (même si lon savait à lavance que, en toute hypothèse, les étudiants font ce quils veulent ; ainsi, certains ont utilisé un outil externe de mail) ; [...] fonction : délimiter un cadre thématique dans lequel sinscrit ce dont on va parler : un domaine dactivité, un domaine de connaissances, un point de vue, une situation spatio-temporelle, etc., spécifiques. processus interprétatif : canaliser certaines des connaissances darrière-plan du lecteur. Titres thématiques

14 Perspectives des travaux linguistiques (1) Vers des méthodes et outils dencadrement et détagement des textes: –Diversification de types fonctionnels de titres –Objets intermédiaires entre titres et résumés (surtitres, accroches, chapeaux, etc.) –Objets intermédiaires entre corps et annexes

15 Perspectives des travaux linguistiques (2) liens titre / texte suivant, vers une typologie fonctionnelle automatique liens titre / texte précédent, effet d'annonce liens entre titres titres et autres modes de structuration (cadres de discours)

16 Segmentation thématique de textes

17 Segmentation de textes Différentes approches –Méthodes linguistiques Entités textuelles de base: mots ou groupes de mots –Méthodes statistiques Entités textuelles de base: phrases ou paragraphes –Les techniques dapprentissage pour la segmentation de textes prônent une approche supervisé. Notre approche est à base dapprentissage non- supervisé pour la segmentation thématique de textes Entités textuelles de base: paragraphes

18 Notre approche pour la segmentation Représentation des paragraphes dans lespace des concepts Regroupement des paragraphes avec lalgorithme CEM similaire à lalgorithme EM t1t1 t2t2 t3t3 t4t4 d1d1 d2d2 d3d3 MotsParagraphes t1t1 t2t2 t3t3 t4t4 Mots d1d1 d2d2 d3d3 Paragraphes "Concepts" c1c1 c2c2 c1c1 c2c2

19 Apprendre des concepts de mots Un concept: Groupement de mots formé à partir de la co-occurrence des mots dans les paragraphes Chaque mot w du vocabulaire est dabord caractérisé par un vecteur représentant le nombre doccurrence de w dans chaque paragraphe Chaque mot w est supposé être généré indépendamment par un mélange de densité de Gaussiennes hypersphériques

20 Les concepts sont trouvés en utilisant lalgorithme X-moyennes Lalgorithme est une extension de lalgorithme des K-moyennes pour lequel le nombre de clusters est trouvé au lieu dêtre fixé à lavance BIC 1 BIC 2 BIC 3, BIC 4 BIC 5, BIC 6 BIC 3 +BIC 4BIC 2 BIC 5 +BIC 6BIC 1

21 Un exemple de groupement de mots trouvé

22 Groupement des paragraphes Les paragraphes sont supposés être générés indépendamment par un mélange de densités Les paramètres du mélange sont estimés en maximisant la vraisemblance classifiante avec lalgorithme CEM. Lalgorithme K-moyennes est une instance de lalgorithme CEM dans lequel les densités sont supposées être des gaussiennes.

23 Expériences La collection 7sectors du projet Web-KB 3417 html articles, taille du vocabulaire : 16525, # de concepts trouvés: 217.

24 Evaluation Une comparaison entre notre approche (COS), lalgorithme CEM avec une représentation sac-de-mots des paragraphes (B0W) et lalgorithme de Salton et al. (c) : # de paragraphes correctement assignés à c (c) : # de paragraphes incorrectement assignés à c (c) : # de paragraphes incorrectement non-assignés à c

25 Evaluation (2)

26 Conclusions sur la segmentation thématique La segmentation thématique basée sur lextraction de paragraphes avec une méthode dapprentissage non- supervisé. Donne de bonnes performances comparée à lalgorithme de Salton et al. et un autre algorithme à base dapprentissage non-supervisé Explication à base de variables Latentes.

27 Analyse oculométrique de la lecture dynamique spatialisée

28 Objectifs de l'expérimentation Quel est limpact de la visualisation dynamique des documents –Stratégies de lecture différentes ? –Modulation dans la prise dinformation et/ou la navigation ? Analyse des parcours oculaires sur 3 types dinterfaces:

29 Interfaces (visualisation dynamique) Interface simple Interface plate Interface 3D 24 textes: –12 textes (contenu connu: psychologie) –12 textes (contenu général) Pages Contextuelles Appréhender dynamiquement les textes à plusieurs niveaux de détail

30 Textes Texte texte Texte Texte texte Texte Texte texte Texte Texte texte Texte Texte texte Les textes étaient présentés sur 3 niveaux et contenaient 9 pages Chaque page était accessible par un lien hypertextuel Niveau 1 Niveau 2 Niveau 3

31 Méthodologie Enregistrement des mouvements des yeux Mesures: Nombre moyen de pages lues Taux derreurs à un questionnaire Nombre et durées des fixations par page Analyse des scanpaths (trajectoires)

32 Résultats Pour un niveau de compréhension identique. –Le nombre moyen de pages lues: 3D < Simple < Plate [F(2,21) = 4.54 p<.025] –Les lecteurs sont capables de moduler (i.e adapter) leur prise dinformation uniquement sur lInterface 3D. Niv 1 (Titre) < Niv 3 (Contenu) Identique pour les autres Interfaces

33 Interprétation La présence de pages contextuelles sur lInterface 3D facilite lintégration des informations par: –Un repérage du paragraphe lu à lintérieur du document –Une représentation de la structure textuelle qui permet de moduler la prise dinformation (i.e, accorder plus dimportance à certaines informations nécessaires à la compréhension).

34 Conclusion - perspectives Analyse des mécanismes cognitifs de lecture augmentée sur support électronique Réalisation de nouveaux terminaux pour l'accès aux documents avec des métaphores graphiques intuitives Automatisation et raffinement des outils d'indexation et d'analyse textuelle donnant représentations multi-niveaux

35 Références autour du projet Baccino, T. (2004). La lecture électronique, Presses Universitaires de Grenoble, Coll. Sciences et Technologies de la Connaissance. (254 pages). Caillet M., Pessiot, J.-F., Amini, M.-R. & Gallinari, P. (2004). Unsupervised Learning with Term Clustering for Thematic Text Segmentation, Actes de la 7ème Conférence Internationale en Recherche dInformation Assisté par Ordinateur, RIAO. pp Jacques, M.-P., Ho-Dac, L.-M. & Rebeyrolle, J. (2004). Quelques aspects méthodologiques dune étude de la fonction discursive des titres en corpus. Actes Journée ATALA Modéliser et décrire l'organisation discursive à l'heure du document numérique, Semaine du Document Numérique, 22 juin 2004, La Rochelle. Merienne, J.-Ph. et Jacquemin, C., (2003). Large XML Document Manager and Visualizer. In Proceedings, EUROGRAPHICS 2003, Granada, Spain. Virbel J (ed.) (2002) Inscription Spatiale du Langage. Actes des Journées « Cognitique », Toulouse, IRIT, janvier 2002.


Télécharger ppt "Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette."

Présentations similaires


Annonces Google