Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC / Équipe ISLanD Le corpus comme environnement d’analyse et d’interactions pour l’utilisateur Expérimentations en recherche d’information et en linguistique informatique Projet PUN "Approche énactive pour l'interprétation de documents numériques"
Thibault ROY – Université de Caen – Laboratoire GREYC2 Plan de la présentation 1. Cadre de travail et propositions 1. Fondements et hypothèses 2. Moyens logiciels mis en œuvre 2. Expérimentations réalisées 1. Recherche et veille documentaire 2. Analyse d’expressions métaphoriques 3. Perspectives de recherche Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC3 Constat De plus en plus : De documents électroniques textuels De moyens logiciels, de ressources et de puissance de calcul utilisées Pourtant : Grande difficulté d’accès au contenu de textes Peu (pas ?) de réelle prise en compte du point de vue de l’utilisateur sur la tâche visée Peu (pas ?) d’interactions lui sont proposées Peu (pas ?) de réelle prise en considération de la dimension temporelle Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC4 Piste choisie Proposer des modèles d’analyse au niveau global Production de représentations graphiques globales du corpus et de rapports d’analyse Représentations globales du corpus supports d’interactions entre l’utilisateur et l’ensemble documentaire analysé Basées sur des représentations des domaines d’intérêt de l’utilisateur Représentation de ces domaines par des ressources lexicales personnalisées Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC5 Visées applicatives Accès au contenu de corpus et de collections de documents textuels Recherche et veille documentaire Accès amélioré au contenu de collections (e.g. consultations thématiques) Analyses linguistiques de corpus Étude d’expressions métaphoriques Analyse de l’influence de la dimension « corpus » dans la présence de certains phénomènes langagiers Finalités dépendantes de la tâche visée ! Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC6 Objets d’étude Corpus de textes (Pincemin, 1999) Articles journalistiques et scientifiques Collections de pages Web Obtenues à l’aide de moteur de recherche Flux documentaires Forums de discussion et courriers électroniques Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC7 Quels résultats ? Carte des documents en 2D Carte des groupes de documents en 2D Cartes des documents et des groupes en 3D Carte animée en 2D mettant en évidence la dimension temporelle de la collection tps : t tps : t+1 Cadre de travail et propositions Carte des documents en 2D Carte des groupes de documents en 2D Cartes des documents et des groupes en 3D Carte animée en 2D mettant en évidence la dimension temporelle de la collection tps : ttps : t+1
Thibault ROY – Université de Caen – Laboratoire GREYC8 Quelles données ? Représentation des domaines pertinents pour l’utilisateur dans le cadre de sa tâche Deux représentations : « Bags of Words » Santé : médecin, soigner, aspirine, hôpital, etc. Guerre : combattre, bombe, capituler, soldat, etc. Modèle LUCIA (Perlerin, 2004) Catégorisation lexicale plus fine Description sémique différentielle (Beust, 1998) Dans tout les cas : c’est l’utilisateur (ou le groupe d’utilisateurs) qui construit les ressources Avec son propre vocabulaire Selon les domaines de son intérêt Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC9 Quelles analyses ? Travail au niveau du co-texte : Comptage des mots de ressources lexicales Mise en évidence des isotopies intra-textuelles Représentation vectorielle de chaque texte Projection et catégorisation des vecteurs Travail au niveau de l’intertexte : Détermination des isotopies inter-textuelles Rapports d’analyse des groupes et des textes Utilisation des isotopies inter-textuelles pour positionner le groupe ou le texte par rapport à son intertexte Prise en considération de la dimension temporelle en « localisant » les analyses sur une période donnée Analyses mises en œuvre avec la plate-forme logicielle ProxiDocs… Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC10 Plate-forme ProxiDocs Cartographie et catégorisation de corpus de textes Interactive et centrée utilisateur Traitements statistiques : ACP, CHA, KMeans, etc. Java, SVG, Open-source, Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC11 Plan de la présentation 1. Cadre de travail et propositions 1. Fondements et hypothèses 2. Moyens logiciels mis en œuvre 2. Expérimentations réalisées 1. Recherche et veille documentaire 2. Analyse d’expressions métaphoriques 3. Perspectives de recherche Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC12 Différentes expérimentations Besoin d’experts et de tâches précises Mise en place d’un méta-moteur de recherche cartographique basé sur la plate-forme ProxiDocs Projet CISMeF : recherche d’information dans des documents médicaux Projet IsoMeta : étude en corpus d’expressions métaphoriques Groupe de travail sur les forums de discussion Expérimentations toutes en cours !!! Expérimentations réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC13 Méta-moteur de recherche cartographique (1 / 4) Objectifs : Avoir un regard global sur le contenu des « principales » pages Web traitant de la Constitution Européenne Contexte : 12 domaines généraux choisis (approche « bags of words ») : justice, violence, éducation, sécurité routière, agriculture, économie, informatique, etc. Taille moyenne des domaines : 40 lexies Expérience : Requête : « constitution européenne » sur Yahoo 100 pages provenant de sites francophones Cartographie avec ACP et catégorisation CHA en 8 groupes Expérimentations réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC14 Méta-moteur de recherche cartographique (2 / 4) Expérimentations réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC15 Pages Web décrivant des enseignements universitaires en économie et en sciences politiques 4 – Éducation Pages Web contenant des discussions sur la problématique du transport routier en Europe 3 – Circulation Pages Web traitant des enjeux économiques de la constitution2 – Économie Pages Web proposant des versions électroniques de la constitution ainsi que des outils informatiques de consultations 1 – Informatique Commentaires sur les pages Web contenus dans le groupe Numéro du groupe – domaine majoritaire Méta-moteur de recherche cartographique (3 / 4) Expérimentations réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC16 Méta-moteur de recherche cartographique (4 / 4) Expérimentations réalisées Cartographie utile pour : Visualiser la répartition des domaines sur l’ensemble documentaire Accéder plus facilement au contenu Première mise en évidence des isotopies inter- textuelles : Ressources utilisées : Informatique : logiciel, web, etc. logiciel : /informatique/, web : /informatique/, etc. Principales isotopies intertextuelles obtenues dans l’expérience : Informatique, Économie, etc.
Thibault ROY – Université de Caen – Laboratoire GREYC17 Projet CISMeF : RI dans des doc. médicaux (1 / 6) Expérimentations réalisées Objet d’étude : 70 ressources (≈ documents) extraites du catalogue CISMeF Indexées à l’aide de descripteurs du thésaurus MeSH (pondération majeure / mineure) Intérêt pour les « spécialités médicales » Objectif : Obtenir une vue sur la répartition des spécialités médicales dans les ressources Mettre en évidence d’emplois très localisés de certaines spécialités dans quelques ressources Mettre en évidence des spécialités très partagées entre la plupart des ressources
Thibault ROY – Université de Caen – Laboratoire GREYC18 Projet CISMeF : RI dans des doc. médicaux (2 / 6) Expérimentations réalisées Utilisation de l’outil MeSH Categorization pour obtenir un score pour chaque spécialité médicale sur l’ensemble des ressources, puis sur chaque ressource Chaque ressource est représentée par un vecteur : Vecteur_Res = (Score_Virology(Res), Score_Infectiology(Res), Score_Bactériology(Res), etc.)
Thibault ROY – Université de Caen – Laboratoire GREYC19 Projet CISMeF : RI dans des doc. médicaux (3 / 6) Expérimentations réalisées Projection de l’ensemble des vecteurs de l’« espace des spécialités » vers un espace en 2 dimensions Regroupement automatique de ressources sur la carte en 12 groupes (clusters)
Thibault ROY – Université de Caen – Laboratoire GREYC20 Groupe 1 Groupe 2 Projet CISMeF : RI dans des doc. médicaux (4 / 6) Expérimentations réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC21 Projet CISMeF : RI dans des doc. médicaux (5 / 6) Expérimentations réalisées Groupe 1 : 36 ressources Spécialités les plus présentes : infectiology, bacteriology et preventive medecine Thématiques assez variées, liées aux spécialités principales, mais sans réelle lien entre les ressources Groupe 2 : 11 ressources Spécialités majoritaires : virology, infectiology et preventive medecine Thématiques étroitement liées au domaine de la virologie (ressources traitant de virus, des vaccins, etc.) Autres groupes : Thématiques abordées étroitement liées aux spécialités majoritaires
Thibault ROY – Université de Caen – Laboratoire GREYC22 Projet CISMeF : RI dans des doc. médicaux (6 / 6) Expérimentations réalisées Bilan : Intérêt de la carte pour accéder aux contenu rapidement aux contenus des ressources Mise en évidence de spécialités « trame de fond » et de spécialités très localisées dans les ressources Perspectives : Vers une « nouvelle » indexation ? Ajout de nouvelles pondérations ?
Thibault ROY – Université de Caen – Laboratoire GREYC23 Projet IsoMeta (1 / 6) Étude simultanée de trois métaphores conceptuelles dans un corpus de 600 articles boursiers du Monde entre 1987 et 1989 : La « météorologie boursière » La « santé financière » La « guerre économique » Bourse, Économie, Finances, Politique, Etc. Météo Santé Guerre Expérimentations réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC24 Projet IsoMeta (2 / 6) Cartographie de corpus à partir des trois domaines sources : météo, santé, guerre Représentation des domaines par des dispositifs Lucia Construction des dispositifs par une étude lexicale du corpus (dispositif guerre : ~60 lexies, dispositifs météo et santé : ~110 lexies) Filtrage des documents contenant au moins 2 occurrences de lexies des domaines : 303 documents restants Expérimentations réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC25 Expérimentations réalisées Projet IsoMeta (3 / 6) Emplois non métaphoriques : « Pour se déplacer (..), des officiers de la guérilla utilisent les motos récupérées pendant les attaques. » Emplois figés : « Selon le SNUI, qui rappelle que le conflit des impôts dure depuis sept mois, (…) » Emplois figés : « En neuf mois, six firmes sur les trente-trois OPA ont été l'objet de véritables batailles boursières. » Emplois variés : « (…) après avoir contaminé New York et Londres, la fièvre des OPA s'est mise (…) à ronger la Bourse. » 08/02/1988 Emplois variés : « Porteur du terrible virus de la défiance, il se propage à la vitesse de l'éclair et les tentatives désespérées de réanimation (…) sont inopérantes. » Emplois variés : « Un petit vent frisquet a soufflé, ces derniers jours rue Vivienne, qui (…) s'est soudain éclipsé à la dernière minute pour laisser la place à une brise nettement plus chaude. » Emplois non métaphoriques Emplois métaphoriques figés Emplois métaphoriques variés
Thibault ROY – Université de Caen – Laboratoire GREYC26 Expérimentations réalisées Projet IsoMeta (4 / 6)
Thibault ROY – Université de Caen – Laboratoire GREYC27 Projet IsoMeta (5 / 6) Analyses précédentes réalisées à l’aide des différents rapports de groupes et de textes Intra et inter-isotopies mises en évidence dans les rapports de groupe Réflexions en cours sur le classement de ces isotopies : Singulariser le local (texte ou groupe) à l’aide de son global (resp. groupe ou corpus) GroupeCorpus 1. Violence – Pathologie – 92. Pathologie – 5 …… Expérimentations réalisées …… 2. Pathologie – 52. Violence – 0 (10-10) 1. Violence – 101. Pathologie – 4 (9-5) CorpusGroupe Pondération des isotopies à l’aide du global
Thibault ROY – Université de Caen – Laboratoire GREYC28 Projet IsoMeta (6 / 6) Bilan Intérêt de vues globales Mise en évidence de proximités entre articles Regroupement de textes en sous-ensembles Influence du temps Perspectives Aller plus finement vers une caractérisation des isotopies dans le cadre de l’étude des trois métaphores Expérimentations réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC29 Plan de la présentation 1. Cadre de travail et propositions 1. Fondements et hypothèses 2. Moyens logiciels mis en œuvre 2. Analyses réalisées 1. Gestion Électronique de Documents 2. Analyse d’expressions métaphoriques 3. Perspectives de recherche Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC30 Premier bilan Intérêt de prendre en considération la globalité d’un ensemble documentaire pour : des tâches d’accès au contenu de collections une étude en corpus d’expressions métaphoriques Intérêt de prendre en considération les domaines pertinents du point de vue de l’utilisateur Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC31 Réflexions théoriques Projection pertinente du global sur le local Mise en œuvre de différentes pondérations des isotopies intra et inter-textuelles selon le contexte Mise en œuvre d’une évaluation de la plate- forme ProxiDocs Protocole Échantillon représentatif d’utilisateurs Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC32 Évaluation Évaluation des ressources : Le modèle structurel des ressources est-il clair ? L'aide à la construction des ressources est-elle suffisante ? Le temps nécessaire à la construction des ressources est-il raisonnable ? Les ressources sont-elles susceptibles d'évoluer facilement ? Les ressources personnelles sont-elles a priori facilement partageables ? Aucune compétence particulière est-elle nécessaire pour la construction des ressources ? Évaluation de la plate-forme : Le but applicatif vous semble-t-il clair ? La prise en main est-elle facile ? Est-ce que l'outil donne un retour intéressant sur les ressources ? Les résultats du logiciel sont-ils facilement exploitables ? Est-ce que l'outil est agréable à utiliser ? Les traitements sont-ils adaptés à la tâche ? Est-ce que l'outils permet d'envisager d'autres applications ? L'outil permet-il plus facilement un travail à plusieurs sur la tâche ? Est-ce que l'outil peut changer la façon d'accomplir la tâche ? Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC33 Développement Besoin de nouvelles possibilités d’interactions et de visualisation : Ajout, suppression, déplacement dynamique d’un document ou d’un groupe de documents Aller plus loin dans la prise en considération de la dimension temporelle des documents (déplacements de documents selon l’axe du temps) Développer des supports d’interactions entre l’utilisateur et l’ensemble documentaire analysé Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC34 Merci de votre attention Pour plus d’information : Analyses cartographiques personnalisées de collections de documents électroniques