Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC / Équipe ISLanD Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC2 Plan de la présentation 1. Cadre de travail et propositions 1. Fondements et hypothèses 2. Moyens logiciels mis en œuvre 2. Analyses réalisées 1. Gestion Électronique de Documents 2. Analyse d’expressions métaphoriques 3. Perspectives de recherche Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC3 Constat De plus en plus : De documents électroniques textuels De moyens logiciels, de ressources et de puissance de calcul utilisées Pourtant : Grande difficulté d’accès au contenu de textes Peu (pas ?) de réelle prise en compte du point de vue de l’utilisateur sur la tâche visée Peu (pas ?) d’interactions lui sont proposées Peu (pas ?) de réelle prise en considération de la dimension temporelle Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC4 Travail de thèse Prendre en compte la globalité d’ensembles documentaires Dans le cadre d’analyses automatiques de contenu Centrées sur l’utilisateur ou le groupe d’utilisateurs Interactives et légères Synchroniques et diachroniques La globalité d’un ensemble documentaire… Le regroupement de documents par des utilisateurs au sein de collections ou de corpus implique le partage de certaines propriétés Nécessité d’une véritable analyse au niveau de la collection Et non d’une somme d’analyses indépendantes au niveau du document Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC5 Piste choisie Proposer des modèles d’analyse au niveau global Production de représentations graphiques globales du corpus et de rapports d’analyse Représentations globales du corpus supports d’interactions entre l’utilisateur et l’ensemble documentaire analysé Basées sur des représentations des domaines d’intérêt de l’utilisateur Représentation de ces domaines par des ressources lexicales personnalisées Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC6 Visées applicatives Accès au contenu de corpus et de collections de documents textuels Gestion Électronique de Documents Accès amélioré au contenu de collections (e.g. consultations thématiques) Analyses linguistiques de corpus Étude d’expressions métaphoriques Analyse de l’influence de la dimension « corpus » dans la présence de certains phénomènes langagiers Finalités dépendantes de la tâche visée ! Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC7 Hypothèses et principes adoptés Hypothèse 1 : L’interprétation d’un texte dépend de l’individu Hypothèse 2 : Double détermination du sens local global global local Principe d’architextualité (Rastier, 2001) : « Tout texte placé dans un corpus en reçoit des déterminations sémantiques, et modifie potentiellement le sens de chacun des textes qui le composent. » Principe de contextualisation (Rastier, 1994) : Nécessité de faire intervenir les trois notions suivantes afin de donner du sens à un énoncé : Co-texte / Contexte extralinguistique / Intertexte Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC8 Notions d’isotopies intra- et inter-textuelles Sémantique Componentielle : Décrire des significations en contexte à l'aide de sèmes Exemple : « Le facteur m'a donné une lettre » "facteur" /poste/, /courrier/, … "lettre" /alphabet/, /courrier/, … Isotopie intra-textuelle (Rastier, 1987) : Récurrence d'un même sème dans un texte Exemple : Isotopie (intra-textuelle) : /courrier/ Isotopie inter-textuelle (Thlivitis, 1998) : Récurrence d'un même sème dans un corpus Cadre de travail et propositions Texte 1 : « (…) Le facteur m'a donné une lettre (…) » Texte 2 : « (…) Ta lettre est arrivée hier soir (…) » Isotopie inter-textuelle : /courier/
Thibault ROY – Université de Caen – Laboratoire GREYC9 Propositions Quelles données ? Modélisation du contexte : ressources lexicales sémiques Modélisation de l’intertexte : ensembles de textes Quelles analyses ? Analyser les collections / corpus et les documents à l’aide des isotopies intra et inter-textuelles Quels résultats ? Différentes vues cartographiques globales et temporelles sur la collection, interactives, permettant de changer de niveau granularité, … Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC10 Quels résultats ? Cartes de collections de documents Construites à partir des domaines de l’utilisateur Permettant d’observer des proximités entre : documents groupes de documents Interactions Navigation sur les cartes Visualisation interactive d’informations sur les cartes Passage interactif d’un niveau de granularité à un autre collection complète groupe … document document groupe … collection complète Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC11 Quels résultats ? Carte des documents en 2D Carte des groupes de documents en 2D Cartes des documents et des groupes en 3D Carte animée en 2D mettant en évidence la dimension temporelle de la collection tps : t tps : t+1 Cadre de travail et propositions Carte des documents en 2D Carte des groupes de documents en 2D Cartes des documents et des groupes en 3D Carte animée en 2D mettant en évidence la dimension temporelle de la collection tps : ttps : t+1
Thibault ROY – Université de Caen – Laboratoire GREYC12 Quelles données ?Modélisation du contexte Représentation des domaines pertinents pour l’utilisateur dans le cadre de sa tâche Deux représentations : « Bags of Words » Santé : médecin, soigner, aspirine, hôpital, etc. Guerre : combattre, bombe, capituler, soldat, etc. Modèle LUCIA (Perlerin, 2004) Catégorisation lexicale plus fine Description sémique différentielle (Beust, 1998) Dans tout les cas : c’est l’utilisateur (ou le groupe d’utilisateurs) qui construit les ressources Avec son propre vocabulaire Selon les domaines de son intérêt Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC13 Exemple de table dans le domaine de la santé Modèle différentiel du sème (Beust, 98) Attribut : « Type de pathologie » Valeurs d’attribut opposées : Maladie, infection vs. Conséquence d’infection vs. Trouble psychologique vs. Trouble physique Cadre de travail et propositions Modèle Lucia
Thibault ROY – Université de Caen – Laboratoire GREYC14 Quelles données ?Modélisation de l’intertexte Corpus de textes (Pincemin, 1999) Articles journalistiques et scientifiques Collections de pages Web Obtenues à l’aide de moteur de recherche Flux documentaires Forums de discussion et courriers électroniques Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC15 Quelles analyses ? Travail au niveau du co-texte : Comptage des mots de ressources lexicales Mise en évidence des isotopies intra-textuelles Représentation vectorielle de chaque texte Projection et catégorisation des vecteurs Travail au niveau de l’intertexte : Détermination des isotopies inter-textuelles Rapports d’analyse des groupes et des textes Utilisation des isotopies inter-textuelles pour positionner le groupe ou le texte par rapport à son intertexte Prise en considération de la dimension temporelle en « localisant » les analyses sur une période donnée Analyses mises en œuvre avec la plate-forme logicielle ProxiDocs… Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC16 Plate-forme ProxiDocs (1 / 2) Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC17 Plate-forme ProxiDocs (2 / 2) Cartographie et catégorisation de corpus de textes Interactive et centrée utilisateur Traitements statistiques : ACP, CHA, KMeans, etc. Java, SVG, Open-source, Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC18 Entrées de la plate-forme ProxiDocs Ensembles de documents électroniques textuels (format texte, HTML) Ressources lexicales (format XML) de 2 types : Simple : 1 ensemble de mots 1 domaine Avancé : 1 dispositif Lucia 1 domaine Aides logicielles à la constitution des ressources : MemLabor (Perlerin, 2002) ThemeEditor (Beust, 2002) LuciaBuilder (Perlerin, 2004) Etc. Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC19 Plan de la présentation 1. Cadre de travail et propositions 1. Fondements et hypothèses 2. Moyens logiciels mis en œuvre 2. Analyses réalisées 1. Gestion Électronique de Documents 2. Analyse d’expressions métaphoriques 3. Perspectives de recherche Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC20 Différentes expérimentations Besoin d’experts et de tâches précises Mise en place d’un méta-moteur de recherche cartographique basé sur la plate-forme ProxiDocs Projet IsoMeta : étude en corpus d’expressions métaphoriques Projet CISMeF : recherche d’informations dans des documents médicaux Groupe de travail sur les forums de discussion Expérimentations toutes en cours !!! Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC21 Méta-moteur de recherche cartographique (1 / 4) Objectifs : Avoir un regard global sur le contenu des « principales » pages Web traitant de la Constitution Européenne Contexte : 12 domaines généraux choisis (approche « bags of words ») : justice, violence, éducation, sécurité routière, agriculture, économie, informatique, etc. Taille moyenne des domaines : 40 lexies Expérience : Requête : « constitution européenne » sur Yahoo 100 pages provenant de sites francophones Cartographie avec ACP et catégorisation CHA en 8 groupes Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC22 Méta-moteur de recherche cartographique (2 / 4) Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC23 Pages Web décrivant des enseignements universitaires en économie et en sciences politiques 4 – Éducation Pages Web contenant des discussions sur la problématique du transport routier en Europe 3 – Circulation Pages Web traitant des enjeux économiques de la constitution2 – Économie Pages Web proposant des versions électroniques de la constitution ainsi que des outils informatiques de consultations 1 – Informatique Commentaires sur les pages Web contenus dans le groupe Numéro du groupe – domaine majoritaire Méta-moteur de recherche cartographique (3 / 4) Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC24 Méta-moteur de recherche cartographique (4 / 4) Analyses réalisées Cartographie utile pour : Visualiser la répartition des domaines sur l’ensemble documentaire Accéder plus facilement au contenu Première mise en évidence des isotopies inter- textuelles : Ressources utilisées : Informatique : logiciel, web, etc. logiciel : /informatique/, web : /informatique/, etc. Principales isotopies intertextuelles obtenues dans l’expérience : Informatique, Économie, etc. Utilisation du lien : local global, mais pas vraiment du lien global local…
Thibault ROY – Université de Caen – Laboratoire GREYC25 Projet IsoMeta (1 / 6) Étude simultanée de trois métaphores conceptuelles dans un corpus de 600 articles boursiers du Monde entre 1987 et 1989 : La « météorologie boursière » La « santé financière » La « guerre économique » Bourse, Économie, Finances, Politique, Etc. Météo Santé Guerre Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC26 Projet IsoMeta (2 / 6) Cartographie de corpus à partir des trois domaines sources : météo, santé, guerre Représentation des domaines par des dispositifs Lucia Construction des dispositifs par une étude lexicale du corpus (dispositif guerre : ~60 lexies, dispositifs météo et santé : ~110 lexies) Filtrage des documents contenant au moins 2 occurrences de lexies des domaines : 303 documents restants Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC27 Analyses réalisées Projet IsoMeta (3 / 6) Emplois non métaphoriques : « Pour se déplacer (..), des officiers de la guérilla utilisent les motos récupérées pendant les attaques. » Emplois figés : « Selon le SNUI, qui rappelle que le conflit des impôts dure depuis sept mois, (…) » Emplois figés : « En neuf mois, six firmes sur les trente-trois OPA ont été l'objet de véritables batailles boursières. » Emplois variés : « (…) après avoir contaminé New York et Londres, la fièvre des OPA s'est mise (…) à ronger la Bourse. » 08/02/1988 Emplois variés : « Porteur du terrible virus de la défiance, il se propage à la vitesse de l'éclair et les tentatives désespérées de réanimation (…) sont inopérantes. » Emplois variés : « Un petit vent frisquet a soufflé, ces derniers jours rue Vivienne, qui (…) s'est soudain éclipsé à la dernière minute pour laisser la place à une brise nettement plus chaude. » Emplois non métaphoriques Emplois métaphoriques figés Emplois métaphoriques variés
Thibault ROY – Université de Caen – Laboratoire GREYC28 Analyses réalisées Projet IsoMeta (4 / 6)
Thibault ROY – Université de Caen – Laboratoire GREYC29 Projet IsoMeta (5 / 6) Analyses précédentes réalisées à l’aide des différents rapports de groupes et de textes Intra et inter-isotopies mises en évidence dans les rapports de groupe Réflexions en cours sur le classement de ces isotopies : Singulariser le local (texte ou groupe) à l’aide de son global (resp. groupe ou corpus) GroupeCorpus 1. Violence – Pathologie – 92. Pathologie – 5 …… Analyses réalisées …… 2. Pathologie – 52. Violence – 0 (10-10) 1. Violence – 101. Pathologie – 4 (9-5) CorpusGroupe Pondération des isotopies à l’aide du global
Thibault ROY – Université de Caen – Laboratoire GREYC30 Projet IsoMeta (6 / 6) Bilan Intérêt de vues globales Mise en évidence de proximités entre articles Regroupement de textes en sous-ensembles Influence du temps Perspectives Aller plus finement vers une caractérisation des isotopies dans le cadre de l’étude des trois métaphores Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC31 Plan de la présentation 1. Cadre de travail et propositions 1. Fondements et hypothèses 2. Moyens logiciels mis en œuvre 2. Analyses réalisées 1. Gestion Électronique de Documents 2. Analyse d’expressions métaphoriques 3. Perspectives de recherche Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC32 Premier bilan Intérêt de prendre en considération la globalité d’un ensemble documentaire pour : des tâches d’accès au contenu de collections une étude en corpus d’expressions métaphoriques Intérêt de prendre en considération les domaines pertinents du point de vue de l’utilisateur Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC33 Réflexions théoriques Projection pertinente du global sur le local Mise en œuvre de différentes pondérations des isotopies intra et inter-textuelles selon le contexte Mise en œuvre d’une évaluation de la plate- forme ProxiDocs Protocole Échantillon représentatif d’utilisateurs Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC34 Évaluation Évaluation des ressources : Le modèle structurel des ressources est-il clair ? L'aide à la construction des ressources est-elle suffisante ? Le temps nécessaire à la construction des ressources est-il raisonnable ? Les ressources sont-elles susceptibles d'évoluer facilement ? Les ressources personnelles sont-elles a priori facilement partageables ? Aucune compétence particulière est-elle nécessaire pour la construction des ressources ? Évaluation de la plate-forme : Le but applicatif vous semble-t-il clair ? La prise en main est-elle facile ? Est-ce que l'outil donne un retour intéressant sur les ressources ? Les résultats du logiciel sont-ils facilement exploitables ? Est-ce que l'outil est agréable à utiliser ? Les traitements sont-ils adaptés à la tâche ? Est-ce que l'outils permet d'envisager d'autres applications ? L'outil permet-il plus facilement un travail à plusieurs sur la tâche ? Est-ce que l'outil peut changer la façon d'accomplir la tâche ? Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC35 Développement Besoin de nouvelles possibilités d’interactions et de visualisation : Ajout, suppression, déplacement dynamique d’un document ou d’un groupe de documents Aller plus loin dans la prise en considération de la dimension temporelle des documents (déplacements de documents selon l’axe du temps) Développer des supports d’interactions entre l’utilisateur et l’ensemble documentaire analysé Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC36 Merci de votre attention Pour plus d’information : Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC37
Thibault ROY – Université de Caen – Laboratoire GREYC38
Thibault ROY – Université de Caen – Laboratoire GREYC39 Métaphores conceptuelles « Météo Boursière » « Une véritable tempête de hausses, alimentée par une marée de capitaux, étrangers pour partie, en quête de placement. » Le Monde 03/08/87 « L'excédent de mars n'aura été qu'une embellie, et le sombre tableau brossé par le premier ministre, (…) » Le Monde 06/06/88 « Rafraîchie durant les quinze derniers jours, la température est très largement remontée cette semaine rue Vivienne, avant de redescendre un peu à la veille du week-end. » Le Monde 28/11/88
Thibault ROY – Université de Caen – Laboratoire GREYC40 Métaphores conceptuelles «Guerre Économique» « (…) après avoir opposé une assez vive résistance à la baisse avec des replis limités à 1,47% lundi, (…), elle s'est progressivement mise en devoir de regagner le terrain perdu » Le Monde 06/04/87 « Le dénouement dans la bataille autour de la première banque commerciale privée du pays a eu peu d'effet sur les cours. » Le Monde 27/02/89 « La firme du groupe de la Caisse des dépôts développements pourrait dans les jours prochains lancer une contre-offensive. » Le Monde 11/07/88
Thibault ROY – Université de Caen – Laboratoire GREYC41 Métaphores conceptuelles « Santé Financière » « Le syndrome du 15 août ? Comme tous les ans la Bourse de Paris n'a pas échappé à cet indéfinissable malaise (…) » Le Monde 17/08/87 « Une bonne partie du malaise ressenti sous la verrière était due à l'état de santé déplorable du marché obligataire, (…) » Le Monde 17/08/87 « La pente fut longue à remonter, et il fallut bien douze mois pour panser les plaies du sinistre et à commencer à croire à de nouveaux records d'altitude pour le CAC. » Le Monde 01/08/89
Thibault ROY – Université de Caen – Laboratoire GREYC42
Thibault ROY – Université de Caen – Laboratoire GREYC43 La GED Domaine dynamique, ancré dans une certaine tradition logico grammaticale Accent mis aujourd’hui sur les techniques de visualisation et les interactions Les principales limites : Indexation et consultation des collections très souvent à l’aide de termes termes-clés Visualisations complexes et traitements peu « transparents » Et surtout, peu de prise en compte des utilisateurs et du contexte global
Thibault ROY – Université de Caen – Laboratoire GREYC44 Quelques outils de GED Lecture rapide d’ensembles documentaires Recherche d’information sur le Web Veille documentaire
Thibault ROY – Université de Caen – Laboratoire GREYC45 Cone Tree (Robertson et al., 1991)
Thibault ROY – Université de Caen – Laboratoire GREYC46 3D XV (Jacquemin et Jardino, 2002)
Thibault ROY – Université de Caen – Laboratoire GREYC47 Lexica (Société Le Sphinx)
Thibault ROY – Université de Caen – Laboratoire GREYC48 Quelques outils de GED Lecture rapide d’ensembles documentaires Recherche d’information sur le Web Veille documentaire
Thibault ROY – Université de Caen – Laboratoire GREYC49 Google (
Thibault ROY – Université de Caen – Laboratoire GREYC50 KartOO (Chung et al., 2001)
Thibault ROY – Université de Caen – Laboratoire GREYC51 Le Nébuloscope (Veronis,
Thibault ROY – Université de Caen – Laboratoire GREYC52 Quelques outils de GED GED en général Recherche d’information sur le Web Veille documentaire
Thibault ROY – Université de Caen – Laboratoire GREYC53 Yahoo! News (
Thibault ROY – Université de Caen – Laboratoire GREYC54 NewsMap (
Thibault ROY – Université de Caen – Laboratoire GREYC55 Big Picture (
Thibault ROY – Université de Caen – Laboratoire GREYC56 Méta-moteur de recherche : interface Configuration de la collecte
Thibault ROY – Université de Caen – Laboratoire GREYC57 Méta-moteur de recherche : fonctionnement Parcours en parallèle des pages
Thibault ROY – Université de Caen – Laboratoire GREYC58 Pour chaque document du corpus, déterminer le nombre de mots de chaque domaine qu’il contient. Document 1 : « Le ministère des finances a désigné la liste des banques conseils du gouvernement pour le retour au secteur privé de la BIMP et de la banque du BTP. » Première étape : Comptage des mots ………Document n … … 232Document 1 PolitiqueEconomieTravail Matrice absolue :
Thibault ROY – Université de Caen – Laboratoire GREYC59 Deuxième étape : Projection TravailEconomiePolitique Doc 1232 Doc 2103 … Doc n Doc n … Doc 2 1.5Doc 1 OrdonnéeAbscisse Coordonnées des documents dans l’espace à 2-dimensions
Thibault ROY – Université de Caen – Laboratoire GREYC60 Deuxième étape : Projection ProxiDocs nous permet de comparer plusieurs méthodes : L’analyse en composantes principales (ACP) ; La méthode de Sammon ; L’analyse factorielle des correspondances (AFC) ; Et d’autres méthodes que nous avons conçues en se basant sur des principes simples.
Thibault ROY – Université de Caen – Laboratoire GREYC61 Troisième étape : Catégorisation Doc n … Doc 2 1.5Doc 1 OrdonnéeAbscisse Application de la Catégorisation Hiérarchique Ascendante Le nombre de groupes de documents à construire choisi par l’utilisateur ou déterminer automatiquement
Thibault ROY – Université de Caen – Laboratoire GREYC62 Quatrième étape : Construction de la carte Doc n … Doc 2 1.5Doc 1 OrdonnéeAbscisse Fichiers SVG contenant les cartes
Thibault ROY – Université de Caen – Laboratoire GREYC63 1 dispositif 1 ensemble de tables liées entre elles Cadre de travail et propositions Modèle Lucia