Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC / Équipe ISLanD Le corpus comme environnement d’analyse et d’interactions pour l’utilisateur.

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

PROJET PILOTE ELEARNING EN RADIOPROTECTION MEDICALE
La recherche documentaire
Espaces numériques de travail 12 mars 2004 Une nouvelle approche sur les usages des T.I.C. Espace Numérique de Travail - Système dInformation Alain Mayeur.
EVALUATION DE LEXPERIMENTATION DU C2i niveau 2 « Métiers de la Santé » Nguyen Jean-Michel, Université Nantes 1.
Les principes généraux Les objectifs du dispositif Le b2i et les défis sur Internet Une visite concrète.
Comment choisir une solution technologique de veille sur le marché ?
(2005) De Jacques Audran : maître de conférence
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
Mise en œuvre d’une démarche et d’un outil de gestion de « connaissances métier » basés sur la collaboration. Cyril BEYLIER
Le web classeur Guide à l'usage des élèves. un support de classement et de conservation de vos informations en matière dorientation un outil permettant.
Indexation textuelle : Systèmes de recherche d’informations
Institut national du cancer Mise en place de la veille sur le cancer Lyon, 26 octobre 2005 Ingrid Aubry.
Gelly J, Suarez Valencia JS, Salaün A, Worré S, Christidis A,
Fait par votre animateur Loïc Mercier1 Pour tous renseignement écrire Tel TELECHARGER DES FICHIERS.
Laboratoire Sciences Pour l’Environnement
Gestion des risques Contrôle Interne
Altaïr Conseil Maîtriser l'information stratégique Sécurisé
Processus DE Capitalisation
LITTERATURE SCIENTIFIQUE STRATÉGIES DE RECHERCHE PMSS
L'ORIENTATION UN CHANTIER A PARTAGER
Nouveau programme de spécialité en TS
Bases de données documentaires Faculté de Médecine PCEM2.
Thibault ROY Laboratoire GREYC Université de Caen / Basse-Normandie Une plate-forme logicielle dédiée à la cartographie de corpus Journées portes ouvertes.
Recherche Documentaire et traitement de l’information
Séminaire Normes et Standards 10 octobre 2003 L'école du futur dès aujourd'hui.
Initiation aux outils de recherche bibliographique dans le cadre de la réalisation dune séquence de formation à la recherche documentaire Luc Verdebout.
Nouveaux programmes Éducation Musicale BO spécial août 2008
1 Présentation de lENT Environnement Numérique de Travail : Cest une plate- forme d'apprentissage sur internet qui sert à créer des contenus et d'activités.
Les TIC pour lenseignement et la recherche en économie et gestion Lotfi Bouzaïane Université Virtuelle de Tunis & Agence Universitaire de Francophonie.
Maîtrise des Risques en Génie Civil
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Alexandra Bujold Marie-Pier Moreau Alix Pampalon
Une approche documentaire de la diffusion sur Internet Journée WebÉducation Martin Sévigny / Irosoft / 14 mai 2009
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC / Équipe ISLanD Analyses cartographiques personnalisées de collections de documents.
Valoriser les ressources externes pour développer des compétences transversales Excel pour la réalisation des graphiques Activité CDS 38 Liège.
Travail collaboratif à partir d’un blog 24 mars 2010 Eric GUIRAUT Lycée CARRIAT – Bourg en Bresse.
Ministère de l’enseignement Supérieur et de la Recherche Scientifique
BACCALAUREAT PROFESSIONNEL
Recherche d’information
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
10 juin 2008 Journée Technologies et Enjeux de l'Apprentissage Mobile Equipe SIMBAD.
Spécialités Gestion et Finance Ressources humaines et communication
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Centralisation des sites web d’ELTA & Mise en place d’un serveur NAS
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
TEXT MINING Fouille de textes
Informatique et Sciences du Numérique
Initiation à des recherches dans le domaine de l’enseignement
Problématique de SIG/D2S2 dans les SSTA Le(s) système(s) d’information dans les SSTA Omniprésent(s) Transparent(s) pour l’utilisateur Multi-utilisateurs.
Video.
Lycées Professionnels Construction Mécanique Evolution et présentation du site académique de la Construction Mécanique
Initiation à des recherches dans le domaine de l’enseignement
UE 5 EC 1 INITIATION A LA RECHERCHE DANS LE DOMAINE DE L’ENSEIGNEMENT
But : avoir un regard réflexif sur le métier d’enseignant
Initiation a des recherches dans domaine de l’enseignement
INITIATION DES RECHERCHES DANS LE DOMAINE DES ENSEIGNEMENTS
INITIATION DES RECHERCHES DANS LE DOMAINE DES ENSEIGNEMENTS
L’information commerciale, ressource stratégique.
GFU (ABD) INTO INFO (Educate) 28 janvier 1998 De l’auto-formation... l Guides du lecteur et autres fascicules d’aide l Guides informatisés et « help »
R ETOURS SUR LE PROJET DISTIL ET PERSPECTIVES 2011 Sylvie Ranwez Gérard Dray.
Démarche d’enseignement de l’APL : analyser
Construction d’un croquis de synthèse NEW YORK, VILLE MONDIALE
Moodle Stéphanie Texier – François Golanski. Moodle Améliorations de la plateforme mise en œuvre Analyse et évaluation Conclusions 2 / 12.
Bourse Départementale d’Insertion Bilan PTI – 29 avril 2016 PTI – Sécurisation des parcours.
Intervention ReRIP – 26 mars 2008 – Mathilde Guiné Le Réseau Tela Botanica Un réseau d’acteurs au service de la botanique francophone Le projet "Outils-réseaux"
1 Le dispositif d’évaluation Présentation de XiTi Mise à disposition d’un outil d’analyse statistique : XiTi  Accessible en ligne pour le chef d’EPLE.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC / Équipe ISLanD Le corpus comme environnement d’analyse et d’interactions pour l’utilisateur Expérimentations en recherche d’information et en linguistique informatique Projet PUN "Approche énactive pour l'interprétation de documents numériques"

Thibault ROY – Université de Caen – Laboratoire GREYC2 Plan de la présentation 1. Cadre de travail et propositions 1. Fondements et hypothèses 2. Moyens logiciels mis en œuvre 2. Expérimentations réalisées 1. Recherche et veille documentaire 2. Analyse d’expressions métaphoriques 3. Perspectives de recherche Analyses cartographiques personnalisées de collections de documents électroniques

Thibault ROY – Université de Caen – Laboratoire GREYC3 Constat De plus en plus : De documents électroniques textuels De moyens logiciels, de ressources et de puissance de calcul utilisées Pourtant : Grande difficulté d’accès au contenu de textes Peu (pas ?) de réelle prise en compte du point de vue de l’utilisateur sur la tâche visée Peu (pas ?) d’interactions lui sont proposées Peu (pas ?) de réelle prise en considération de la dimension temporelle Cadre de travail et propositions

Thibault ROY – Université de Caen – Laboratoire GREYC4 Piste choisie Proposer des modèles d’analyse au niveau global Production de représentations graphiques globales du corpus et de rapports d’analyse Représentations globales du corpus  supports d’interactions entre l’utilisateur et l’ensemble documentaire analysé Basées sur des représentations des domaines d’intérêt de l’utilisateur Représentation de ces domaines par des ressources lexicales personnalisées Cadre de travail et propositions

Thibault ROY – Université de Caen – Laboratoire GREYC5 Visées applicatives Accès au contenu de corpus et de collections de documents textuels Recherche et veille documentaire  Accès amélioré au contenu de collections (e.g. consultations thématiques) Analyses linguistiques de corpus Étude d’expressions métaphoriques  Analyse de l’influence de la dimension « corpus » dans la présence de certains phénomènes langagiers Finalités dépendantes de la tâche visée ! Cadre de travail et propositions

Thibault ROY – Université de Caen – Laboratoire GREYC6 Objets d’étude Corpus de textes (Pincemin, 1999) Articles journalistiques et scientifiques Collections de pages Web Obtenues à l’aide de moteur de recherche Flux documentaires Forums de discussion et courriers électroniques Cadre de travail et propositions

Thibault ROY – Université de Caen – Laboratoire GREYC7 Quels résultats ? Carte des documents en 2D Carte des groupes de documents en 2D Cartes des documents et des groupes en 3D Carte animée en 2D mettant en évidence la dimension temporelle de la collection tps : t tps : t+1 Cadre de travail et propositions Carte des documents en 2D Carte des groupes de documents en 2D Cartes des documents et des groupes en 3D Carte animée en 2D mettant en évidence la dimension temporelle de la collection tps : ttps : t+1

Thibault ROY – Université de Caen – Laboratoire GREYC8 Quelles données ? Représentation des domaines pertinents pour l’utilisateur dans le cadre de sa tâche Deux représentations : « Bags of Words » Santé : médecin, soigner, aspirine, hôpital, etc. Guerre : combattre, bombe, capituler, soldat, etc. Modèle LUCIA (Perlerin, 2004) Catégorisation lexicale plus fine Description sémique différentielle (Beust, 1998) Dans tout les cas : c’est l’utilisateur (ou le groupe d’utilisateurs) qui construit les ressources Avec son propre vocabulaire Selon les domaines de son intérêt Cadre de travail et propositions

Thibault ROY – Université de Caen – Laboratoire GREYC9 Quelles analyses ? Travail au niveau du co-texte : Comptage des mots de ressources lexicales Mise en évidence des isotopies intra-textuelles Représentation vectorielle de chaque texte Projection et catégorisation des vecteurs Travail au niveau de l’intertexte : Détermination des isotopies inter-textuelles Rapports d’analyse des groupes et des textes Utilisation des isotopies inter-textuelles pour positionner le groupe ou le texte par rapport à son intertexte Prise en considération de la dimension temporelle en « localisant » les analyses sur une période donnée Analyses mises en œuvre avec la plate-forme logicielle ProxiDocs… Cadre de travail et propositions

Thibault ROY – Université de Caen – Laboratoire GREYC10 Plate-forme ProxiDocs Cartographie et catégorisation de corpus de textes Interactive et centrée utilisateur Traitements statistiques : ACP, CHA, KMeans, etc. Java, SVG, Open-source, Cadre de travail et propositions

Thibault ROY – Université de Caen – Laboratoire GREYC11 Plan de la présentation 1. Cadre de travail et propositions 1. Fondements et hypothèses 2. Moyens logiciels mis en œuvre 2. Expérimentations réalisées 1. Recherche et veille documentaire 2. Analyse d’expressions métaphoriques 3. Perspectives de recherche Analyses cartographiques personnalisées de collections de documents électroniques

Thibault ROY – Université de Caen – Laboratoire GREYC12 Différentes expérimentations Besoin d’experts et de tâches précises Mise en place d’un méta-moteur de recherche cartographique basé sur la plate-forme ProxiDocs Projet CISMeF : recherche d’information dans des documents médicaux Projet IsoMeta : étude en corpus d’expressions métaphoriques Groupe de travail sur les forums de discussion  Expérimentations toutes en cours !!! Expérimentations réalisées

Thibault ROY – Université de Caen – Laboratoire GREYC13 Méta-moteur de recherche cartographique (1 / 4) Objectifs : Avoir un regard global sur le contenu des « principales » pages Web traitant de la Constitution Européenne Contexte : 12 domaines généraux choisis (approche « bags of words ») : justice, violence, éducation, sécurité routière, agriculture, économie, informatique, etc. Taille moyenne des domaines : 40 lexies Expérience : Requête : « constitution européenne » sur Yahoo 100 pages provenant de sites francophones Cartographie avec ACP et catégorisation CHA en 8 groupes Expérimentations réalisées

Thibault ROY – Université de Caen – Laboratoire GREYC14 Méta-moteur de recherche cartographique (2 / 4) Expérimentations réalisées

Thibault ROY – Université de Caen – Laboratoire GREYC15 Pages Web décrivant des enseignements universitaires en économie et en sciences politiques 4 – Éducation Pages Web contenant des discussions sur la problématique du transport routier en Europe 3 – Circulation Pages Web traitant des enjeux économiques de la constitution2 – Économie Pages Web proposant des versions électroniques de la constitution ainsi que des outils informatiques de consultations 1 – Informatique Commentaires sur les pages Web contenus dans le groupe Numéro du groupe – domaine majoritaire Méta-moteur de recherche cartographique (3 / 4) Expérimentations réalisées

Thibault ROY – Université de Caen – Laboratoire GREYC16 Méta-moteur de recherche cartographique (4 / 4) Expérimentations réalisées Cartographie utile pour : Visualiser la répartition des domaines sur l’ensemble documentaire Accéder plus facilement au contenu Première mise en évidence des isotopies inter- textuelles : Ressources utilisées : Informatique : logiciel, web, etc.  logiciel : /informatique/, web : /informatique/, etc. Principales isotopies intertextuelles obtenues dans l’expérience : Informatique, Économie, etc.

Thibault ROY – Université de Caen – Laboratoire GREYC17 Projet CISMeF : RI dans des doc. médicaux (1 / 6) Expérimentations réalisées Objet d’étude : 70 ressources (≈ documents) extraites du catalogue CISMeF Indexées à l’aide de descripteurs du thésaurus MeSH (pondération majeure / mineure) Intérêt pour les « spécialités médicales » Objectif : Obtenir une vue sur la répartition des spécialités médicales dans les ressources Mettre en évidence d’emplois très localisés de certaines spécialités dans quelques ressources Mettre en évidence des spécialités très partagées entre la plupart des ressources

Thibault ROY – Université de Caen – Laboratoire GREYC18 Projet CISMeF : RI dans des doc. médicaux (2 / 6) Expérimentations réalisées Utilisation de l’outil MeSH Categorization pour obtenir un score pour chaque spécialité médicale sur l’ensemble des ressources, puis sur chaque ressource Chaque ressource est représentée par un vecteur : Vecteur_Res = (Score_Virology(Res), Score_Infectiology(Res), Score_Bactériology(Res), etc.)

Thibault ROY – Université de Caen – Laboratoire GREYC19 Projet CISMeF : RI dans des doc. médicaux (3 / 6) Expérimentations réalisées Projection de l’ensemble des vecteurs de l’« espace des spécialités » vers un espace en 2 dimensions Regroupement automatique de ressources sur la carte en 12 groupes (clusters)

Thibault ROY – Université de Caen – Laboratoire GREYC20 Groupe 1 Groupe 2 Projet CISMeF : RI dans des doc. médicaux (4 / 6) Expérimentations réalisées

Thibault ROY – Université de Caen – Laboratoire GREYC21 Projet CISMeF : RI dans des doc. médicaux (5 / 6) Expérimentations réalisées Groupe 1 : 36 ressources Spécialités les plus présentes : infectiology, bacteriology et preventive medecine Thématiques assez variées, liées aux spécialités principales, mais sans réelle lien entre les ressources Groupe 2 : 11 ressources Spécialités majoritaires : virology, infectiology et preventive medecine Thématiques étroitement liées au domaine de la virologie (ressources traitant de virus, des vaccins, etc.) Autres groupes : Thématiques abordées étroitement liées aux spécialités majoritaires

Thibault ROY – Université de Caen – Laboratoire GREYC22 Projet CISMeF : RI dans des doc. médicaux (6 / 6) Expérimentations réalisées Bilan : Intérêt de la carte pour accéder aux contenu rapidement aux contenus des ressources Mise en évidence de spécialités « trame de fond » et de spécialités très localisées dans les ressources Perspectives : Vers une « nouvelle » indexation ? Ajout de nouvelles pondérations ?

Thibault ROY – Université de Caen – Laboratoire GREYC23 Projet IsoMeta (1 / 6) Étude simultanée de trois métaphores conceptuelles dans un corpus de 600 articles boursiers du Monde entre 1987 et 1989 : La « météorologie boursière » La « santé financière » La « guerre économique » Bourse, Économie, Finances, Politique, Etc. Météo Santé Guerre Expérimentations réalisées

Thibault ROY – Université de Caen – Laboratoire GREYC24 Projet IsoMeta (2 / 6) Cartographie de corpus à partir des trois domaines sources : météo, santé, guerre Représentation des domaines par des dispositifs Lucia Construction des dispositifs par une étude lexicale du corpus (dispositif guerre : ~60 lexies, dispositifs météo et santé : ~110 lexies) Filtrage des documents contenant au moins 2 occurrences de lexies des domaines : 303 documents restants Expérimentations réalisées

Thibault ROY – Université de Caen – Laboratoire GREYC25 Expérimentations réalisées Projet IsoMeta (3 / 6) Emplois non métaphoriques : « Pour se déplacer (..), des officiers de la guérilla utilisent les motos récupérées pendant les attaques. » Emplois figés : « Selon le SNUI, qui rappelle que le conflit des impôts dure depuis sept mois, (…) » Emplois figés : « En neuf mois, six firmes sur les trente-trois OPA ont été l'objet de véritables batailles boursières. » Emplois variés : « (…) après avoir contaminé New York et Londres, la fièvre des OPA s'est mise (…) à ronger la Bourse. » 08/02/1988 Emplois variés : « Porteur du terrible virus de la défiance, il se propage à la vitesse de l'éclair et les tentatives désespérées de réanimation (…) sont inopérantes. » Emplois variés : « Un petit vent frisquet a soufflé, ces derniers jours rue Vivienne, qui (…) s'est soudain éclipsé à la dernière minute pour laisser la place à une brise nettement plus chaude. » Emplois non métaphoriques Emplois métaphoriques figés Emplois métaphoriques variés

Thibault ROY – Université de Caen – Laboratoire GREYC26 Expérimentations réalisées Projet IsoMeta (4 / 6)

Thibault ROY – Université de Caen – Laboratoire GREYC27 Projet IsoMeta (5 / 6) Analyses précédentes réalisées à l’aide des différents rapports de groupes et de textes Intra et inter-isotopies mises en évidence dans les rapports de groupe Réflexions en cours sur le classement de ces isotopies : Singulariser le local (texte ou groupe) à l’aide de son global (resp. groupe ou corpus) GroupeCorpus 1. Violence – Pathologie – 92. Pathologie – 5 …… Expérimentations réalisées …… 2. Pathologie – 52. Violence – 0 (10-10) 1. Violence – 101. Pathologie – 4 (9-5) CorpusGroupe Pondération des isotopies à l’aide du global

Thibault ROY – Université de Caen – Laboratoire GREYC28 Projet IsoMeta (6 / 6) Bilan Intérêt de vues globales Mise en évidence de proximités entre articles Regroupement de textes en sous-ensembles Influence du temps Perspectives Aller plus finement vers une caractérisation des isotopies dans le cadre de l’étude des trois métaphores Expérimentations réalisées

Thibault ROY – Université de Caen – Laboratoire GREYC29 Plan de la présentation 1. Cadre de travail et propositions 1. Fondements et hypothèses 2. Moyens logiciels mis en œuvre 2. Analyses réalisées 1. Gestion Électronique de Documents 2. Analyse d’expressions métaphoriques 3. Perspectives de recherche Analyses cartographiques personnalisées de collections de documents électroniques

Thibault ROY – Université de Caen – Laboratoire GREYC30 Premier bilan Intérêt de prendre en considération la globalité d’un ensemble documentaire pour : des tâches d’accès au contenu de collections une étude en corpus d’expressions métaphoriques Intérêt de prendre en considération les domaines pertinents du point de vue de l’utilisateur Perspectives de recherche

Thibault ROY – Université de Caen – Laboratoire GREYC31 Réflexions théoriques Projection pertinente du global sur le local Mise en œuvre de différentes pondérations des isotopies intra et inter-textuelles selon le contexte Mise en œuvre d’une évaluation de la plate- forme ProxiDocs Protocole Échantillon représentatif d’utilisateurs Perspectives de recherche

Thibault ROY – Université de Caen – Laboratoire GREYC32 Évaluation Évaluation des ressources : Le modèle structurel des ressources est-il clair ? L'aide à la construction des ressources est-elle suffisante ? Le temps nécessaire à la construction des ressources est-il raisonnable ? Les ressources sont-elles susceptibles d'évoluer facilement ? Les ressources personnelles sont-elles a priori facilement partageables ? Aucune compétence particulière est-elle nécessaire pour la construction des ressources ? Évaluation de la plate-forme : Le but applicatif vous semble-t-il clair ? La prise en main est-elle facile ? Est-ce que l'outil donne un retour intéressant sur les ressources ? Les résultats du logiciel sont-ils facilement exploitables ? Est-ce que l'outil est agréable à utiliser ? Les traitements sont-ils adaptés à la tâche ? Est-ce que l'outils permet d'envisager d'autres applications ? L'outil permet-il plus facilement un travail à plusieurs sur la tâche ? Est-ce que l'outil peut changer la façon d'accomplir la tâche ? Perspectives de recherche

Thibault ROY – Université de Caen – Laboratoire GREYC33 Développement Besoin de nouvelles possibilités d’interactions et de visualisation : Ajout, suppression, déplacement dynamique d’un document ou d’un groupe de documents Aller plus loin dans la prise en considération de la dimension temporelle des documents (déplacements de documents selon l’axe du temps) Développer des supports d’interactions entre l’utilisateur et l’ensemble documentaire analysé Perspectives de recherche

Thibault ROY – Université de Caen – Laboratoire GREYC34 Merci de votre attention Pour plus d’information : Analyses cartographiques personnalisées de collections de documents électroniques