Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de discussion Intérêt de « vues » globales sur des forums de discussion IUFM de Rouen – 20 juin 2005
Thibault ROY – Université de Caen 2 Plan de la présentation 1. Cadre et objectifs 2. Outils logiciels utilisés 3. Quelques expériences réalisées avec ces outils 4. Conclusion et perspectives
Thibault ROY – Université de Caen 3 Plan de la présentation 1. Cadre et objectifs 2. Outils logiciels utilisés 3. Quelques expériences réalisées avec ces outils 4. Conclusion et perspectives
Thibault ROY – Université de Caen 4 Constat de départ De plus en plus de documents électroniques textuels (pages Web, s, messages de forums, etc.) : sur le Web, sur des réseaux universitaires, d’entreprises, etc. De plus en plus d’outils proposent des accès au « contenu » d’ensembles documentaires Le principal problème : outils peu transparents et aux résultats généralistes et discutables
Thibault ROY – Université de Caen 5 Cadre d’étude L’Informatique et le Traitement Automatique des Langues L’instrumentation pour la veille documentaire : Les analyses thématiques et sémantiques d’ensembles documentaires La prise en considération du point de vue de l’utilisateur sur la tâche L’utilisation de techniques de visualisation
Thibault ROY – Université de Caen 6 Objectifs visés dans l’analyse de forums de discussion A partir de thématiques intéressant un utilisateur dans l’analyse de forums : Proposer des interfaces de « lecture rapide » personnalisées de forums Observer la répartition de ces thématiques dans les discussions Mettre en évidence de la valeur ajoutée des outils dans de telles analyses
Thibault ROY – Université de Caen 7 Plan de la présentation 1. Cadre et objectifs 2. Outils logiciels utilisés 3. Quelques expériences réalisées avec ces outils 4. Conclusion et perspectives
Thibault ROY – Université de Caen 8 Outils logiciels utilisés MemLabor : Extraction de graphies répétées dans les documents d’un corpus ThemeEditor : Coloriage thématique de documents ProxiDocs : Cartographie et catégorisation thématique de corpus
Thibault ROY – Université de Caen 9 MemLabor (Perlerin 2002) Entrée : Un ensemble de textes Traitements réalisables : Extraction de graphies répétées dans le corpus avec filtrage par un anti-dictionnaire Hypothèse fondamentale exploitée dans MemLabor : Plus une graphie est répétée dans un corpus de textes, plus elle est susceptible d’être associée à l’un des thèmes abordés dans ce corpus Sortie : Une liste des graphies répétées dans le corpus classées par ordre décroissant de fréquence d’apparition
Thibault ROY – Université de Caen 10 ThemeEditor (Beust 2002) Entrée : Un ensemble de textes Traitements réalisés : Assistance à l’utilisateur pour le regroupement de graphies et de lexies en thèmes (regroupement non exclusif) Projection de ces thèmes sur les textes de l’ensemble à l’aide de techniques de coloriage Sorties : Des classes de mots relevant de mêmes thématiques Des documents coloriés « thématiquement »
Thibault ROY – Université de Caen 11 ProxiDocs (Roy 2005) Entrées : Des classes de mots relevant de mêmes thématiques Un ensemble de textes Traitements : Projection des textes vers des espaces à 2 ou 3 dimensions selon les thématiques abordées Catégorisation thématique des textes en un nombre de groupes choisis par l’utilisateur Sorties : Des représentations graphiques (que nous appelons des cartes) en 2 ou 3 dimensions mettant en évidence la répartition des thématiques de départ dans les textes de l’ensemble étudié
Thibault ROY – Université de Caen 12 Plan de la présentation 1. Cadre et objectifs 2. Outils logiciels utilisés 3. Quelques expériences réalisées avec ces outils 4. Conclusion et perspectives
Thibault ROY – Université de Caen 13 Première expérience : analyse d’un forum de discussion Le forum de discussion utilisé : Issu de la plate-forme INES Propose à des étudiants de DEUST Technicien des Systèmes d'Information et de Communication d’échanger des messages en rapport avec leur module de programmation Constitué d’environ 200 messages échangés entre le 18/02/2003 et le 27/04/2005 par 27 intervenants différents (enseignants et étudiants)
Thibault ROY – Université de Caen 14 Premier traitement : extraction des graphies répétées dans les messages Utilisation de MemLabor Entrées : Fichier XML décrivant le forum Liste de mots grammaticaux Sorties : …
Thibault ROY – Université de Caen 15
Thibault ROY – Université de Caen 16 Deuxième traitement : regroupement des graphies en thèmes et coloriage thématique des messages du forum Utilisation de ThemeEditor Entrée : Fichier XML décrivant le forum Sorties : Des thèmes construits par l’utilisateur selon son point de vue Des thèmes construits par l’utilisateur selon son point de vue Des messages du forum coloriés…
Thibault ROY – Université de Caen 17
Thibault ROY – Université de Caen 18 Troisième et dernier traitement : cartographie thématique du forum Utilisation de ProxiDocs Entrées : Fichier XML décrivant le forum Les thèmes construits par l’utilisateur avec ThemeEditor Sorties : Des cartes thématiques construites à partir du forum et des thèmes Des cartes thématiques construites à partir du forum et des thèmes
Thibault ROY – Université de Caen 19 Seconde expérience : analyse d’une liste de diffusion La liste de diffusion étudié : Contient environ 7000 messages entre le mars 1997 et novembre 1999 Regroupe des professeurs de Sciences Économiques et Sociales du second cycle sur différents sujets L’extrait analysé : Contient environ 2000 messages échangés entre le 1 er janvier 1998 et le 31 décembre 1998 Les thèmes construits avec ThemeEditor Les cartes construites avec ProxiDocs Cartes « classiques » Cartes « dynamiques »
Thibault ROY – Université de Caen 20 Plan de la présentation 1. Cadre et objectifs 2. Outils logiciels utilisés 3. Quelques expériences réalisées avec ces outils 4. Conclusion et perspectives
Thibault ROY – Université de Caen 21 Bilan des expériences précédentes Visualisation des principales thématiques intéressant l’utilisateur abordées dans les messages des forums Limites rencontrées : Perte (partielle) des fils de discussion Outils réellement exploitables sur des forums de taille moyenne (plus d’une centaine de messages) Pas de réelle expertise a priori des forums analysés
Thibault ROY – Université de Caen 22 Perspectives Proposer des vues à différents niveaux de granularité Exploiter la dynamique thématique temporelle des forums Aller vers une représentation plus fine des thématiques prises en considération dans les analyses Réaliser une véritable évaluation des outils dans des tâches d’analyses de forums
Thibault ROY – Université de Caen 23 Merci de votre attention Pour plus d’information sur ces outils :
Thibault ROY – Université de Caen 24
Thibault ROY – Université de Caen 25 Forums de discussion Espaces de discussion sur Internet ou sur des réseaux locaux : Fonctionnant de manière asynchrone Dans lesquels chacun est libre de consulter les messages et d'y répondre Généralement articulés autour d'un sujet ou plusieurs sujets donnés Dans certains cas, modérés et animés par des membres
Thibault ROY – Université de Caen 26 Listes de diffusion Forums de discussion d’un type particulier : Un abonnement à la liste est nécessaire Les messages circulent par s Chaque message est envoyé à toutes les personnes dont l’adresse électronique figure dans la liste de diffusion