Télécharger la présentation
1
IRaMuTeQ : Fondements et applications
2
Plan de la présentation
Présentation du programme Modes d’utilisations Applications en recherche Conclusion Remerciements Ressources
3
Présentation du programme
IRaMuTeQ: Logiciel d’analyse de textes et de tableaux de données S’appuie sur le moteur statistique R et sur le langage de programmation Python Interface qui permet une analyse multidimensionnelle de corpus textuels et matrices de données
4
Outils statistiques Lorsqu’un corpus textuel est soumis au programme IRaMuTeQ, celui-ci propose différents outils d’analyse: Mise en forme du texte Analyse statistique textuelle Spécificité et analyse factorielle des correspondances (AFC) Méthode de classification Reinert Analyse de similitude Nuage de mots
5
Exemple à travers les explications
Analyse d’entrevues semi-dirigées de francophones d’Ottawa, de Moncton, de Sudbury et de Winnipeg Discours concernant l’accès au service de santé mentale chez les personnes ayant vécu ou vivant présentement un épisode dépressif important
6
Mise en forme du texte Nettoyage Lemmatisation Clé d’analyse
Passer le corpus en minuscule Retirer les caractères hors liste (ex: %?&$-!) Remplacer les apostrophes et tirets par des espaces Lemmatisation Met tout les verbes à l’infinitif (pour faciliter le regroupement statistique) Met les noms au singulier Met les adjectifs au masculin singulier Clé d’analyse L’interface propose de définir certaines clés d’analyse plutôt que l’analyse complexe de l’ensemble des catégories grammaticales Ex: distinguer des formes actives (noms, verbes) des formes supplémentaires (préposition, conjonction, déterminant)
7
Analyse statistique Propose des statistiques simples sur les corpus textuels Effectifs de toutes les formes Effectifs des formes actives supplémentaires Liste des hapax Nombre UCI: nombre de textes que contient le corpus Nombre d’occurrence: nombre de mots du corpus Nombre de formes dans le corpus Hapax: attestation isolée, expression contextuelle non analysable par le logiciel Forme: mot catégorisé par son usage (actif ou supplémentaire)
8
Représentation de l’analyse statistique
9
Spécificité et analyse factorielle des correspondances
Lors de la mise en forme du corpus, identification de certaines variables (ex: sexe, langue, ville du participant) Suivant cela, une analyse factorielle des correspondances représentée par un tableau de contingences est possible Croisement des formes actives (ex: noms récurrents) et des variables (ex: langue) Choix de deux calculs: Chi2 ou hypergéométrique pour conduire l’analyse
10
Représentation graphique de l’AFC
11
AFC avec les formes supplémentaires
12
Méthode de classification de Reinert
Classification hiérarchique descendante selon 3 modalités Classification simple sur texte: textes intégraux, regroupement des textes les plus proches Classification simple sur segments: classification portée sur les segments de textes Classification double sur des regroupements de segments de texte: classification menée sur deux tableaux dans lesquels les lignes constituent des regroupements de segments de texte Analyse en deux parties: Analyse statistique textuelle Dendrogramme
13
Représentation de l’analyse statistique selon Reinert
14
Représentation du dendrogramme
15
Particularité Lien important entre la classification de Reinert et l’AFC Les catégories et les couleurs sont les mêmes pour chaque représentation Il revient au chercheur de comprendre la signification de chaque catégorie (thématique récurrente) suivant l’analyse des formes (ex: toit, maison, escalier, design – pourrait signifier une thématique architecturale)
16
Représentation du lien entre l’AFC et la méthode de Reinert
17
Analyse des similitudes
Analyse structurelle du corpus Matrice de similitude calculée à partir de l’un des indices proposées (cooccurrence par défaut) Propose une représentation des liens entre les mots et la fréquence de ces liens Disposition aléatoire des mots afin de construire le graphique
18
Représentation de l’analyse des similitudes
19
Autre exemple de l’analyse des similitudes
Les catégories ne sont pas immédiatement identifiées. Option d’organiser le graphique en illustrant les communautés de manière similaire à l’AFC Source:
20
Nuage de mots Représentation générale par nuage de mots des formes actives du corpus Taille des mots à même le graphique est déterminée par la fréquence d’occurrence Formatage facile à travers le programme (ex: formes choisies, hauteur et largeur, format de l’image, couleur de fond)
21
Représentation du nuage de mots
22
Autre représentation du nuage de mots
Source:
23
Applications en recherche
Recherche narrative Méta analyse de la littérature Analyse discursive Soutien quantitatif aux analyses NVivo En bref… à tout niveau où il y a un texte à déconstruire!
24
Conclusion Intérêt pour une exploration linguistique fine
Pratiquement tout peut être reprogrammé ou spécifié par les options du logiciel Lexique peut être modifié, modalités et formatage peuvent être variés Contextuellement pauvre prend en compte les mots, fréquences d’occurrences, les structures et cooccurrences mais ne peut offrir une interprétation contextuellement riche Limité par les hapax, expression, les sous-entendus, les multiples manières d’exprimer une même idée Limite linguistique Ne peut pas émettre de comparaison directe entre des corpus de différentes langues Valide une interprétation qualitative du contexte ne devrait pas être pris seul pour faire une étude d’intentions
25
Remerciements Dr. Lilian Negura: pour m’avoir initié au programme et pour son soutien continu en préparation à cette présentation Martina Latini: étudiante d’échange de l’Italie m’ayant enseigné l’usage du programme avec patience et cordialité
26
Ressources Le site d’IRaMuTeQ: http://www.iramuteq.org/documentation
Explications vulgarisées: Exemple d’interprétation avec le logiciel:
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.