IRaMuTeQ : Fondements et applications

Slides:



Advertisements
Présentations similaires
Cours 7 : reprise Taux de chômage : formule : autre nom jamais utilisé : la % de chômeurs dans la population active seule information à retenir du bloc.
Advertisements

Du chapitre 1 au chapitre 2 1. Les graphiques : introduction (p.19)  Pour prendre possession des données o des chiffres dans un tableau, c’est bien o.
Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.
Pour comprendre comment la créativité et l’innovation sont les moteurs de l’évolution technologique La commande par la pensée ? La commande par le mouvement.
Règles de nommages Eric Bleuzet Philippe Terme.
Le programme du cycle III Collèges Faverney, Jussey et Scey-sur-Saône Écoles du secteur 09 mars 2016.
Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.
La question sur corpus.
Cycle élémentaire Année scolaire: Classe : CM2 Discipline: Français Éducatrice: Maya Madi.
Refonte du portail eaufrance Présentation du cadre de référence pour avis GCIB – 14/10/2014 – Anne Macaire.
Cycle élémentaire Année scolaire Classe de 6 e Discipline : Français Professeur : Andressa Bitar.
2 Outils de l’analyse textuelle « CORENLP » Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université d’Ibn Khaldoun – Tiaret faculté.
Analyse lexicométrique de l’autodéfinition du rap - Corentin Roquebert
Démarche évolutive institutionnelle
Politique linguistique pour le plurilinguisme
Chapitre 4: Variation dans le temps
Travail en ateliers Le projet de cycle

Première étape : Étude préalable
Initiation à des recherches dans le domaine de l’enseignement
corpus spéciale et spécialisée
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
Apprendre des mots au cycle 2 Quelle progression ?
ANALYSE FONCTIONNELLE GLOBALE DU PRODUIT
Plan la séance 10 L’analyse des données qualitatives
Les hélices des protéines transmembranaires
3 MOIS DE FORMATION 1 MOIS DE STAGE EN ENTREPRISE prÉsentation …
Le logiciel HYPERBASE-LATIN :
Institut Universitaire Virtuel de Formation des Maîtres
Regroupement contextuel de cimes dans les images aéroportées
Informations vous concernant :
Pourquoi étudier la statistique ?
Formation sur les bases de données relationnelles.
ACP Analyse en Composantes Principales
Integrated Business intelligence
Diagrammes UML 420-KE2-LG.
Chapitre 3 : Caractéristiques de tendance centrale
Thèmes de convergence 10/11/2018.
Résultats PISA 2006 Quelques éléments
Production neuve résidentielle de villes moyennes et stratégies de promoteurs : Les cas de Niort et La Rochelle CLEMENT Maxime Directeur de recherche:
Espaces de coworking en Région Centre-Val de Loire : Diversité des usages et lien à l’urbanisme Les pratiques spatiales et urbanistiques des personnes.
Activité “Fil rouge” MOOC Blockchain
4°) Intervalle de fluctuation :
CHAPITRE 10 Temps et évolution chimique Cinétique et catalyse
Cité scolaire Gambetta
Le Diplôme National du Brevet
Atelier de préparation à l’examen de langue française
De Scratch à Python : une transition douce… COMMUNICATION
03- Evaluation Access 2003 Cette évaluation comporte des QCM (1 seule réponse) et des Zones à déterminer dans des copies d’écran.
Analyse des pratiques spatiales dans le secteur rural
Utiliser les expressions régulières
Explorer le monde Se repérer dans le temps et dans l'espace
Un enseignement complexe
Langues vivantes Programme d’enseignement de spécialité - 1re
Fiche de lecture Éléments de cadrage
Langues vivantes Programme d’enseignement de spécialité - 1re
Chapitre 8 : Organisation et gestion de données
Réforme du lycée Objectif général :
Langues vivantes Programme d’enseignement de spécialité - 1re
Tableaux croisés dynamiques sous Excel: des outils simples pour une analyse rapide de jeux de données en cytométrie Camille SANTA MARIA Ingénieur d’étude.
L’analyse de la valeur des projets informatiques
Design, innovation et créativité
Présentation des nouveaux programmes de mathématiques de première des séries technologiques Jessica Parsis.
Sigle optionnel en français FBD
Principales stratégies de compréhension en lecture
Sigle optionnel en français FBD
Variables statistiques discrètes
Projet de fin d’études – Semestre 10
spécialité mathématiques Première
Transcription de la présentation:

IRaMuTeQ : Fondements et applications

Plan de la présentation Présentation du programme Modes d’utilisations Applications en recherche Conclusion Remerciements Ressources

Présentation du programme IRaMuTeQ: Logiciel d’analyse de textes et de tableaux de données S’appuie sur le moteur statistique R et sur le langage de programmation Python Interface qui permet une analyse multidimensionnelle de corpus textuels et matrices de données

Outils statistiques Lorsqu’un corpus textuel est soumis au programme IRaMuTeQ, celui-ci propose différents outils d’analyse: Mise en forme du texte Analyse statistique textuelle Spécificité et analyse factorielle des correspondances (AFC) Méthode de classification Reinert Analyse de similitude Nuage de mots

Exemple à travers les explications Analyse d’entrevues semi-dirigées de francophones d’Ottawa, de Moncton, de Sudbury et de Winnipeg Discours concernant l’accès au service de santé mentale chez les personnes ayant vécu ou vivant présentement un épisode dépressif important

Mise en forme du texte Nettoyage Lemmatisation Clé d’analyse Passer le corpus en minuscule Retirer les caractères hors liste (ex: %?&$-!) Remplacer les apostrophes et tirets par des espaces Lemmatisation Met tout les verbes à l’infinitif (pour faciliter le regroupement statistique) Met les noms au singulier Met les adjectifs au masculin singulier Clé d’analyse L’interface propose de définir certaines clés d’analyse plutôt que l’analyse complexe de l’ensemble des catégories grammaticales Ex: distinguer des formes actives (noms, verbes) des formes supplémentaires (préposition, conjonction, déterminant)

Analyse statistique Propose des statistiques simples sur les corpus textuels Effectifs de toutes les formes Effectifs des formes actives supplémentaires Liste des hapax Nombre UCI: nombre de textes que contient le corpus Nombre d’occurrence: nombre de mots du corpus Nombre de formes dans le corpus Hapax: attestation isolée, expression contextuelle non analysable par le logiciel Forme: mot catégorisé par son usage (actif ou supplémentaire)

Représentation de l’analyse statistique

Spécificité et analyse factorielle des correspondances Lors de la mise en forme du corpus, identification de certaines variables (ex: sexe, langue, ville du participant) Suivant cela, une analyse factorielle des correspondances représentée par un tableau de contingences est possible Croisement des formes actives (ex: noms récurrents) et des variables (ex: langue) Choix de deux calculs: Chi2 ou hypergéométrique pour conduire l’analyse

Représentation graphique de l’AFC

AFC avec les formes supplémentaires

Méthode de classification de Reinert Classification hiérarchique descendante selon 3 modalités Classification simple sur texte: textes intégraux, regroupement des textes les plus proches Classification simple sur segments: classification portée sur les segments de textes Classification double sur des regroupements de segments de texte: classification menée sur deux tableaux dans lesquels les lignes constituent des regroupements de segments de texte Analyse en deux parties: Analyse statistique textuelle Dendrogramme

Représentation de l’analyse statistique selon Reinert

Représentation du dendrogramme

Particularité Lien important entre la classification de Reinert et l’AFC Les catégories et les couleurs sont les mêmes pour chaque représentation Il revient au chercheur de comprendre la signification de chaque catégorie (thématique récurrente) suivant l’analyse des formes (ex: toit, maison, escalier, design – pourrait signifier une thématique architecturale)

Représentation du lien entre l’AFC et la méthode de Reinert

Analyse des similitudes Analyse structurelle du corpus Matrice de similitude calculée à partir de l’un des indices proposées (cooccurrence par défaut) Propose une représentation des liens entre les mots et la fréquence de ces liens Disposition aléatoire des mots afin de construire le graphique

Représentation de l’analyse des similitudes

Autre exemple de l’analyse des similitudes Les catégories ne sont pas immédiatement identifiées. Option d’organiser le graphique en illustrant les communautés de manière similaire à l’AFC Source: http://www.iramuteq.org/documentation

Nuage de mots Représentation générale par nuage de mots des formes actives du corpus Taille des mots à même le graphique est déterminée par la fréquence d’occurrence Formatage facile à travers le programme (ex: formes choisies, hauteur et largeur, format de l’image, couleur de fond)

Représentation du nuage de mots

Autre représentation du nuage de mots Source: http://edutechwiki.unige.ch/fr/IRaMuTeQ

Applications en recherche Recherche narrative Méta analyse de la littérature Analyse discursive Soutien quantitatif aux analyses NVivo En bref… à tout niveau où il y a un texte à déconstruire!

Conclusion Intérêt pour une exploration linguistique fine Pratiquement tout peut être reprogrammé ou spécifié par les options du logiciel Lexique peut être modifié, modalités et formatage peuvent être variés Contextuellement pauvre prend en compte les mots, fréquences d’occurrences, les structures et cooccurrences mais ne peut offrir une interprétation contextuellement riche Limité par les hapax, expression, les sous-entendus, les multiples manières d’exprimer une même idée Limite linguistique Ne peut pas émettre de comparaison directe entre des corpus de différentes langues Valide une interprétation qualitative du contexte ne devrait pas être pris seul pour faire une étude d’intentions

Remerciements Dr. Lilian Negura: pour m’avoir initié au programme et pour son soutien continu en préparation à cette présentation Martina Latini: étudiante d’échange de l’Italie m’ayant enseigné l’usage du programme avec patience et cordialité

Ressources Le site d’IRaMuTeQ: http://www.iramuteq.org/documentation Explications vulgarisées: http://edutechwiki.unige.ch/fr/IRaMuTeQ Exemple d’interprétation avec le logiciel: http://sciences-croisees.com/N13/Salone.pdf