La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol.

Présentations similaires


Présentation au sujet: "La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol."— Transcription de la présentation:

1 La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

2 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 2 Introduction La statistique textuelle, quest-ce que cest ? –Analyser une information présentée sous forme dun ou plusieurs textes. –Développement important, notamment avec Internet qui permet de collecter une grande quantité de textes. A quoi est ce que cela sert ? On distingue généralement 2 types dutilisations: –Lanalyse dun seul document (texte littéraire, entretien sociologique,…) –La mise en relation de plusieurs documents (analyse du traitement dun thème par la presse, exploitation denquêtes dopinions,…)

3 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 3 Lanalyse dun texte unique But: –Mieux comprendre ce texte. –Le découper en épisodes. –Déterminer ses orientations. Exemple: analyse dune œuvre littéraire ou dun discours politique. Questions-types: –Quels sont les mots employés le plus souvent ? –Le candidat utilise-t-il des verbes daction ou se positionne-t-il au passif ? –Quelle est la place de tel sujet dans son discours ?

4 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 4 Lanalyse dun corpus de textes Objectifs variés: –Synthétiser les documents dont on dispose ( (comment une entreprise est-elle perçue sur internet ?) –Les trier ( quels articles de loi traitent de la famille ?) –Analyse de discours (quels sont les thèmes abordés ? Comment sont-ils liés entre eux ? A quels groupes sociaux correspondent-ils ?) Liste non exhaustive ! Notre exemple: le traitement dune question ouverte.

5 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 5 Les logiciels De nombreux logiciels ont été créés pour répondre à la demande, notamment des entreprises, dont les données à traiter sont de plus en plus volumineuses (émergence du Datamining et de son pendant textuel, le Textmining) On peut distinguer schématiquement 2 grands types de méthodes.

6 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 6 Le premier type : Les méthodes dérivées de la statistique fréquentiste : –après une première étape de classification et dindexation des documents, on se ramène à des données numériques présentées sous forme de tables auxquelles on applique des méthodes dADD (CAH, ACP, ACM,…). –On parle danalyse multidimensionnelle. –Méthodes informatisées, même si elles nécessitent toujours une intervention plus ou moins soutenue de lutilisateur.

7 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 7 Le second type Les méthodes propres à lanalyse textuelle: –nécessitent une intervention directe et continue de lutilisateur. –reposent souvent sur des éléments plus subjectifs.

8 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 8 Présentation sommaire de quelques logiciels Le choix dun logiciel dépend de lutilisation quon veut en faire : - résumer une grande quantité dinformation disponible. - analyser un texte littéraire, un entretien…

9 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 9 Les logiciels de textmining Demandés surtout par les entreprises. Permettent de synthétiser une masse de données et de dégager les thèmes essentiels. Exemple : lapproche par la cartographie de Wordmapper (GrimmerSoft). Les prolongements : - logiciels de réponse à des requêtes. - services divers aux entreprises, exemple de la veille stratégique.

10 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 10 Wordmapper (1) Méthode des mots associés (co-ward analysis): permet de dégager des mots-clés et les liaisons quils entretiennent. Notions : - cooccurrence. - clusters. - cohérence interne et externe.

11 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 11 Wordmapper (2)

12 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 12 Prolongements (1) : réponse aux requêtes Deux phases souvent associées : - collecte de linformation (moteur de recherche). - présentation de linformation. Innovations dans la mise en forme de linformation : le Web Positioning System (WBS).

13 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 13 Mapstan et le WBS

14 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 14 Prolongements (2) : services spécifiques En particulier, aide aux entreprises dans le domaine de la veille stratégique. Exemple : Websnake (Kiss Software) permet le repérage dun mot-clé sur le site dun concurrent.

15 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 15 Logiciels pour lanalyse approfondie dun texte Large éventail de compétences : intéressent les entreprises ainsi que les chercheurs. Deux exemples de logiciels connus: Tropes (Acetic) et Alceste (IMAGE). Perspectives : - utilisation conjointe de logiciels - recherche de nouvelles possibilités, ex. : distance intertextuelle.

16 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 16 Tropes (1) Produit une analyse sémantique: - construction de classes déquivalence de mots (critères : fréquence et signification). - découpage du texte en épisodes … Avantages : - convivial. - résout lui-même les ambiguïtés syntaxiques. - possibilité de contrôle des paramètres : permet une interprétation plus sûre.

17 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 17 Tropes (2) : les univers de référence

18 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 18 Tropes (3) : découpage sémantique du texte

19 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 19 Alceste (1) Fonctionnalités multiples : - construction de classes cohérentes de mots ( « mondes lexicaux »). - analyse « tri-croisé » : croisement des classes avec des variables signalétiques (chapitre dans un livre, âge, sexe dans une analyse sociologique), etc. Avantages : globalement les mêmes que Tropes. Robustesse des résultats assurée par analyses multiples.

20 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 20 Alceste (2) : AFC

21 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 21 Perspectives Utilisation combinée de plusieurs logiciels, afin dassocier leurs compétences (exemple de lutilisation conjointe de Tropes et dAlceste : travail de Chrystel Besche et Jean-Luc Richard dans Psychologie française en 1999). Mesure de distance inter-textuelle : exemple du logiciel programmé par Cyril Labbé (cf. polémique sur la paternité des œuvres de Molière…).

22 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 22 Lanalyse de données textuelles : lexemple de SPAD SPAD 5.5 : –Possède un module danalyse textuelle (Spad-T). –Combine traitement statistique et lexicométrique. –Présent à lEnsae.

23 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 23 Nos données Enquête ESCAPAD, réalisée en mars 2001 sur lensemble du territoire lors dune JAPD. Cette enquête transversale porte sur jeunes des deux sexes de ans et permet de mesurer les niveaux de consommation pour une douzaine de substances psychoactives, mais aussi de croiser ces consommations avec une large gamme dindicateurs, notamment socio- démographiques, géographiques, scolaires et comportementaux. Le questionnaire souvre en dernière page sur un espace dexpression libre proposé par la question ouverte suivante : « Si vous avez des remarques à faire sur le questionnaire ou sur le sujet, vous pouvez le faire ci-dessous. Si vous navez pas souhaité répondre à certaines questions, pouvez-vous expliquer pourquoi ? ». Notre objectif : exploiter la question ouverte. Nous disposons donc à la fois de variables quantitatives et de cette variable textuelle. Notre but est de mettre en relation ces 2 types de variables.

24 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 24 Travailler sous SPAD

25 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 25 Les outils de statistiques textuelles

26 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 26 Limportation des données Pour pouvoir exploiter des données textuelles sous SPAD, elles doivent toujours être associées à des données numériques !!!!!!! Mais on ne peut importer en même temps des données numériques et textuelles à partir dune table SAS.

27 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 27 Limportation des données Une procédure plus complexe quil ny paraît…

28 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 28 Limportation de données textuelles Il faut importer les données textuelles dans une seconde table. Mais les données doivent être sous un format imposé: –pour chaque individu, chaque réponse est séparée de la suivante par un enregistrement contenant les caractères ++++ en colonnes 1 à 4 (séparateur de questions). –Chaque nouvel individu est introduit par un enregistrement spécial contenant les caractères ---- en colonnes 1 à 4. Son identificateur servira dindicateur de comparaison lors de la juxtaposition de la base des données textuelles et de la base des données numériques. –La fin du fichier doit être marquée par la séquence = = = =, comme présenté dans lexemple ci dessous : Legalize it Les questions sont trop personnelles RAS. ====

29 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 29

30 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 30 Limportation de données textuelles (2) La procédure Artex fournit alors la variable textuelle sous SPAD. Il suffit alors de juxtaposer les 2 tables. Mais il existe des ruses…

31 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 31 La seconde étape: construire un vocabulaire de mots approprié. Spad propose 3 types de procédures: –La procédure MOTS –La procédure SEGME –La modification interactive du vocabulaire: CORTEX

32 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 32 La procédure MOTS Obligatoire avant toute analyse textuelle Crée le « vocabulaire initial des mots » sur la variable textuelle choisie. Fournit deux tableaux principaux : –La liste des mots répétés par ordre alphabétique –La liste des mots par ordre de fréquence

33 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 33

34 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 34

35 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 35

36 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 36

37 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 37 La procédure SEGME Recherche non plus les mots, mais les « segments répétés » dans le corpus. La modification interactive du vocabulaire Corriger les mots et les segments Supprimer des mots et des segments Effectuer des regroupements

38 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 38 La troisième étape : analyser le vocabulaire de mots. La procédure CORDA La procédure CORDA recherche et édite les contextes des mots. Cette procédure est toujours effectuée à partir du « Vocabulaire initial des mots » créé par la méthode MOTS. Les phrases (contextes) éditées sont les vraies phrases du corpus. Pour chaque mot sélectionné, la procédure édite tous les contextes. On dispose de deux onglets pour choisir : –Les mots dont on souhaite les contextes. –Les paramètres de fonctionnement et dédition.

39 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 39 La procédure TALEX Construction et analyse dun tableau lexical de contingence. Par exemple, on construit un tableau avec en ligne les mots répétés du vocabulaire en cours et en colonne les classes dâges des individus. A lintersection dune ligne (les mots et segments) et dune colonne (groupe dindividus), le tableau contient la fréquence demploi du mot ou du segment répété par le groupe. Ce tableau de contingence est ensuite soumis à l'analyse des correspondances binaires.

40 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 40 La procédure VOSPEC : la construction du vocabulaire-type des classes La procédure VOSPEC recherche et édite les mots et segments répétés caractéristiques de groupes dindividus en fonction de la fréquence. On peut par exemple rechercher le vocabulaire spécifique des femmes et des hommes. La procédure travaille sur le vocabulaire en cours, quil contienne des mots seuls ou des mots et des segments répétés, quil sagisse dun vocabulaire initial ou dun vocabulaire modifié. Les mots et segments répétés sont édités par ordre de « valeurs- test » décroissantes : en tête figurent les mots et les segments répétés plus fréquemment rencontrés dans le groupe dindividus quen moyenne.

41 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 41 Un exemple: le discours des deux sexes Réalisation dune procédure Vospec sur un « vocabulaire de mots » adapté.

42 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 42

43 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 43

44 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 44 Résultat Lanalyse textuelle des réponses selon le sexe permet de faire apparaître deux types de discours. Le vocabulaire des garçons porte principalement sur les drogues alors que celui des filles se concentre sur le questionnaire. Les garçons, qui sexpriment plus souvent que les filles dans la question ouverte, sengagent sur le thème de la dépénalisation du cannabis qui les touche plus toutes choses égales par ailleurs. Les filles, qui consomment moins de cannabis que les garçons, sexpriment sur la façon dont elles ont ressenti la réponse à ce questionnaire, second thème que proposait lénoncé de la question ouverte.

45 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 45 Intérêt Permet de lier la réponse à la question ouverte aux variables quantitatives plus classiques. On observe ainsi que là où le questionnaire ne nous renseignait que sur des consommations de cannabis, la question ouverte permet de saisir le rapport de ces individus au cannabis. On a ainsi accès à leur motivation et à la façon dont ils considèrent leur pratique. Les consommations ne se différencient pas seulement par leur intensité, comme le font apparaître les questions fermées. Il y a différents rapports au cannabis.

46 La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol 46 Conclusion Intérêt de la statistique textuelle. Techniques et applications nombreuses et variées. Demande encore une grande intervention de la part de lutilisateur. Pour en savoir plus: L. Lebart, A. Salem, Statistique textuelle, Ed. Dunod


Télécharger ppt "La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol."

Présentations similaires


Annonces Google