La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Analyse exploratoire dentrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main François Daoust Gaëlle Dobrowolski Monique Dufresne.

Présentations similaires


Présentation au sujet: "1 Analyse exploratoire dentrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main François Daoust Gaëlle Dobrowolski Monique Dufresne."— Transcription de la présentation:

1 1 Analyse exploratoire dentrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main François Daoust Gaëlle Dobrowolski Monique Dufresne Claire Gélinas-Chebat JADT 2006 – Besançon

2 2 OBJECTIFS

3 3 1 : Montrer comment on peut combiner plusieurs logiciels de lexicométrie (ALCESTE, DTM et LEXICO3) pour valider et compléter une analyse SATO.

4 4 2 : Mettre à l'épreuve des chaînes de traitement qui font appel à des passerelles de conversion développées dans le contexte du réseau ATONET.

5 5 CONTEXTE DE LA RECHERCHE : ATONET

6 6 Les trois volets dATONET méthodologie et partage de corpus formats d'échange de documents électroniques terminologie de l'analyse des données textuelles

7 7 CORPUS

8 8 Entrevues enregistrées de neuf groupes de jeunes rencontrés à Rennes en 2000 (48 jeunes Français) Corpus Gallopel

9 9 Chacun des 9 groupes comprend 5 à 6 jeunes et un intervenant : –âgés entre 15 à 25 ans –fumeurs et non fumeurs –hommes et femmes

10 10 Entrevues semi dirigées 1Discussion précédée dune période de familiarisation avec le tabagisme 2 Discussion suite à lintroduction dune brochure

11 11 ANALYSE AVEC SATO: Nature

12 12 Analyse sémantico statistique basée sur une construction itérative dune grille catégorielle

13 13 ANALYSE AVEC SATO : Démarche

14 14 Démarche (1) Comparaison de lexiques associés à des sous-textes établis selon : –sexe –fumeur / non-fumeur –avant / après message anti-tabac

15 15 Démarche (2) Indices statistiques simples : –Distance du Chi2 –Mesure d'écart à la moyenne

16 16 ANALYSE AVEC SATO : Étapes

17 17 Étapes (1) Va et vient entre les données lexicales brutes et leurs contextes dutilisation (Kwic): 1.Approche univariée : saisir la spécificité de la stratification induite par chacune des variables sociologiques 2.Approche multivariée : tenir compte de linteraction de ces variables

18 18 Étapes (2) Émergence d'une grille catégorielle sémantique : – apparence, arrêt, négation, concret, danger, dépendance, soc-je*, maladie, mort, plaisir, … – soc-ami, soc-famille, soc-gens, soc-jeune, liberté, envie, conscience, volonté, … *(Le préfixe soc- renvoie à un ensemble de catégories référant aux rapports sociaux identifiés par les jeunes.)

19 19 ANALYSES AVEC SATO : Conclusions

20 20 Conclusions (1) Construction d'une grille catégorielle transparente et respectueuse de la spécificité du contexte d'énonciation.

21 21 Conclusions (2) Démarche itérative combinant : –une approche inductive (qualitative) –une utilisation d'outils simples de statistique lexicale –une approche plus sensible à la pragmatique textuelle.

22 22 Conclusions (3) Production de données qualifiées (catégories) qui traduisent la démarche interprétative de lanalyste

23 23 VALIDATION

24 24 Validation de notre démarche et de nos résultats par divers logiciels de statistique textuelle : –ALCESTE (Reinert) –LEXICO 3 (Salem) –DTM (Lebart)

25 25 Chaîne de traitement (1) Format initial des données : balises SATO (propriétés) –identification du locuteur et des caractéristiques sociologiques –identification des sections pré ou post «brochure ».

26 26 Chaîne de traitement (2) *page=gallo02/11 *pub=brochure *locuteur=s36 *fumeur=non *sexe=h Bah, la brochure là, elle nous présente ce qui nous attend si on fume. Mais c est très… quoi, moi j ai lu ça, mais je ne sais pas je ne suis pas fumeur, donc je ne ressens peut-être pas ça de la même façon..

27 27 Chaîne de traitement (3) Passerelle en Perl pour exporter le corpus en XML-TEI Conversion de la version TEI vers les formats propriétaires ALCESTE, LEXICO et DTM

28 28 ANALYSE AVEC ALCESTE

29 29 ALCESTE (1) méthode complètement automatique qui vise à faire émerger des mondes lexicaux s'appuie sur des régularités statistiques pour faire émerger la structure du discours à partir des énoncés (Avec SATO, nous étions partis d'hypothèses structurantes du discours pour faire parler les données)

30 30 ALCESTE (2) Résultats corpus Initial* : deux classes –Classe 1 (1/3 des UCE) : surtout les interventions exprimées après l'exposition au message antitabac (Chi2=33.82). plus faiblement une présence significative des UCE des non-fumeurs *(transcription des entrevues dans leur découpage original en interventions; sont exclues les interventions des intervenants)

31 31 ALCESTE (3) –Classe 2 (2/3 des UCE) : surtout des interventions précédant la présentation du message antitabac (Chi2=33.82) aussi, mais plus faiblement, une présence significative des UCE des fumeurs (Chi2=8.81)

32 32 ALCESTE (4)

33 33 ALCESTE (5) CONCLUSIONS : –ALCESTE confirme que la variable avant/après le message antitabac représente le premier élément de structuration du corpus, ce qui constitue pour nous le résultat le plus significatif. –ALCESTE relève la présence de lopposition fumeur/non-fumeur, deuxième variable prise en compte dans l'analyse SATO.

34 34 ALCESTE (6) –ALCESTE a donc retrouvé ce que nous avions observé lors de la comparaison de lexiques construits sur la base dun découpage global du corpus. –Ce point de rencontre entre les approches ascendantes et descendantes est un outil important de validation de linterprétation.

35 35 ANALYSE AVEC LEXICO O

36 36 LEXICO (1) LEXICO : –calcule les spécificités lexicométriques de parties d'un corpus d'après un modèle probabiliste basé sur la loi hypergéométrique (cf. Lebart, Salem 1994) –rend possibles des analyses factorielles de correspondances (AFC) sur un corpus partitionné

37 37 LEXICO (2) Première approche : –Analyse du corpus Participant* : découpage du corpus selon le profil des répondants *( ensemble des interventions de chaque participant identifié par un nom résumant son profil et suffixé par a ou b pour identifier le discours du participant avant et après le message antitabac; Élimination des participants dont le profil sociologique est incomplet)

38 38 Corpus Participant : individus sur le plan des 2 premiers axes de l'AFC

39 39 Lexico (4) Deuxième approche : –calcul des spécificités reportées sur la sortie de l'analyseur DISTANCE de SATO appliqué au lexique avant et après la brochure.

40 40 Lexico (5)

41 41 Lexico (6) Conclusion : –Très large recouvrement entre les formes lexicales qui contribuent le plus à la distance et les spécificités calculées par LEXICO : parmi les mots manquants, il y a les ponctuations qui, apparemment, ne sont pas prises en compte par LEXICO, de même que les formes absentes dans le corpus Avant la mesure de spécificité de LEXICO fournit un bon complément à la DISTANCE du Chi2 par l'ajout d'un seuil statistique

42 42 ANALYSE AVEC DTM

43 43 DTM (1) DTM : –Outil dédié à lanalyse exploratoire de données numériques multivariées et de données textuelles (par exemple un sondage avec questions ouvertes et fermées) – Comptage des mots du texte brut produisant des variables représentant le nombre doccurrences du mot

44 44 DTM (2) Expérimentation # 1 : –Analyse du corpus Participant : le corpus est vu comme un ensemble de 87 individus. Le profil sociologique est enregistré comme autant de réponses catégorielles à des questions fermées : pub (nil, brochure), sexe (homme, femme) et fumeur (non, oui). Les interventions avant et après le message antitabac donnent lieu à deux questionnaires distincts. L'ensemble des interventions d'un individu pour chaque questionnaire constitue la réponse à une question ouverte unique.

45 45 Corpus Participant : variables catégorielles sur le plan des 2 premiers axes de l'AFC

46 46 DTM (4) Confirmation de l'influence du message antitabac et des variables catégorielles sur la structure du discours

47 47 DTM (5) Expérimentation # 2 : –Production d'un corpus artificiel (Participant catégorisé) par substitution des catégories aux unités lexicales catégorisées

48 48 DTM (6) –Calcul de l'AFC en croisant : les 87 participants avec 702 variables textuelles, soit les formes lexicales non catégorisées et catégorisées sémantiquement (propriété thème). Cette substitution recouvre 12,26 % des occurrences.

49 49 Corpus Participant catégorisé: variables catégorielles sur le plan des 2 premiers axes de l'AFC

50 50 DTM (8) La projection des variables sociologiques sur le plan factoriel suit le même jeu d'oppositions

51 51 DTM (9) Expérimentation # 3 : –Production d'un autre corpus artificiel (Participant réduit) par substitution des catégories à toutes les unités lexicales

52 52 DTM (10) –Calcul de l'AFC en croisant : les 87 participants avec 29 variables textuelles, soit lensemble des occurrences du corpus Initial Les 28 catégories utiles représentent un peu plus de 12% des occurrences.

53 53 Corpus Participant réduit : variables catégorielles et lexique sur le plan des 2 premiers axes de l'AFC

54 54 DTM (12) Visualisation simultanée du lexique des catégories et les modalités des questions fermées: –répartition aux quatre points cardinaux des catégories les plus excentriques : apparence, dépendance, coûts, éducation, mort et soc-ami –concentration des catégories banales (qui constituent les référents communs du discours) au centre du plan

55 55 DTM (13) Outil de validation de la construction de la grille de catégories lexicales La visualisation des catégories sémantiques dans le plan factoriel ouvre aussi de nouvelles fenêtres d'investigation pour revenir aux contextes et affiner la grille si nécessaire

56 56 CONCLUSIONS

57 57 Cette première utilisation combinée de logiciels d'analyse textuelle a été grandement facilitée par les protocoles d'échange de données réalisées par le réseau ATONET.

58 58 Il est possible de créer de multiples chaînes de traitement qui permettent de reconfigurer les données et de faire appel aux points forts de chaque logiciel.

59 59 Par la combinaison des méthodes d'analyse : –plus grande fiabilité des conclusions en fournissant des moyens de corroborer ou d'infirmer des hypothèses et des conclusions –aller au-delà des impressions et des commentaires descriptifs pour produire des représentations de discours sociaux susceptibles d'agir comme modèles

60 60 Merci de votre attention.


Télécharger ppt "1 Analyse exploratoire dentrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main François Daoust Gaëlle Dobrowolski Monique Dufresne."

Présentations similaires


Annonces Google