La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

ANALYSE de DONNEES TEXTUELLES

Présentations similaires


Présentation au sujet: "ANALYSE de DONNEES TEXTUELLES"— Transcription de la présentation:

1 ANALYSE de DONNEES TEXTUELLES
exemple repris du polycopié JPV, maîtrise SE, UPJV Fouille de textes ANALYSE de DONNEES TEXTUELLES 1

2 PLAN Statistiques textuelles Spécificités Analyse factorielle binaire
exemple repris du polycopié JPV, maîtrise SE, UPJV PLAN Statistiques textuelles Spécificités Analyse factorielle binaire Interprétation Cas 2

3 Analyse Statistique de textes
exemple repris du polycopié JPV, maîtrise SE, UPJV Analyse Statistique de textes Lors du traitement statistique des réponses à questions ouvertes, la forme des réponses, les connotations véhiculées par des termes apparemment équivalent constituent … une information très riche qui permet souvent de nuancer ou d’infléchir les contenus plus manifestes que l’on peut repérer. L.LEBART, A.SALEM 3

4 Analyse de Données Textuelles
exemple repris du polycopié JPV, maîtrise SE, UPJV Analyse de Données Textuelles Exploitation des réponses aux questions ouvertes Les entretiens peuvent être assimilés à des réponses à des questions ouvertes de longueurs variables Ils sont accompagnés d ’informations complémentaires Carte factorielle 4

5 Méthodologie Découpage ALEATOIRE du corpus
exemple repris du polycopié JPV, maîtrise SE, UPJV Méthodologie Découpage ALEATOIRE du corpus Etude de la DISTRIBUTION des mots Repérage des CONTEXTES Recherche des COOCCURRENCES Mesure des SPECIFICITES Typologie AFDT LEMMATISATION et/ou réduction du vocabulaire VALIDATION par renouvellement de la procédure sur le corpus réduit 5

6 exemple repris du polycopié JPV, maîtrise SE, UPJV
Réduction Les mots-outils comme les articles par exemple, sont en principe éliminés Les unités lemmatisées permettent de limiter le nombre de mots-clé (ramener les verbes à l ’infinitif…); une lemmatisation peut être complémentaire d ’une analyse 6

7 exemple repris du polycopié JPV, maîtrise SE, UPJV
Unité statistique Les unités statistiques sont découpées dans le texte: l’unité de base est la forme graphique L ’étude statistique porte sur les - fréquences et gamme de fréquences - spécificités - profils de fréquences des formes graphiques 7

8 Fréquences Fréquences T= 14 V= 9
exemple repris du polycopié JPV, maîtrise SE, UPJV Fréquences Fréquences T= 14 V= 9 Le texte le livre l’œuvre Le livre le titre la page le texte Fmax= 3 V1= 5 V2=3 V3 =1 Fmax ∑ Vi =V Gammes de fréquences Fmax fréquence ∑Vi x i =14=T effectif i 8

9 Index Lexicométrique Fréquences décroissantes 3 le 2 Le 2 livre
exemple repris du polycopié JPV, maîtrise SE, UPJV Lexicométrique Fréquences décroissantes 3 le Le 2 livre texte l’ 1 la oeuvre 1 page Lexicographique alphabétique Loi de ZIPF n i x rang i = C te banales banales modales modales Fréquences MODALES Fréquences MODALES 9

10 exemple repris du polycopié JPV, maîtrise SE, UPJV
Dictionnaires L’ensemble des formes et segments compose le dictionnaire du corpus Mais seuls les mots SIGNIFIANTS formeront le vocabulaire étudié -"non-dictionnaires " - dictionnaires spécifiques 10

11 exemple repris du polycopié JPV, maîtrise SE, UPJV
Mesure de spécificité Situer fij par rapport à tous les échantillons f.j f i/j = f ij /f.j Sous réserve que l’hypothèse d’indépendance entre les formes soit respectée, utilisation d’une valeur-test i.e. les parties du corpus sont parfaitement homogènes estimation de la proportion de formes i (attendu par la loi hypergéométrique) dans le corpus, comparaison avec celle de la partie 11

12 Une forme est sous-représentée dans une partie si:
exemple repris du polycopié JPV, maîtrise SE, UPJV Une forme est sous-représentée dans une partie si: Sa fréquence observée est inférieure à la valeur modale attendue et Si la probabilité d'avoir cette valeur observée est faible Une forme i sera caractéristique ou sur-représentée Si sa fréquence observée dans la partie j est supérieure à la valeur modale attendue et si la probabilité d'avoir cette valeur observée est faible

13 Mixité: La question Tu es une fille :
Si tu avais le choix, préférerais-tu être dans une classe composée uniquement de filles ? Tu es un garçon : Si tu avais le choix, préférerais-tu être dans une classe composée uniquement de garçons ? Ce caractère nous intéressait particulièrement, le seuil de spécificité a été relevé à 2. Ceci afin de mettre en évidence les formes spécifiques essentielles. LP IAE de Picardie

14 exemple repris du polycopié JPV, maîtrise SE, UPJV
Non réponse Nb. NeSaisPas OuiBienSûr PlutôtNon PlutôtOui SurtoutPas Nb arme 3 (6,42) #combat 6 (2,10) #baston 9 (2,28) rage 4 (2,52) #maltraitance 5 (2,89) 2 (8,57) #embrouille 5 (2,88) pied 4 (2,07) #faire 5 (2,44) guerre 2 (2,01) voler 4 (2,68) #vidéo 3 (3,66) tuer #conseil_de_discipline 1 (19,70) #étranglement 3 (3,45) religion 2 (3,75) 5 (2,03) CPE #attaque 3 (3,02) #respect 2 (3,48) #dispute 3 (2,29) main brutalité 2 (3,22) #cassé 2 (3,25) #vengeance 2 (7,63) sexisme 1 (16,42) discrimination 2 (2,68) #alcool 2 (2,71) #moquer 2 (6,35) catch 1 (14,07) #massacre jeu 2 (2,32) etre 2 (5,45) défoncer #poignard #drogue 2 (2,12) crier 2 (4,24) Les non-réponses sont relatives au conflit, les indécis vont dans le même sens avec plus de brutalité. Les élèves plutôt défavorables à une classe homosexuée usent d'un langage beaucoup plus posé (baston, vidéo; maltraitance, moquer). Pas de termes caractéristiques pour ceux qui sont favorables. Surtout Pas n'a pas de termes spécifiques, la modalité PlutôtNon un seul avec une des plus faibles valeurs-test; ce qui tend à dire qu'elles ne se différencient pas ou très peu du profil moyen.

15 Habitat exemple repris du polycopié JPV, maîtrise SE, UPJV Non réponse
Nb. centreVille quartier village Zup #Viole 38 (1,22) Coup 27 (1,31) #guerre 27 (1,38) Sang 45 (1,20) taper 9 (1,67) #racket 30 (1,39) #méchanceté 27 (1,21) 27 (1,24) #Baston 40 (1,23) mort 5 (3,06) Viol 21 (1,42) 22 (1,31) #battre 26 (1,41) #poing 40 (1,20) 5 (1,42) Mal 20 (1,45) 15 (1,31) faire 11 (1,46) #hôpital 16 (1,24) 4 (1,30) tuer 16 (1,69) #Injustice 12 (1,64) armes 10 (1,44) #dispute 14 (1,65) #agress 4 (1,29) #verbal 12 (1,38) 12 (1,25) #maltraitance 9 (1,38) #injure 14 (1,25) 4 (1,26) #problème 10 (1,65) pied 10 (1,48) #souffrance 8 (1,23) #physiqu 13 (1,47) #menace 3 (3,60) #Insolant 9 (2,86) peur 9 (2,52) #combat 7 (1,54) #racaille 12 (1,96) 3 (2,40) 9 (1,61) 8 (1,29) Colère 6 (1,89) #Drogue 11 (1,41) 3 (1,54) #Douleur 7 (1,44) 7 (1,43) #bêtise 5 (1,80) #colle 11 (1,35) #défendre 2 (10,41) 7 (1,20) #alcool 6 (1,77) arme 5 (1,49) gros 11 (1,25) #bande 2 (7,80) sexisme 5 (3,44) 6 (1,39) manque 4 (3,37) #conflit 10 (1,84) voler 2 (5,20) catch 5 (2,95) Télé 5 (2,22) couteau 4 (2,89) #meurtre 10 (1,28) #embrouille 2 (4,46) vol 5 (1,47) jeux 5 (1,40) #délinquance #triste 8 (1,57) Police #tape 5 (1,38) 5 (1,33) #prison 8 (1,39) 2 (3,47)

16 Analyse de Données Textuelles
exemple repris du polycopié JPV, maîtrise SE, UPJV Analyse de Données Textuelles L ’analyse repose sur trois étapes: Formes modales Formes et segments caractéristiques Analyse des correspondances tableaux lexicaux croisement variables qualitatives avec les formes et segments associations carte factorielle Est 16 Nord 15 Ouest 11 Sud 04 Lille 03 Dax 03 Lyon 01 … 16

17 Profils lexicaux ADT-AFC
exemple repris du polycopié JPV, maîtrise SE, UPJV Profils lexicaux ADT-AFC Les p mots retenus en ligne, les n modalités de la variable en colonne T1 T2 T3 T4 Est Nord Ouest L’analyse des proximités s’effectue comme en AFC 17

18 Profils ADT fij, terme général de la table fréquences
exemple repris du polycopié JPV, maîtrise SE, UPJV Profils ADT fij, terme général de la table fréquences fi., somme des éléments de la ligne i, f.j, somme des éléments de la colonne Profil ligne: p valeurs fij/fi. Profil colonne: n valeurs fij/f.j j fij T1 T2 T3 T4 Est 0,04 0,06 0,18 Nord 0,1 0,12 0,08 Ouest profils colonnes 0,2 0,26 0,36 0,18 profils lignes 0,32 0,4 0,28 18

19 ADT Distances d²(j, j’) =  (1/f i. )(f ij/f.j - f ij’/f.j’)²
exemple repris du polycopié JPV, maîtrise SE, UPJV ADT Distances Entre points colonnes du corpus d²(j, j’) =  (1/f i. )(f ij/f.j - f ij’/f.j’)² i fij T1 T2 T3 T4 profils lignes Est 0,04 0,06 0,18 0,04 0,32 Nord 0,1 0,12 0,1 0,08 0,4 Ouest 0,06 0,08 0,08 0,06 0,28 profils col 0,2 0,26 0,36 0,18 Entre termes i, i’ dans le corpus d²(i, i’) =  (1/f.j )(f ij/fi.- f i’j/fi’.)² 19

20 d²(i, i’) =  (1/f.j )(f ij/fi.- f i’j/fi’.)²
exemple repris du polycopié JPV, maîtrise SE, UPJV Distance entre deux formes : exemple d²(i, i’) =  (1/f.j )(f ij/fi.- f i’j/fi’.)²

21 Vocabulaire de collégiens sur la Violence
exemple repris du polycopié JPV, maîtrise SE, UPJV Vocabulaire de collégiens sur la Violence Plus l'habitat est résidentiel, plus le langage est réservé ; la perception de la violence est différente entre les élèves habitant un village ( violence moins vécue?) ou une ville.

22 Analyse de Données Textuelles
exemple repris du polycopié JPV, maîtrise SE, UPJV Analyse de Données Textuelles Ce type de méthodes présente l ’avantage d ’offrir une vision de l ’élaboration de l ’information par association de variables intangibles au discours. Un exemple concret: 22

23 exemple repris du polycopié JPV, maîtrise SE, UPJV
OBJECTIFS: Cerner l ’évolution des pratiques managériales dans le secteur culturel des collectivités territoriales Mettre en exergue les attentes des acteurs

24 METHODOLOGIE: Exploratoire:
exemple repris du polycopié JPV, maîtrise SE, UPJV METHODOLOGIE: Exploratoire: trente entretiens semi-directifs dans six villes différentes, population élus, salariés Exploitation qualitative: synthèse du discours avec volonté de restituer le sens donné, et analyse de données textuelles

25 RESULTATS: Préoccupations dues à la
exemple repris du polycopié JPV, maîtrise SE, UPJV RESULTATS: Préoccupations dues à la formation, nouvelles possibilités complexité administrative accrue gestion statutaire, obligation de réussite au concours Attachement à leurs fonctions et intérêt pour leur mission de service public Identification de deux groupes en fonction du rapport avec le public

26 exemple repris du polycopié JPV, maîtrise SE, UPJV
L ’analyse textuelle: Importation et formatage des entretiens afin d ’obtenir une base exploitable par le logiciel utilisé, les entretiens sont alors assimilés à des questions ouvertes Les variables: quantitative: niveau de formation qualitatives: statut avec les modalités agent, directeur opérationnel, directeur administratif, élu villes avec les modalités VI01 à VI06 textuelles: entretiens

27 exemple repris du polycopié JPV, maîtrise SE, UPJV
L ’analyse textuelle: Une analyse descriptive: calcul de fréquence des mots et segments répétés Edition d ’un tableau lexical de contingence Recherche de vocabulaire spécifique pour chaque classe (celles-ci étant définies par le statut)‏

28 L ’analyse textuelle: tableau lexical de contingence
exemple repris du polycopié JPV, maîtrise SE, UPJV L ’analyse textuelle: tableau lexical de contingence Occurrences croisées entre les modalités de la variable statut et le vocabulaire Exemples d ’associations caractéristiques des fonctions: élu-théâtre, agent- légal, DO-école, DA- culturels D ’où volonté politique de développer l ’accès à la culture, poids de la réglementation pour le personnel non cadre, préoccupation de la diffusion du savoir pour les cadres culturels, ouverture sur les problèmes de la culture pour les responsables administratifs.

29 L ’analyse textuelle: Deux analyses des correspondances:
exemple repris du polycopié JPV, maîtrise SE, UPJV L ’analyse textuelle: Deux analyses des correspondances: l ’une, pour laquelle le statut et l ’ensemble du vocabulaire constituent les variables l ’autre, où le vocabulaire a été réduit, les mots contribuant de façon la plus significative aux axes 1 à 3 et spécifiques à la GRH dans la fonction publique sont seuls retenus . binaires

30 exemple repris du polycopié JPV, maîtrise SE, UPJV
L ’analyse textuelle: L ’aspect quantitatif montre que le vocabulaire reste très territorial, parmi les fréquences les plus élevées se trouvent gens (264 occurrences), service (105), public (85), travailler (84), concours (69)… Les néologismes semblent inexistants, les termes anglo-américains sont exceptionnels! Volonté délibérée ou type d ’organisation spécifique? binaires

31 Gestion activités Tout le vocabulaire
exemple repris du polycopié JPV, maîtrise SE, UPJV activités Gestion premier axe: qualité de représentation supérieure pour le vocabulaire directement lié à la gestion des collectivités territoriales comme déléguer, charges, budgétaire, géré, habitudes, services, organisation, élections... deuxième axe: caractérisé plutôt bles activités avec des mots tels que gratuit, sport, sponsor, spectacles, ... troisième axe(n'intervient pas dans le plan présenté) serait le secteur culturel face à ses partenaires externes sous-préfectures.. Tout le vocabulaire 31

32 Le vocabulaire dans sa globalité
exemple repris du polycopié JPV, maîtrise SE, UPJV Le vocabulaire dans sa globalité sur le premier axe la qualité de la représentation est supérieure pour le vocabulaire lié à la gestion des collectivités comme: déléguer, contrôle, charges, budgétaire, géré, habitudes, services, techniques, validation, organisation, élections, etc. Le deuxième est plutôt caractérisé par les activités avec des mots tels que: gratuit, sport, sponsor, spectacles etc.

33 Le vocabulaire dans sa globalité
exemple repris du polycopié JPV, maîtrise SE, UPJV Le vocabulaire dans sa globalité Le troisième matérialise les relations entre le secteur culturel et ses partenaires externes sous-préfecture.., et l'environnement (économie, écologie..)‏ Sur le graphique, la proximité d ’un mot (modalité des variables textuelles) avec une modalité de statut traduit un usage plus fréquent dans cette sous-population de ce mot (angle aigu même quart plan)‏

34 Le vocabulaire dans sa globalité
exemple repris du polycopié JPV, maîtrise SE, UPJV Le vocabulaire dans sa globalité Les axes factoriels séparent la population en deux catégories, l'une composée des acteurs en relation directe avec le public: les élus, les agents, l'autre regroupe les directeurs opérationnels, les directeurs administratifs. En ce qui concerne la séparation horizontale, les administratifs se trouvent face aux élus

35 Prise de décision Dynamique de gestion Réduction du vocabulaire
exemple repris du polycopié JPV, maîtrise SE, UPJV Dynamique de gestion Prise de décision premier axe: qualité de représentation supérieure pour le vocabulaire directement lié à la gestion des collectivités territoriales comme déléguer, charges, budgétaire, géré, habitudes, services, organisation, élections... deuxième axe: caractérisé plutôt bles activités avec des mots tels que gratuit, sport, sponsor, spectacles, ... troisième axe(n'intervient pas dans le plan présenté) serait le secteur culturel face à ses partenaires externes sous-préfectures.. Réduction du vocabulaire 35

36 Vocabulaire restreint à la GRH
exemple repris du polycopié JPV, maîtrise SE, UPJV Vocabulaire restreint à la GRH Premier axe caractérisé par la prise de décision et sa mise en œuvre: action, direction, projets, association, fêtes, bénévolat... Deuxième axe reflète la dynamique de la gestion: gens, porteur,innovante, médiation, relation, associatif...

37 Vocabulaire restreint à la GRH
exemple repris du polycopié JPV, maîtrise SE, UPJV Vocabulaire restreint à la GRH Une séparation entre le sous-système opérationnel (agent-DO) et le sous- système de décision (élu-DA) apparaît. La modalité élu reste différenciée des salariés: Les politiques face aux administratifs.

38 Vocabulaire restreint à la GRH
exemple repris du polycopié JPV, maîtrise SE, UPJV Vocabulaire restreint à la GRH La modalité élu est très proche des mots comme gérait, pouvoirs, bénévolat, associative, fêtes, conseil, cohésion… qui traduisent la prise de décision et les relations extérieures à l ’organisation territoriale. Le vocabulaire des DO et DA soulignent l ’importance des contraintes budgétaires et légales; l ’importance des relations avec le public pour les DO, les agents

39 exemple repris du polycopié JPV, maîtrise SE, UPJV
Conclusion L ’attachement des différents acteurs à leurs missions est à souligner, tant l’aspect technique que relationnel. Le statut et la mission induisent une relative spécificité des termes et des préoccupations. Une analyse lexicale approfondie offrirait la possibilité de tester la stabilité de cette typologie afin de mieux appréhender les attentes des acteurs face aux changements. 39 39

40 exemple repris du polycopié JPV, maîtrise SE, UPJV
Filière SPAD utilisée 40

41 Analyse de Données Textuelles
exemple repris du polycopié JPV, maîtrise SE, UPJV Analyse de Données Textuelles Ce type de méthodes présente l ’avantage d ’offrir une vision de l ’élaboration de l ’information par association de variables intangibles au discours. La complexité: élaboration de variables, unités statistiques, matrice creuse, apport externe, pose le problème de stabilité de la structure engendrée, voire de validité Comparer le corpus brut au corpus lemmatisé ou réduit en fonction des objectifs Rapprocher le corpus "entretiens " des caractéristiques des individus ….. 41 41

42 Bibliographie… LEBART L., SALEM A., Statistique textuelle, Dunod, 1994
exemple repris du polycopié JPV, maîtrise SE, UPJV Bibliographie… LEBART L., SALEM A., Statistique textuelle, Dunod, 1994 LEBART L., MORIN A., Base de données et statistiques, Dunod, 2002 REINERT M., “ Approche statistique et problème du sens dans une enquête ouverte”, Journal de la Société Française de Statistique, tome 142, vol 4, 2001 Actes des JADT 2002, 2004, 2006, 2008,2010,2012 Logiciel téléchargeable gratuit: LEXICO2 42


Télécharger ppt "ANALYSE de DONNEES TEXTUELLES"

Présentations similaires


Annonces Google