La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Eléments de statistique et de visualisations pour lanalyse textuelle Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus.

Présentations similaires


Présentation au sujet: "Eléments de statistique et de visualisations pour lanalyse textuelle Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus."— Transcription de la présentation:

1 Eléments de statistique et de visualisations pour lanalyse textuelle Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

2 1.Généralités

3 La statistique a pour objet de caractériser des ensembles (« populations ») en regroupant les individus qui les constituent selon les attributs ou propriétés quils ont ou non en commun. Posséder un même attribut, pour N individus, cest relever dune même classe. Pour le démographe statisticien, le genre sexuel est une classe (de même la CSP, la tranche dâge…). Pour léconomiste statisticien, le chiffre daffaire des entreprises, le PNB des états, le revenu dun ménage détermine (par seuils) des classes statistiques.

4 Que la propriété soit qualitative (sexe, CSP, lieu dimplantation) ou quantitative (taille, âge, PNB), elle doit le plus souvent être discrétisée pour donner prise à la statistique. Ainsi : Le lieu nest pas un point GPS, mais une commune, un département, un état… La taille est arrondie au centimètre, ou de 5 en 5 cm… Lâge est arrondi au mois, à lan, de 5 en 5, de 10 en 10, ou par tranches inégales… *** Le genre sexuel est une donnée binaire, non discrétisable. ***

5 Exemple dun « mot » dans un « texte » : « chanté » propriétés qualitatives : séquence des lettres c-h-a-n-t-é entièrement en bas de casse forme verbale forme fléchie du verbe chanter participe passé sa fonte et son corps 4 ème mot du premier vers…

6 Exemple dun « mot » dans un « texte » : « chanté » propriétés quantitatives : comporte 6 lettres Comporte 4 phonèmes, 2 syllabes Comporte 4 consonnes graphiques Comporte 2 consonnes phonétiques Comporte 2 voyelles graphiques…

7 Exemple dun « mot » dans un « texte » : « chanté » « autres » propriétés qualitatives : « champ sémantique » de la musique « domaine » du show-business ? métaphore !

8 Un « texte », au sens restreint dénoncé écrit, est formé dunités successives délimitées conventionnellement (lettres, mots, phrases, paragraphes, chapitres…) Si lon considère ces unités, ou segments, comme les individus dune population, comportant des attributs susceptibles de les associer à des classes, dès lors le texte est un objet statistique.

9 La statistique a pour intérêt de permettre la connaissance synthétique dobjets complexes, très complexes, voire infiniment complexes. Un ensemble discursif et ses matérialités textuelles (corpus) deviennent rapidement aussi complexes que la population ou léconomie dun état ou du monde. Quelques applications statistiques relativement simples permettent de prendre connaissance de structures et de contrastes grossiers et simplifiés, mais surplombants, étayés et reproductibles, afin de les confronter à une expérience empirique subtile et diverse, mais « au ras du sol », labile et contradictoire.

10 APPLICATION : Un corpus de 692 articles de presse « vernaculaire » constitué dans le cadre dune enquête commanditée par la Préfecture de Région Franche-Comté Après une segmentation conventionnelle, on dénombre 336 246 « individus », « segments » ou « mots » (à lexception des ponctuations). On désigne cette « population » par la lettre N. Si lon prend en compte le caractère qualitatif : Chaîne de caractères indépendamment de la casse, et de toute mise en forme de caractères, on détermine 23 264 « classes », dont les plus fréquentes sont : (On désigne ce nombre de classes par la lettre V.)

11 de18231 a1972 la11204 sur1906 l'8511 il1886 et8336 nous1860 le7488 pas1765 les7329 ce1623 à6757 plus1605 des6719 ne1339 d'5515 avec1276 en5017 aux1252 du4066 europe1200 pour3577 se1166 une3480 s'1159 un3419 qu'1151 que2752 sont1124 est2728 n'1080 dans2665 cette967 qui2550 ont929 au2164 européenne890 par2083 c'est886 Et parmi lesquelles une majorité (13 919) nont quune occurrence (« hapax »).

12 de182315,4219% a19720,5865% la112043,3321% sur19060,5668% l'85112,5312% il18860,5609% et83362,4791% nous18600,5532% le74882,2269% pas17650,5249% les73292,1797% ce16230,4827% à67572,0095% plus16050,4773% des67191,9982% ne13390,3982% d'55151,6402% avec12760,3795% en50171,4921% aux12520,3723% du40661,2092% europe12000,3569% pour35771,0638% se11660,3468% une34801,0350% s'11590,3447% un34191,0168% qu'11510,3423% que27520,8184% sont11240,3343% est27280,8113% n'10800,3212% dans26650,7926% cette9670,2876% qui25500,7584% ont9290,2763% au21640,6436% européenne8900,2647% par20830,6195% c'est8860,2635% Si lon rapporte le nombre doccurrences (effectif) de chaque classe à N (336 246), on établit sa fréquence.

13 Il est plus aisé de comparer des fréquences que des effectifs. 2 ème APPLICATION : Un corpus de 252 numéros du mensuel Le Monde diplomatique de 1980 à 2000. Après une segmentation suivant les mêmes normes que pour le corpus « SGAR », et sur la base du même caractère qualitatif : N = 17 662 550 V = 182 190

14 NB : on peut déjà comparer les « rangs »… de955371 de18231 la579160 la11204 l'466407 l'8511 les408350 et8336 et392779 le7488 le385327 les7329 des357728 à6757 à343633 des6719 d'297294 d'5515 en267353 en5017 du220847 du4066 un190264 pour3577 une186261 une3480 dans155703 un3419 que153648 que2752 qui141006 est2728 est130662 dans2665 par122728 qui2550 pour119622 au2164 a114916 par2083 Monde diplomatique SGAR

15 La comparaison la plus immédiatement « parlante » est celle des fréquences. de9553715,41% de182315,42% la5791603,28% la112043,33% l'4664072,64% l'85112,53% les4083502,31% et83362,48% et3927792,22% le74882,23% le3853272,18% les73292,18% des3577282,03% à67572,01% à3436331,95% des67192,00% d'2972941,68% d'55151,64% en2673531,51% en50171,49% du2208471,25% du40661,21% un1902641,08% pour35771,06% une1862611,05% une34801,03% dans1557030,88% un34191,02% que1536480,87% que27520,82% qui1410060,80% est27280,81% est1306620,74% dans26650,79% par1227280,69% qui25500,76% pour1196220,68% au21640,64% a1149160,65% par20830,62%

16 Monde diplomatique SGAR La comparaison la plus immédiatement « parlante » est celle des fréquences. de9553715,41% de182315,42% la5791603,28% la112043,33% l'4664072,64% l'85112,53% les4083502,31% et83362,48% et3927792,22% le74882,23% le3853272,18% les73292,18% des3577282,03% à67572,01% à3436331,95% des67192,00% d'2972941,68% d'55151,64% en2673531,51% en50171,49% du2208471,25% du40661,21% un1902641,08% pour35771,06% une1862611,05% une34801,03% dans1557030,88% un34191,02% que1536480,87% que27520,82% qui1410060,80% est27280,81% est1306620,74% dans26650,79% par1227280,69% qui25500,76% pour1196220,68% au21640,64% a1149160,65% par20830,62%

17 RAPPORT DE V ET DE N. Souvent défini comme indice de « richesse » lexicale (parfois mieux dit : « variété » Comparaison difficile. Laccroissement de V (lemploi de formes non encore utilisées) diminue au fur et à mesure du développement du texte (et donc, de laccroissement de N). Le rapport nest en aucun cas proportionnel. De nombreuses formules dindices ont été proposée, sans quaucune parvienne à maîtriser les grandes variations de V. On en est réduit à recenser des échantillons du corpus le plus étendu.

18 RAPPORT DE V ET DE N. En loccurrence, si lon prend plusieurs tranches de 335 000 mots extraites du Monde diplomatique, on obtient un résultat « V » toujours supérieur au V de SGAR. Exemples : SGARN = 336 246V = 23 264 Mondiplo1N = 332 214V = 25 982 (1980) Mondiplo2N = 334 135V = 25 188(1986) Mondiplo3N = 334 064V = 27 977(1998) Mais Le Vicomte de Bragelonne, de Dumas père : N = 690 111V = 25 417 !

19 RAPPORT DE V ET DE N. Quelles conclusions (ne pas) en tirer ? Certains linguistes ont considéré quil sagissait dun indice détendue du lexique sous-jacent. Le terme de « richesse » va dans le sens dun jugement de valeur et a minima dun jugement stylistique. En réalité, le rapport de V à N renvoie à plusieurs facteurs que seules des analyses plus poussées peuvent espérer discriminer.

20 LOI DE ZIPF Liée aux théories de linformation (Shannon, Mandelbrot), cest une loi statistique applicable aux dépouillements lexique-fréquence dans les langues naturelles. Rang décroissant et effectif sont liés : grosso modo, le produit dun rang par leffectif correspondant à ce rang est constant. (plus exactement : où f est leffectif et K une constante) La relation des logarithmes du rang et de leffectif correspondant donne lieu à un nuage de points typiquements alignés.

21 LOI DE ZIPF Vocabulaire de SGAR en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

22 LOI DE ZIPF Vocabulaire de Mondiplo en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

23 LOI DE ZIPF Vocabulaire de La Comédie humaine en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

24 LOI DE ZIPF Vocabulaire d Illusions perdues en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

25 LOI DE ZIPF Vocabulaire du Vicomte de Bragelonne en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

26 GAMMES DE FREQUENCES 2 ANS (N=1 729 312 V=55 663) TOTAL (N= 17 662 550 V=182 190)10 ANS (N=8 522 268 V=1220174) 6 MOIS (N=415 266 V=28 085) MD SGAR

27 GAMMES DE FREQUENCES COMEDIE HUMAINE (N=4 104 853 V=66 108) ILLUSIONS (N=236 208 V=18 287) BALZAC DUMAS BRAGELONNE (N=690 111 V=25 417)

28 2. Probabilités

29 La majorité des tests statistiques employés dans létude des textes sont de nature probabiliste. La probabilité affectée à un événement dans un cadre spatio-temporel défini est un quotient : Le dénominateur est le nombre total de configurations envisageables de tous les facteurs efficaces contenus dans le cadre défini Le numérateur est le nombre de configurations produisant cet événement.

30 Ainsi, la probabilité de tirer un Roi dans un jeu de 32 cartes classique neuf et normal, non marqué, en prenant une seule carte est de 4/32 (il existe 4 configurations favorables pour un total de 32). On comprend que p a pour bornes 0 et 1. Une probabilité peut être inférée des paramètres du cadre (exemples : un dé à six faces) ou (cas le plus fréquent) de lobservation prolongée du cadre (sexe de lenfant à naître, météorologie, voire astrologie…).

31 La distinction est importante. Le modèle théorique dun dé à six faces, conduit à prêter à chacun des six résultats possibles dun lancer simple une probabilité égale (équiprobabilité). Mais on peut tester un dé « réel », qui peut ne pas être équilibré. Il faut alors le lancer un « certain » nombre de fois afin de vérifier si les résultats sont conformes aux prédictions du modèle. Si le dé est mal équilibré, lexpérience permet à un tricheur de détenir un modèle non équiprobable susceptible de lui permettre un système de paris gagnants.

32 Modèle du lancer de dés : un seul lancer Chaque résultat est « équiprobable » Le total des probabilités est 1. Chaque probabilité est comprise entre 0 et 1

33 Un dé « pipé », lancé 1000 fois. Résultats de 1000 lancers : Modèle probabiliste de ce dé :

34 Contraste des deux modèles : Permet de spéculer sur le(s) facteur(s) dune telle déviation. Ici, une masse plus dense entre le centre du dé et la face « 6 » ?

35 Modèle du lancer de dés : un seul lancer Additivité Le total des probabilités reste 1. Chaque probabilité est comprise entre 0 et 1, ces bornes comprises

36 Modèle du lancer de dés : deux lancers Composition exemple A Le total des probabilités reste 1. Attention à lopérateur « ET »

37 Modèle du lancer de dés : deux lancers Composition exemple B Le total des probabilités reste 1. Attention à lopérateur « PUIS »

38 Modèle du lancer de dés : deux lancers Composition exemple C Le total des probabilités reste 1.

39 Modèle du jeu de cartes Les tirages ne sont plus indépendants les uns des autres Exemple 1 : on tire une seule carte. Le total des probabilités reste 1.

40 Modèle du jeu de cartes Les tirages ne sont plus indépendants les uns des autres Exemple 1 : on tire deux cartes SANS REMETTRE LA 1ère. Les probabilités concernant la 2 ème carte sont modifiées par le tirage de la 1 ère carte. Si je tire un Roi, il reste alors 3 rois sur 31 cartes. La probabilité combinée de tirer SIMULTANEMENT 2 rois se calcule ainsi : 4/32 * 3/31 = 0.0121 (si lon remettait la carte et rebattait le jeu, la probabilité de tirer SUCCESSIVEMENT 2 rois serait : 4/32 * 4/32 = 0.0156

41 Modèle du jeu de cartes Les tirages ne sont plus indépendants les uns des autres La différence de 0.0121 à 0.0156 peut paraître minime… Mais si je tire 4 cartes dans lespoir dobtenir 4 Rois : La probabilité combinée de tirer SIMULTANEMENT 4 rois (un « carré de rois » ) se calcule ainsi : 4/32 * 3/31 * 2/30 * 1/29 = 28 pour UN MILLION (noté 2.78 E-05) (si lon remettait la carte et rebattait le jeu, la probabilité de tirer SUCCESSIVEMENT 2 rois serait : 4/32 * 4/32 * 4/32 * 4/32 = 244 pour un million (noté 2.44 E-04) SOIT 9 FOIS PLUS.

42 Modèle du jeu de cartes En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle (« sans remise ») Exemple : si je compare le vocabulaire dun article de journal à celui de la collection complète de ce journal, cest « comme si » je tirais SIMULTANEMENT dun immense jeu de (mettons) 40 millions de cartes une « poignée » de (mettons) 5000 cartes Si je veux calculer la probabilité que cette « poignée » comporte (mettons) 50 « cartes » marquées « je », je devrai tenir compte du fait que le « stock » total de cartes « je » est limité et épuisable.

43 Modèle du jeu de cartes En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle (« sans remise ») REMARQUE ECLAIRANTE : Quelle est la probabilité de tirer SIMULTANEMENT 5 rois en 5 cartes dans un jeu de 32 cartes ordinaire ?

44 Modèle du jeu de cartes En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle (« sans remise ») REMARQUE ECLAIRANTE : Quelle est la probabilité de tirer SIMULTANEMENT 5 rois en 5 cartes dans un jeu de 32 cartes ordinaire ? Cette probabilité est NULLE. On le montre aisément par le calcul : p = 4/32 * 3/31 * 2/30 * 1/29 * 0/28 = 0 Il en va de même pour lhypothèse de rencontrer 51 occurrences de « je » dans un article si la collection complète nen comporte que 50.

45 Fréquence et probabilité Si lon « prend » (« tire ») un mot au hasard dans la suite des mots du corpus, la probabilité que ce mot soit une occurrence de telle ou telle forme graphique est égale à la fréquence de cette forme dans le corpus (Fréquence et probabilité sont également bornées par 0 et 1) [ DANS LE MODELE LEXICAL DEQUIPROBABILITE ] qui permettra, par contraste avec les observations réelles, de connaître certaines contraintes (STOCHASTIQUES)

46 Fréquence et probabilité Si lon « prend » (« tire ») un mot au hasard dans la suite des mots du corpus, la probabilité que ce mot soit une occurrence de telle ou telle forme graphique est égale à la fréquence de cette forme dans le corpus (Fréquence et probabilité sont également bornées par 0 et 1) [ DANS LE MODELE LEXICAL DEQUIPROBABILITE ] qui permettra, par contraste avec les observations réelles, de connaître certaines contraintes (STOCHASTIQUES)

47 Stochastique On laissera ici de côté la combinatoire syntaxique proprement dite (impossibilité linguistique de la suite « de je », fréquence de la suite « de la » bien supérieure à sa probabilité calculée mot par mot). Combinatoire « lexicale ». Exemple de la séquence « conseil général ». Dans SGAR, la fréquence de « conseil » est 9.57 E-04, celle de « général » de 6.22 E-04. La probabilité de les trouver dans cet ordre est 5.05 E-07 (0.6 pour 1 million). Or, la fréquence de « conseil général » parmi les 336 245 « bi-formes » du corpus est 2.17 E-04, soit à peine plus faible que celle de ses constituants !

48 Conclusion partielle Face à un événement, produit « naturellement » ou provoqué « artificiellement » (on le nomme un résultat), du type : « je dénombre 8 occurrences de démocratie dans une page de ce livre, qui en compte 355 pour 220 pages » on calcule quelle était la probabilité de ce résultat « avant quil ait eu lieu », cest-à-dire la probabilité a posteriori de se tromper en affirmant quil est dû au hasard (ou linverse, de parier quil va se reproduire, p.ex.) Les « lois » de distribution (binomiale, normale, de Poisson) expriment directement la probabilité de ce qui est observé, comme si elles avaient à le prévoir, et cest ce qui valorise – ou non – lévénement.

49 Conclusion partielle Face à un événement, produit « naturellement » ou provoqué « artificiellement » (on le nomme un résultat), du type : « je dénombre 8 occurrences de démocratie dans une page de ce livre, qui en compte 355 pour 220 pages » on calcule quelle était la probabilité de ce résultat « avant quil ait eu lieu », cest-à-dire la probabilité a posteriori de se tromper en affirmant quil est dû au hasard (ou linverse, de parier quil va se reproduire, p.ex.) Les « lois » de distribution (binomiale, normale, de Poisson) expriment directement la probabilité de ce qui est observé, comme si elles avaient à le prévoir, et cest ce qui valorise – ou non – lévénement.

50 Conclusion partielle Le calcul de lécart-réduit dune observation à sa valeur calculée dans le modèle de léquidistribution substitue un indice « désincarné », épuré dattributs accidentels, à leffectif dénombré. Et cest lui, lécart-réduit, qui répond de sa probabilité « dêtre dû au hasard ». Pour ceux qui le pratiquent, il a incorporé léchelle statistique (on dit « un écart-réduit de 3, un écart-réduit « du feu de Dieu »).

51 3. Distributions Evaluation en probabilité

52 Espérance mathématique. Si un mot quelconque a une probabilité connue dêtre loccurrence dune forme donnée, on peut calculer un nombre « théorique » doccurrences de cette forme dans un ensemble de n mots. Cest ce que la théorie des jeux appelle lespérance mathématique. La formule en est En dautres termes, si lon prend pour norme la fréquence dune forme dans un (vaste) corpus de référence (p), on « sattend » à en trouver, dans un corpus de travail comprenant n mots, p*n occurrences.

53 Effectif « théorique » ou calculé. En dautres termes encore, si lon prend pour norme leffectif (X) dune forme dans un (vaste) corpus de référence comprenant N mots, on « sattend » à en trouver, dans un corpus de travail comprenant n mots, X*n/N occurrences. L « espérance mathématique » est un effectif (un nombre doccurrences). On parle plutôt deffectif théorique, et mieux encore deffectif calculé (vs effectif mesuré), que d « espérance mathématique » Sa formule nous laisse entrevoir quil na pas de borne supérieure* et prendra le plus souvent laspect dun nombre « avec décimales ». * Si ce nest n, au cas où p=1…

54 Cas n°1 : norme exogène Le corpus de travail ne fait pas partie du corpus de référence. Exemple : corpus de travail Monde Diplo, corpus de référence Frantext 19 ème -20 ème siècles. Dans Frantext, la forme « production » a une fréquence de 1.953 E-04 (195 pour un million). Le n de Mondiplo étant 17 662 550, leffectif calculé de « production » y est de 17 662 550 * 1.953 E-04 = 3408.87

55 Cas n°1 : norme exogène Le corpus de travail ne fait pas partie du corpus de référence. Exemple : corpus de travail Monde Diplo, corpus de référence Frantext 19 ème -20 ème siècles. Dans Frantext, la forme « production » a une fréquence de 1.953 E-04 (195 pour un million). Le N de Mondiplo étant 17 662 550, leffectif calculé de « production » y est de 17 662 550 * 1.953 E-04 = 3408.87 Leffectif mesuré (« réel ») est 8199. On note donc un excédent, un suremploi. On verra plus loin comment évaluer cet excédent.

56 Cas n°2 : norme endogène Le corpus de travail sert de norme aux sous-ensembles quon veut y étudier (on cherche à étudier les structures lexicales du corpus) Exemple : corpus de travail Monde Diplo, sous-ensemble année 2000. Dans Monde Diplo, la forme « production » a une fréquence de 4.642 E-04 (464 pour un million). Le n de 2000 étant 649 762, leffectif calculé de « production » y est de 649 762 * 4.642 E-04 = 301.62

57 Cas n°2 : norme endogène Le corpus de travail sert de norme aux sous-ensembles quon veut y étudier (on cherche à étudier les structures lexicales du corpus) Exemple : corpus de travail Monde Diplo, sous-ensemble année 2000. Dans Monde Diplo, la forme « production » a une fréquence de 4.642 E-04 (464 pour un million). Le n de 2000 étant 649 762, leffectif calculé de « production » y est de 649 762 * 4.642 E-04 = 301.62 Leffectif mesuré (« réel ») est 181. On note donc un déficit, un sous-emploi. On verra plus loin comment évaluer ce déficit.

58 Récapitulons : Le Monde Diplomatique emploie PLUS que la norme de Frantext la forme « production ». En 2000, le Monde Diplomatique emploie MOINS que la norme de sa collection 1980-2000 la forme « production ». Excédents et déficits entrent dans une même catégorie : les écarts à léquirépartition. On parle tout dabord décart absolu; cest une soustraction simple. Dans le premier cas, lécart est de 8199-3409 = +4790 Dans le second cas, il est de 181-301.6 = -120.6

59 Vue densemble sur les effectifs mesurés (en bleu) et calculés (en rouge) de « production » dans les 21 années du corpus.

60 Evaluation des écarts à la norme endogène. Lexistence décarts entre effectifs mesurés et calculés est normale. Labsence décarts, ou de très faibles écarts, signaleraient des objets fabriqués artificiellement (règle de parité H/F par exemple). On doit évaluer les écarts afin de décider sils sont ou non significatifs (par exemple, si lhistogramme vu précédemment représente une baisse tendancielle significative).

61 Une unité de mesure pertinente Excédents et déficits sont exprimés en effectifs, en nombre dindividus. Ils ne sont comme tels pas comparables entre eux, car plus le corpus est grand, plus des écarts absolus « normaux », non significatifs, vont pouvoir être importants. Ils ne peuvent pas non plus être évalués en pourcentage (excédent de 10%, etc), car ce sont alors les petits corpus qui exprimeront artificieusement des écarts importants. On va chercher une unité de mesure pertinente pour exprimer les écarts indépendamment de la taille du corpus. Une mesure décart pouvant être rapportée à une échelle universelle, et être ainsi évaluée.

62 Lécart-type. Dans lobservation de variables, on nomme écart-type une déviation « moyenne » (en réalité, la racine carrée de la moyenne des carrés des déviations). Cette déviation est la plus probable dans le cadre dexpériences multiples. Par exemple, voici une suite de 200 lancers simultanés de 5 dés, exprimée en total de points.

63 Lécart-type.

64 Moyenne des carrés des déviations (variance) : 10.01 Racine carrée de la variance (écart-type) : 3.16 Fréquence cumulée des tirages présentant un écart absolu inférieur à 3.16 : 0.17 + 0.095 + 0.115 + 0.125 + 0.07 + 0.065 = 0.64 Fréquence cumulée des tirages présentant un écart absolu inférieur à 6.32 : 0.64 + 0.055 + 0.08 + 0.075 + 0.04 + 0.03 + 0.02 = 0.94

65 Lécart-type. La fréquence (probabilité, pour un tirage ultérieur dans les mêmes conditions), dun résultat supérieur à moyenne + 2 écarts-types (17.325 + 6.32, soit 23.645) ou inférieur à moyenne + 2 écarts-types (17.325 - 6.32, soit 11.005) est de lordre de 6 %.

66 Calcul de lécart-type. Dans le cas où on nobserve pas des variables aléatoires, mais des distributions réelles (notre cas), on est amené à calculer un écart-type dit « théorique », à partir des paramètres précis du problème étudié. Entrent en jeu : le nombre total de mots du corpus de référence (N) le nombre total de mots du sous-ensemble considéré (n) le nombre total doccurrences de la forme dont on observe la distribution(X) On calcule dabord la variance théorique, selon la formule NB : est une variante du produit pq où q = 1-p

67 Calcul de lécart-type. Lécart-type théorique est la racine carrée de la variance théorique, sa formule est donc : NB : est une variante du produit pq où q = 1-p. Le produit pq est dautant plus élevé que p sapproche de la valeur « centrale » 0.5

68 Calcul de lécart-type. Si lon observe les effectifs dun collège français de 1000 élèves, si le caractère étudié divise la population par moitié (le sexe), lécart-type est de 15.8. Si le caractère étudié divise la population selon une proportion 5%/95% (enfants dimmigrés non naturalisés), lécart-type est de 6.9. Une répartition réelle de 530 filles et 470 garçons sera peu significative dun facteur discriminant, avec un écart de 30 à la norme donc. En revanche, un même écart absolu, la norme « prévoyant » 50/950, donnera un effectif réel denfants dimmigrés non naturalisés de 20 ou de 80, ce qui dans les 2 cas signale un ou plusieurs facteurs sociaux manifestes (la déviation contient plus de 4 écarts-types, voir interprétation plus bas).

69 Calcul de lécart-type. Dans le cas envisagé plus haut (estimation du déficit de « production » dans lannée 2000 de Mondiplo sur norme endogène – corpus Mondiplo 80-2000), les valeurs sont les suivantes : ce qui donne = 17.04

70 Emploi de lécart-type ; lécart-réduit. On se souvient que le déficit était de 115.6 Il contient donc 120.6 / 17.04, soit environ 7.1 fois lécart-type. Lécart-réduit est le nombre décarts-types contenus dans lécart absolu, affecté du signe + ou du signe -. Ici, lécart-réduit est -7.08 La probabilité dun tel écart-réduit dans une distribution aléatoire est infinitésimale. Tableau dinterprétation : zp 0.50.617 10.317 1.50.134 20.046 2.50.012 30.002 7 3.50.000 48 40.000 06 4.50.000 006 z = écart réduit p = probabilité datteindre ou dépasser un tel écart-réduit

71 Vue densemble sur les déficits et excédents de « production » dans les 21 années du corpus, vus en écarts-réduits.

72 Evaluation dune distribution en probabilité Sil est intéressant détudier une déviation individuelle, il lest plus encore détudier lensemble des déviations dune distribution donnée. Lhistogramme précédent est significatif au premier regard, mais comment lui attribuer directement et assurément un indice précis ? Comment discriminer les distributions, dans le même cadre, de dizaines de formes ?

73 Evaluation dune distribution en probabilité Comment, par exemple, évaluer la distribution figurée ci- dessous (forme « choix », 3769 occurrences)

74 Test de Pearson, ou Χ² Soit le tableau de valeurs :Lui correspondent des valeurs calculées selon le modèle déquirépartition : choixAUTRESTOTAL 214900941901414 183827482827898 192872337872744 172854688855140 199861408861899 172856161856625 165817190817626 199815599815998 198855621856019 198856526856905 160828356828733 186851668852068 167878405878811 169869885870322 182855482855846 173849403849766 176848174848526 173845546845973 173820421820853 181839510839981 137649422649763 choixAUTRESTOTAL 192,348224900970,767901414 176,661012827490,916827898 186,230476872314,865872744 182,474046854719,521855140 183,916316861475,197861899 182,790923856203,79856625 174,469122817223,966817626 174,121731815596,767815998 182,661612855598,088856019 182,850671856483,653856905 176,839189828325,505828733 181,818528851649,031852068 187,525083878378,881878811 185,713657869894,055870322 182,624696855425,173855846 181,327315849348,163849766 181,062718848108,773848526 180,517946845557,028845973 175,157715820449,38820853 179,239343839567,974839981 138,649676649443,506649763

75 Test de Pearson, ou Χ² Soit le tableau de valeurs :Lui correspondent des valeurs calculées selon le modèle déquirépartition : choixAUTRESTOTAL 214900941901414 183827482827898 192872337872744 172854688855140 199861408861899 172856161856625 165817190817626 199815599815998 198855621856019 198856526856905 160828356828733 186851668852068 167878405878811 169869885870322 182855482855846 173849403849766 176848174848526 173845546845973 173820421820853 181839510839981 137649422649763 choixAUTRESTOTAL 192,348224900970,767901414 176,661012827490,916827898 186,230476872314,865872744 182,474046854719,521855140 183,916316861475,197861899 182,790923856203,79856625 174,469122817223,966817626 174,121731815596,767815998 182,661612855598,088856019 182,850671856483,653856905 176,839189828325,505828733 181,818528851649,031852068 187,525083878378,881878811 185,713657869894,055870322 182,624696855425,173855846 181,327315849348,163849766 181,062718848108,773848526 180,517946845557,028845973 175,157715820449,38820853 179,239343839567,974839981 138,649676649443,506649763 o c

76 Test de Pearson, ou Χ² Pour chaque cellule du tableau (sauf la marge « TOTAL »), on calcule : (o – c)² / c (= variance théorique cf supra) Le X² est la somme de ces calculs. Exemple cellule « A1 » : (214 – 192.35)² / 192.35 = 2.437

77 Test de Pearson, ou Χ² Tableau de valeurs :modèle déquirépartition : Résultats en X² : (somme : 18.32) choixAUTRESTOTAL 214900941901414 183827482827898 192872337872744 172854688855140 199861408861899 172856161856625 165817190817626 199815599815998 198855621856019 198856526856905 160828356828733 186851668852068 167878405878811 169869885870322 182855482855846 173849403849766 176848174848526 173845546845973 173820421820853 181839510839981 137649422649763 choixAUTRESTOTAL 192,348224900970,767901414 176,661012827490,916827898 186,230476872314,865872744 182,474046854719,521855140 183,916316861475,197861899 182,790923856203,79856625 174,469122817223,966817626 174,121731815596,767815998 182,661612855598,088856019 182,850671856483,653856905 176,839189828325,505828733 181,818528851649,031852068 187,525083878378,881878811 185,713657869894,055870322 182,624696855425,173855846 181,327315849348,163849766 181,062718848108,773848526 180,517946845557,028845973 175,157715820449,38820853 179,239343839567,974839981 138,649676649443,506649763 2,43720,0010 0,22750,0001 0,17870,0006 0,60120,0012 1,23710,0052 0,63700,0021 0,51390,0014 3,55460,0000 1,28800,0006 1,25510,0021 1,60350,0011 0,09620,0004 2,24650,0008 1,50420,0001 0,00210,0038 0,38240,0035 0,14160,0050 0,31310,0001 0,02660,0010 0,01730,0040 0,01960,0007

78 Test de Pearson, ou Χ² Résultats en X² (somme : 18.32) pour « choix » choixAUTRESTOTAL 214900941901414 183827482827898 192872337872744 172854688855140 199861408861899 172856161856625 165817190817626 199815599815998 198855621856019 198856526856905 160828356828733 186851668852068 167878405878811 169869885870322 182855482855846 173849403849766 176848174848526 173845546845973 173820421820853 181839510839981 137649422649763 20 « degrés de liberté »

79 Test de Pearson, ou Χ²

80 Test de Pearson, ou Χ² pour « production » Tableau de valeurs :modèle déquirépartition : Résultats en X² : (somme : 1103.63) productio nAUTRESTOTAL 662900941901414 717827482827898 626872337872744 488854688855140 414861408861899 526856161856625 574817190817626 299815599815998 427855621856019 406856526856905 318828356828733 330851668852068 333878405878811 315869885870322 320855482855846 287849403849766 250848174848526 261845546845973 259820421820853 201839510839981 186649422649763 productionAUTRESTOTAL 418,430111900970,767901414 384,304495827490,916827898 405,121696872314,865872744 396,950042854719,521855140 400,087522861475,197861899 397,639368856203,79856625 379,536304817223,966817626 378,780597815596,767815998 397,358067855598,088856019 397,769342856483,653856905 384,692096828325,505828733 395,524041851649,031852068 407,937955878378,881878811 403,99742869894,055870322 397,277762855425,173855846 394,455468849348,163849766 393,879869848108,773848526 392,694784845557,028845973 381,034255820449,38820853 389,913339839567,974839981 301,615466649443,506649763 141,78300,0010 288,01720,0001 120,42610,0006 20,88450,0012 0,48380,0052 41,43570,0021 99,63770,0014 16,80380,0000 2,21120,0006 0,17030,0021 11,56210,0011 10,85500,0004 13,76610,0008 19,60540,0001 15,03190,0038 29,27240,0035 52,55770,0050 44,16540,0001 39,08400,0010 91,52870,0040 44,31780,0007

81 Test de Pearson, ou Χ² Résultats en X² (somme : 1103.63) pour « production » 20 « degrés de liberté » productionAUTRESTOTAL 662900941901414 717827482827898 626872337872744 488854688855140 414861408861899 526856161856625 574817190817626 299815599815998 427855621856019 406856526856905 318828356828733 330851668852068 333878405878811 315869885870322 320855482855846 287849403849766 250848174848526 261845546845973 259820421820853 201839510839981 186649422649763

82 Limites du X² Le X² ne peut semployer que pour comparer des distributions en effectifs, et (comme lécart-réduit, dont il est parent), lorsque les effectifs « calculés » ne sont pas inférieurs à un seuil de pertinence (5, 10…) Surtout, le X² a les propriétés de son modèle (la distribution aléatoire). Son interprétation dans létude des distributions lexicales est fiable pour un « nombre de tirages » raisonnable. Au- delà (par exemple, de 100 000 occurrences), même des items comme « de » ou « le » prennent des valeurs dont la « probabilité » selon le modèle aléatoire est infinitésimale (ainsi en va-t-il de lorganisation textuelle…) Le résultat est « juste », mais non interprétable.

83 La corrélation des rangs Revenons au cas de « production » dans Mondiplo. Cette forme a un profil qui semble fort caractéristique : emploi décroissant en diachronie. Nous voyons que le X² de cette distribution est très élevé (le 4 ème au total de tout le vocabulaire du corpus). En complément, un test simple et rapide permet de valider limpression visuelle (qui peut être trompeuse).

84 La corrélation des rangs On range les années du corpus par écart-réduit croissant à léquidistribution (on leur attribue un rang) ANNEEDEVIATIONRANG _1999-11,51541 _1996-9,54772 _1997-8,82783 _1998-8,34344 _1995-7,71295 _2000-7,07646 _1993-6,53117 _1987-6,09138 _1990-6,04209 _1994-5,723310 _1992-5,533011 _1991-5,490312 _1984-2,875113 _1989-2,352714 _1988-1,972715 _19830,825816 _19854,491217 _19826,465418 _19866,857319 _19807,706720 _198112,942121

85 La corrélation des rangs On range les années du corpus par écart-réduit croissant à léquidistribution (on leur attribue un rang) ANNEEDEVIATIONRANG _1999-11,51541 _1996-9,54772 _1997-8,82783 _1998-8,34344 _1995-7,71295 _2000-7,07646 _1993-6,53117 _1987-6,09138 _1990-6,04209 _1994-5,723310 _1992-5,533011 _1991-5,490312 _1984-2,875113 _1989-2,352714 _1988-1,972715 _19830,825816 _19854,491217 _19826,465418 _19866,857319 _19807,706720 _198112,942121 ANN EE DEVIATI ON RA NG DIACHRO NIE(R-D)² _19807,7067201361 _198112,9421212361 _19826,4654183225 _19830,8258164144 _1984-2,875113564 _19854,4912176121 _19866,8573197144 _1987-6,0913880 _1988-1,972715936 _1989-2,3527141016 _1990-6,04209114 _1991-5,490312 0 _1992-5,533011134 _1993-6,531171449 _1994-5,7233101525 _1995-7,7129516121 _1996-9,5477217225 _1997-8,8278318225 _1998-8,3434419225 _1999-11,5154120361 _2000-7,0764621225 Σ d² 2936 On calcule les écarts entre les rangs selon les 2 ordres (on les porte au carré et on les totalise – Σ d² - )

86 La corrélation des rangs On range les années du corpus par écart-réduit croissant à léquidistribution (on leur attribue un rang) ANNEEDEVIATIONRANG _1999-11,51541 _1996-9,54772 _1997-8,82783 _1998-8,34344 _1995-7,71295 _2000-7,07646 _1993-6,53117 _1987-6,09138 _1990-6,04209 _1994-5,723310 _1992-5,533011 _1991-5,490312 _1984-2,875113 _1989-2,352714 _1988-1,972715 _19830,825816 _19854,491217 _19826,465418 _19866,857319 _19807,706720 _198112,942121 ANN EE DEVIATI ON RA NG DIACHRO NIE (R- D)² _19807,7067201361 _198112,9421212361 _19826,4654183225 _19830,8258164144 _1984-2,875113564 _19854,4912176121 _19866,8573197144 _1987-6,0913880 _1988-1,972715936 _1989-2,3527141016 _1990-6,04209114 _1991-5,490312 0 _1992-5,533011134 _1993-6,531171449 _1994-5,7233101525 _1995-7,7129516121 _1996-9,5477217225 _1997-8,8278318225 _1998-8,3434419225 _1999-11,5154120361 _2000-7,0764621225 TOTAL2936 On calcule les écarts entre les rangs selon les 2 ordres (on les porte au carré et on les totalise – Σ d² - ) n est le nombre de lignes comparées. ρ (rho) est un indice dont les bornes sont -1 et +1.

87 La corrélation des rangs On range les années du corpus par écart-réduit croissant à léquidistribution (on leur attribue un rang) ANNEEDEVIATIONRANG _1999-11,51541 _1996-9,54772 _1997-8,82783 _1998-8,34344 _1995-7,71295 _2000-7,07646 _1993-6,53117 _1987-6,09138 _1990-6,04209 _1994-5,723310 _1992-5,533011 _1991-5,490312 _1984-2,875113 _1989-2,352714 _1988-1,972715 _19830,825816 _19854,491217 _19826,465418 _19866,857319 _19807,706720 _198112,942121 ANN EE DEVIATI ON RA NG DIACHRO NIE (R- D)² _19807,7067201361 _198112,9421212361 _19826,4654183225 _19830,8258164144 _1984-2,875113564 _19854,4912176121 _19866,8573197144 _1987-6,0913880 _1988-1,972715936 _1989-2,3527141016 _1990-6,04209114 _1991-5,490312 0 _1992-5,533011134 _1993-6,531171449 _1994-5,7233101525 _1995-7,7129516121 _1996-9,5477217225 _1997-8,8278318225 _1998-8,3434419225 _1999-11,5154120361 _2000-7,0764621225 TOTAL2936 On calcule les écarts entre les rangs selon les 2 ordres (on les porte au carré et on les totalise – Σ d² -) n est le nombre de lignes comparées. ρ (rho) est un indice dont les bornes sont -1 et +1. Ici, le résultat est + 0.906

88

89 Corrélation négative de probabilité infinitésimale.

90 La corrélation des rangs Mêmes données et calculs pour « femmes » ANN EE DEVIATI ON RA NG DIACHRO NIE (R- D)² _1980-3,7600111100 _1981-8,6900121 _1982-6,9800330 _1983-4,5700749 _1984-1,850013564 _1985-5,5600464 _1986-8,15002725 _1987-5,4500589 _1988-1,120014925 _1989-4,080010 0 _1990-4,46008119 _1991-4,23009129 _1992-5,290061349 _1993-2,200012144 _19940,380015 0 _19953,070016 0 _19966,210017 0 _199717,760020184 _199819,740021194 _199911,990019201 _200010,920018219 X² TOTAL326 ρ = - 0.788 Corrélation positive de probabilité infinitésimale.

91 La corrélation des rangs On peut aussi comparer 2 profils distributionnels particuliers Exemple : république et démocratie

92 La corrélation des rangs république et démocratie ρ = - 0.643 Corrélation positive de très basse probabilité. ANN EE DEMOCRA TIE REPUBLIQ UE(R-D)² _19808104 _1981479 _1982561 _1983794 _1984220 _1985110 _1986341 _198761581 _19881189 _198916139 _199020184 _19912111100 _199218171 _1993191425 _1994171225 _1995141925 _1996152025 _199713169 _19989516 _19991021121 _200012381 X² TOTAL550

93 La corrélation des rangs On peut aussi comparer 2 profils distributionnels particuliers Exemple : internationale et mort

94 La corrélation des rangs Internationale et mort ρ = + 0.543 Corrélation négative de basse probabilité. ANNEE internation alemort(R-D)² _1980211400 _1981202324 _198271336 _198311449 _1984550 _198515764 _1986131936 _198714836 _198881549 _1989621225 _1990418196 _199131049 _199212111 _1993166100 _1994216196 _19951020100 _19969129 _1997114169 _199818981 _199917 0 _2000193256 X² TOTAL2376

95 La corrélation des rangs On peut aussi comparer 2 profils distributionnels particuliers Contre-exemple : chef et manière

96 La corrélation des rangs chef et manière ρ = - 0.245 Corrélation positive banale, sans signification. ANN EEchefmanière(R-D)² _19808149 _198112464 _1982143121 _1983212361 _198491316 _1985589 _198661464 _1987369 _19882725 _1989115196 _199010525 _199141149 _19927109 _199311121 _199417 0 _1995209121 _1996162016 _199715189 _199819 0 _199918219 _200013169 X² TOTAL1162

97 4. Distributions Généralisations et synthèses Classifications

98 Profil distributionnel. Dans les études précédentes, nous avons vu de nombreux histogrammes décarts-réduits à léqui-distribution. Ce sont des images, calculées, de la propriété statistique majeure des unités textuelles, corrélat de leurs fonctions linguistiques, fondement de leur sémantisme : lirrégularité de leur distribution. Cet autre histogramme, celui de tiers-monde, en dit plus long que bien des phrases sur le discours de la presse anti-mondialiste, sur celui du monde dominant, sur leurs idéologies respectives, sur leurs rapports mutuels.

99 Profil distributionnel. On nommera ces histogrammes et ce quils figurent des profils distributionnels.

100 Profil distributionnel. Nous les avons comparés à une norme idéale (tirages aléatoires), à un ordre de référence (diachronie), et entre eux deux à deux. Mais nous navons pas la vision synthétique promise en échange de lemploi fastidieux des méthodes statistiques. Même si notre intuition nous mène à de brillantes ouvertures, et si la validation individuelle nous y conforte, il nous manque les calculs densemble qui seuls nous permettraient de nous orienter en nous élevant au-dessus du substrat.

101 Profil distributionnel. Cette « hauteur de vue », nous allons la chercher dans les méthodes de comparaison générale des profils, que nous appellerons méthodes classificatoires. Elles sont de 3 ordres (imbriqués et cousins) : Classifications hiérarchiques (ascendante – CHA – ou descendante – CHD) Calcul de distances + visualisations arborées Analyse Factorielle des Correspondances (AFC)

102 Profil distributionnel. Classifications hiérarchiques (ascendante – CHA – ou descendante – CHD) Il sagit de former des « clusters » (grappes) dans un ensemble de variables, formalisées en un nuage de points, qui représentent des classes et des sous- classes. La CHA (CAH) est la plus connue, et procède par fusions successives de clusters déjà existants. La CHD (CDH) procède à linverse par segmentation progessive. Toutes deux supposent une définition et une méthode de calcul des « distances » entre points déterminés par lalgèbre dune matrice de données. Il sagit de méthodes et de visualisations dichotomiques. Même si des méthodes en aval rétablissent des ponts, les classes formées sont exclusives et étanches. Elles mettent en valeur des points de rupture et peuvent être « piégées » par des structures de données où plusieurs « chemins » (bifurcations) sont proches en termes de pertinence (cest souvent le cas des données textuelles).

103 Profil distributionnel. Distances et représentations arborées Hyperbase contient ces fonctions. On calcule, par exemple, la distance de Jaccard pour chaque paire de variables selon un critère déterminé (par exemple, distribution des formes graphiques, de traits grammaticaux…), et on dispose les résultats dans une matrice « carrée » (réduite ou non, avec ou sans diagonale). Puis, lanalyse arborée consiste à construire un graphe « arbre », où chaque variable est une feuille, où les feuilles se regroupent en rameaux, branches et troncs, de manière à figurer des clusters, mais surtout à ce que la longueur totale de tous les chemins entre feuilles (paire à paire), soit proportionnelle à la distance indiquée dans la matrice. Cette méthodologie est particulièrement indiquée pour visualiser les similarités et dissimilarités; elle représente un compromis entre une approche dichotomique/hiérarchique et une approche visant au continuum, ce quest lAFC.

104 Lanalyse factorielle des correspondances. Soit le tableau de distribution suivant (avec ses « marges ») : 80-8384-8788-9192-9596-2000TOTAL développement3254278524572116198612598 gouvernement4041303824452779313615439 guerre2968299333723241372316297 marché1770180423382305241010627 société2025169821502065289910837 tiers-monde1599138510064882034681 travail2056183617682077291110648 production249318131481125511578199 TOTAL202061735217017163261842589326

105 Lanalyse factorielle des correspondances. On peut lui confronter un tableau « dindépendance », où les valeurs sont calculées dans lhypothèse déquirépartition 80-8384-8788-9192-9596-2000TOTAL développement2849,732447,222399,972302,522598,5512598 gouvernement3492,382999,12941,22821,773184,5615439 guerre3686,473165,773104,652978,583361,5316297 marché2403,882064,352024,491942,28219210627 société2451,392105,142064,51980,662235,3110837 tiers-monde1058,87909,306891,751855,54965,5364681 travail2408,632068,422028,491946,122196,3310648 production1854,661592,691561,951498,521691,188199 TOTAL202061735217017163261842589326 80-8384-8788-9192-9596-2000TOTAL développement3254278524572116198612598 gouvernement4041303824452779313615439 guerre2968299333723241372316297 marché1770180423382305241010627 société2025169821502065289910837 tiers-monde1599138510064882034681 travail2056183617682077291110648 production249318131481125511578199 TOTAL202061735217017163261842589326 contingence « correspondance » indépendance

106 Lanalyse factorielle des correspondances. On peut lui confronter un tableau « dindépendance », où les valeurs sont calculées dans lhypothèse déquirépartition 80-8384-8788-9192-9596-2000TOTAL développement3254278524572116198612598 gouvernement4041303824452779313615439 guerre2968299333723241372316297 marché1770180423382305241010627 société2025169821502065289910837 tiers-monde1599138510064882034681 travail2056183617682077291110648 production249318131481125511578199 TOTAL 2020 6 1735 2 1701 7 1632 61842589326 contingence indépendance 80-8384-8788-9192-9596-2000TOTAL développement2849,732447,222399,972302,522598,5512598 gouvernement3492,382999,102941,202821,773184,5615439 guerre3686,473165,773104,652978,583361,5316297 marché2403,882064,352024,491942,282192,0010627 société2451,392105,142064,501980,662235,3110837 tiers-monde1058,87909,31891,75855,54965,544681 travail2408,632068,422028,491946,122196,3310648 production1854,661592,691561,951498,521691,188199 TOTAL202061735217017163261842589326 80-8384-8788-9192-9596-2000 développement404,27337,7857,03-186,52-612,55 gouvernement548,6238,90-496,20-42,77-48,56 guerre-718,47-172,77267,35262,42361,47 marché-633,88-260,35313,51362,72218,00 société-426,39-407,1485,5084,34663,69 tiers-monde540,13475,69114,25-367,54-762,54 travail-352,63-232,42-260,49130,88714,67 production638,34220,31-80,95-243,52-534,18 On en déduit un tableau des écarts :

107 Lanalyse factorielle des correspondances. On va travailler sur le tableau des écarts, dit « T 1 » 80-8384-8788-9192-9596-2000 développement404,27337,7857,03-186,52-612,55 gouvernement548,6238,90-496,20-42,77-48,56 guerre-718,47-172,77267,35262,42361,47 marché-633,88-260,35313,51362,72218,00 société-426,39-407,1485,5084,34663,69 tiers-monde540,13475,69114,25-367,54-762,54 travail-352,63-232,42-260,49130,88714,67 production638,34220,31-80,95-243,52-534,18 On cherche quelles marges pourraient, par multiplication, donner un tablea aussi approchant que possible

108 Lanalyse factorielle des correspondances. Une sorte de tableau dindépendance « dérivé » … On considère chaque valeur du vecteur C comme coordonnée du point ligne correspondant sur un axe bi- orienté, et chaque valeur du vecteur L comme coordonnée du point colonne correspondant : 80-8384-8788-9192-9596-2000VECTEUR C développement297,56693217,98981-10,57413-177,32007-364,67200-13,91846 gouvernement109,1148279,93468-3,87743-65,02149-133,72157-5,10376 guerre-221,14491-162,005027,85845131,78020271,0158610,34388 marché-307,77042-225,4646110,93672183,40032377,1765014,39572 société-363,99370-266,6523312,93463216,90376446,0788417,02552 tiers-monde1079,48704790,80417-38,35990-643,26608-1322,92489-50,49216 travail-341,71262-250,3297912,14286203,62647418,7731015,98334 production484,56141354,97710-17,21904-288,75003-593,83607-22,66498 VECTEUR L-21,37930-15,661920,7597212,7399226,20060

109 Lanalyse factorielle des correspondances. LAFC est algorithme itératif. La passe n°2 consiste à confronter T1 au tableau « calculé » T1 Calculé daprès T1 On en déduit un tableau des écarts …. : …. 80-8384-8788-9192-9596-2000 développement404,27337,7857,03-186,52-612,55 gouvernement548,6238,90-496,20-42,77-48,56 guerre-718,47-172,77267,35262,42361,47 marché-633,88-260,35313,51362,72218,00 société-426,39-407,1485,5084,34663,69 tiers-monde540,13475,69114,25-367,54-762,54 travail-352,63-232,42-260,49130,88714,67 production638,34220,31-80,95-243,52-534,18 80-8384-8788-9192-9596-2000 développement106,70076119,7888267,59914-9,20045-247,87881 gouvernement439,50409-41,03380-492,3206922,2550085,16641 guerre-497,32019-10,76468259,49062130,6377390,45194 marché-326,11157-34,88064302,57255179,31633-159,17519 société-62,39136-140,4864272,56871-132,56854217,60641 tiers-monde-539,35328-315,11067152,60860275,72563560,38938 travail-10,9196717,90519-272,63419-72,74796295,89661 production153,78268-134,67182-63,7269045,2291859,65350 80-8384-8788-9192-9596-2000 développement297,56693217,98981-10,57413-177,32007-364,67200 gouvernement109,1148279,93468-3,87743-65,02149-133,72157 guerre-221,14491-162,005027,85845131,78020271,01586 marché-307,77042-225,4646110,93672183,40032377,17650 société-363,99370-266,6523312,93463216,90376446,07884 tiers-monde1079,48704790,80417-38,35990-643,26608-1322,92489 travail-341,71262-250,3297912,14286203,62647418,77310 production484,56141354,97710-17,21904-288,75003-593,83607

110 Lanalyse factorielle des correspondances. … sur lequel on va appliquer la même recherche des marges permettant la meilleure approximation 80-8384-8788-9192-9596-2000 développement106,70076119,7888267,59914-9,20045-247,87881 gouvernement439,50409-41,03380-492,3206922,2550085,16641 guerre-497,32019-10,76468259,49062130,6377390,45194 marché-326,11157-34,88064302,57255179,31633-159,17519 société-62,39136-140,4864272,56871-132,56854217,60641 tiers-monde-539,35328-315,11067152,60860275,72563560,38938 travail-10,9196717,90519-272,63419-72,74796295,89661 production153,78268-134,67182-63,7269045,2291859,65350 80-8384-8788-9192-9596-2000VECTEUR C développement-89,0987526,01999143,5041821,15767-78,059965,5216 gouvernement341,03313-99,59375-549,27460-80,98279298,78124-21,1344 guerre-208,9212061,01239336,4925549,61108-183,0371612,9472 marché-363,69187106,21090585,7692086,36341-318,6327022,5386 société43,39723-12,67353-69,89643-10,3052438,02059-2,6894 tiers-monde-313,3818091,51858504,7388274,41662-274,5557319,4208 travail276,51335-80,75169-445,35779-65,66172242,25506-17,136 production144,78546-42,28248-233,19428-34,38121126,84744-8,9726 VECTEUR L-16,136404,7124025,989603,83180-14,13720

111 Lanalyse factorielle des correspondances. Une sorte de 2ème tableau dindépendance « dérivé » … On effectue la même projection quen 1, sur un 2 ème axe, orthogonal au 1 er : 80-8384-8788-9192-9596-2000VECTEUR C développement-89,0987526,01999143,5041821,15767-78,059965,5216 gouvernement341,03313-99,59375-549,27460-80,98279298,78124-21,1344 guerre-208,9212061,01239336,4925549,61108-183,0371612,9472 marché-363,69187106,21090585,7692086,36341-318,6327022,5386 société43,39723-12,67353-69,89643-10,3052438,02059-2,6894 tiers-monde-313,3818091,51858504,7388274,41662-274,5557319,4208 travail276,51335-80,75169-445,35779-65,66172242,25506-17,136 production144,78546-42,28248-233,19428-34,38121126,84744-8,9726 VECTEUR L-16,136404,7124025,989603,83180-14,13720

112 Lanalyse factorielle des correspondances. Un système de coordonnées sur un plan de 2 « facteurs »

113 Lanalyse factorielle des correspondances. Un système de coordonnées sur un plan de 2 « facteurs »

114 Lanalyse factorielle des correspondances. Autant ditérations (de « facteurs ») que le tableau comporte de colonnes (ou de lignes, sil y a moins de lignes que de colonnes) – en comptant le Facteur 0, qui correspond au tableau T0 de départ. Chaque itération extrait une part décroissante de linformation totale du tableau dorigine (le total des « pourcentages dinertie » est 100%.

115 Lanalyse factorielle des correspondances. Un système de coordonnées sur un plan de 2 « facteurs »

116 Lanalyse factorielle des correspondances. Un système de coordonnées sur un plan de 2 « facteurs » Mais ici, avec 244 lignes et 21 colonnes, il y a 2O facteurs, dont lhistogramme indique la « décroissance » en % dinformation. Le 3 ème facteur mériterait dêtre visualisé. Nous en reparlerons plus loin.

117 Lanalyse factorielle des correspondances. Tout tableau de données comportant des lignes décrivant des classes doccurrences du corpus des colonnes décrivant des variables recouvrant une partie du corpus des cellules « intersections » rendant compte deffectifs peut être soumis à lAFC. Celle-ci classe les profils de lignes par parentés, chaque facteur extrayant successivement linformation résiduelle ; et les profils de colonnes de même, en assurant la correspondane entre les lignes et les colonnes. Moyennant certaines précautions, il sagit de la visualisation synthétique la plus fidèle des informations dominantes dune matrice de données de cet ordre. Le résultat de lAFC est un (double) nuage de points, chaque point ayant ses coordonnées sur N axes orthogonaux (dans un espace à N dimensions), autant quil y a de facteurs.

118 Lanalyse factorielle des correspondances. Les applications sont nombreuses et variées. En statistique lexicale et plus largement : textuelle, les lignes sont généralement des types, formes graphiques, lemmes, indices grammaticaux, codes sémantiques attribués… les colonnes peuvent renvoyer à des partitions linéaires (chapitres douvrages, tranches diachroniques, des auteurs/locuteurs, des classes dauteurs, des rubriques de presse, des CSP… classiquement des critères considérés comme non textuels, « exogènes ». Mais Max Reinert, avec Alceste, avait déjà institué en colonnes des unités vraiment textuelles (UT), constituées de phrases ou de membres de phrases (le tableau avait alors un très grand nombre de colonnes, et Alceste procédait à un classification hiérarchique avant de se risquer à une AFC sur des données simplifiées). Viprey (1996) a proposé de constituer des tableaux « carrés », constitués de colonnes identiques aux lignes. A lintersection, le nombre de co-occurrences entre deux formes, deux lemmes… dans un empan cotextuel paramétrable.

119 AFC des cooccurrences Exemple : 12 formes fréquentes dans Mondiplo culture5194 dollars9691 élections4402 fonds3991 liberté4385 libertés1176 parti12814 production8199 ressources3557 social5197 société10837 sociétés4714 Balayage de lensemble du corpus à la recherche des cooccurrences entre ces 12 formes, dans les limites de 15 mots à gauche et à droite, et dans les limites de la phrase (ponctuation forte) culturedollarsélectionsfondslibertélibertéspartipartisproductionressourcessocialsociétésociétés culture35871153211181542133912932 dollars71598418141151191461257 élections148461812357132156121 fonds1518161544021102663452432 liberté324184376385518411215518 libertés11112038441150012182 parti1815357215511156624218171141415 partis1511132101852421466426544 production42911264018630662498777 ressources13465631101746260193726 social39126452112114264919829040 société12957122455181415487379042656 sociétés32571321825477264056158

120 AFC des cooccurrences culturedollarsélectionsfondslibertélibertéspartipartisproductionressourcessocialsociétésociétés culture0,0000-4,1619-5,7677-2,03734,04351,8438-5,8313-2,94813,0365-1,12142,295413,66262,6713 dollars-4,11380,0000-6,343626,1306-3,9473-2,6466-8,0158-5,00329,26814,5638-4,3563-0,48775,6788 élections-5,6659-6,30450,0000-5,4651-1,48440,635430,185612,6993-6,5914-4,4091-5,8780-7,3452-5,6298 fonds-2,024326,2676-5,52780,0000-3,5873-2,8003-6,4969-4,6319-1,17139,30822,1514-4,27881,5607 liberté4,0702-4,0198-1,5210-3,63410,000014,86751,4158-1,2846-3,8726-0,7754-0,12483,69820,5285 libertés1,8826-2,73380,6604-2,877415,08050,0000-1,8658-1,5283-3,0058-2,39781,23721,2400-1,7676 parti-5,4862-7,629628,9093-6,15161,3233-1,71930,000017,2584-6,9917-4,82294,15351,3945-7,1811 partis-2,9033-4,984912,7313-4,5909-1,2568-1,474218,06580,0000-5,5923-4,4464-2,4210-1,5378-4,9145 production3,00769,2870-6,6459-1,1676-3,8106-2,9159-7,3607-5,62430,00008,34262,27614,125210,0786 ressources-1,12634,6376-4,50829,4094-0,7737-2,3589-5,1490-4,53498,46020,0000-0,9655-0,13062,1281 social2,2715-4,3614-5,92132,1427-0,12271,19924,3689-2,43272,2741-0,95130,00004,32562,5427 société13,1711-0,4757-7,2081-4,15133,54181,17081,4289-1,50534,0151-0,12544,21390,00001,9331 sociétés2,67225,7472-5,73291,57120,5252-1,7319-7,6355-4,992010,17912,11942,57032,00590,0000 Ecarts à lindépendance (tableau T1) La diagonale est neutralisée

121 AFC des cooccurrences Comparaison des profils cooccurrentiels de élections et parti

122 AFC des cooccurrences Comparaison des profils cooccurrentiels de liberté et culture

123 AFC des cooccurrences Comparaison des profils cooccurrentiels de dollars et parti

124 AFC des cooccurrences Plan des 2 premiers facteurs

125 AFC des cooccurrences 244 formes lexicales les plus fréquentes, empan 15g/15d limite de phrase. Plan des 2 premiers facteurs (23 % de linertie).

126 AFC des cooccurrences 244 formes lexicales les plus fréquentes, empan 15g/15d limite de phrase Inerties cumulées des facteurs 1 et 2 : 23 % Visualiser lensemble des 3 premiers facteurs donnerait une meilleure approximation (Cibois 1994:85) Nuage très enchevêtré Centre du nuage encombré de points

127 Visualisation des 3 premiers facteurs On visualise classiquement le plan de 2 facteurs (1/2, 1/3, 2/3..) Les tentatives « 3D », « MacSpin »… aboutissent à des visualisations erronées (et non plus « approximatives » ! nuage vu de lextérieur avec des superpositions trompeuses) Rappel : en AFC, tous les axes représentant les facteurs sont orthogonaux (dans certaines autres méthodes, ils peuvent présenter des angles différents). Donc, si lon prend pour point de départ le plan des 2 premiers facteurs, on conçoit aisément que laxe du 3 ème facteur coupe celui-ci à angle droit, « verticalement », de part en part. Ensemble, les 3 axes orthogonaux constituent un repère « sphérique » Le nuage sinscrit dans une boule. Une boule ne peut être représentée sur le plan dune feuille de papier ou dun écran que par un planisphère.

128 Visualisation des 3 premiers facteurs Une boule ne peut être représentée sur le plan dune feuille de papier ou dun écran que par un planisphère. Inertie cumulée visualisée : 31%

129 Visualisation des 3 premiers facteurs Une boule ne peut être représentée sur le plan dune feuille de papier ou dun écran que par un planisphère. Inertie cumulée visualisée : 31%

130 Visualisation des 3 premiers facteurs Zoom « régional »

131 Visualisation des 3 premiers facteurs Les fortes contributions au facteur 1 :

132 Visualisation des 3 premiers facteurs Les fortes contributions au facteur 2 :

133 Visualisation des 3 premiers facteurs Les fortes contributions au facteur 3 :

134 Visualisation des 3 premiers facteurs Marquage des formes excédentaires en 1980 :

135 Visualisation des 3 premiers facteurs Marquage des formes excédentaires (bleu) et déficitaires (rouge) en 1980 :

136 Visualisation des 3 premiers facteurs Marquage des formes excédentaires (bleu) et déficitaires (rouge) en 2000 :

137 Visualisation des 3 premiers facteurs Marquage des formes excédentaires sur 80-84 (rouge), 85-89 (magenta), 90-94 (bleu), 95-2000 (vert) :

138 Retour à la 1 ère application Marquage des formes excédentaires sur CBLP (rouge), CPTP (magenta), CGSR (bleu), PPOCO (vert) :

139 Conclusions Les statistiques lexicales offrent deux voies qui peuvent diverger fortement ou au contraire être maintenues parallèles par leffort de lanalyste. Démarche hypothético-déductive, où lon cherche à valider et raffiner une hypothèse par test(s) probatoire(s), oui/non Démarche exploratoire, où la seule « hypothèse » est au fond quun discours dans son organisation textuelle sécarte en tous points des modalités de laléatoire et de léquidistribution.

140 Conclusions Lessentiel de cette démarche consiste à mesurer des écarts, locaux, régionaux, globaux, individuels et/ou corrélés, à deux modèles : aléatoire, equidistributif. Une fois mesurés, ils sont pondérés et rapportés pour lessentiel à des probabilités (donc, à des issues diverses pour linterprétation et à des poursuites bifurcantes). Cest pourquoi, même si en droit certaines techniques et formules ne peuvent être dites probabilistes, lensemble quelles forment autour des objets textuels pour éclairer le discours est une démarche probabiliste.


Télécharger ppt "Eléments de statistique et de visualisations pour lanalyse textuelle Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus."

Présentations similaires


Annonces Google