La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Eléments de statistique et de visualisations pour lanalyse textuelle Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus.

Présentations similaires


Présentation au sujet: "Eléments de statistique et de visualisations pour lanalyse textuelle Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus."— Transcription de la présentation:

1 Eléments de statistique et de visualisations pour lanalyse textuelle Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice

2 1.Généralités

3 La statistique a pour objet de caractériser des ensembles (« populations ») en regroupant les individus qui les constituent selon les attributs ou propriétés quils ont ou non en commun. Posséder un même attribut, pour N individus, cest relever dune même classe. Pour le démographe statisticien, le genre sexuel est une classe (de même la CSP, la tranche dâge…). Pour léconomiste statisticien, le chiffre daffaire des entreprises, le PNB des états, le revenu dun ménage détermine (par seuils) des classes statistiques.

4 Que la propriété soit qualitative (sexe, CSP, lieu dimplantation) ou quantitative (taille, âge, PNB), elle doit le plus souvent être discrétisée pour donner prise à la statistique. Ainsi : Le lieu nest pas un point GPS, mais une commune, un département, un état… La taille est arrondie au centimètre, ou de 5 en 5 cm… Lâge est arrondi au mois, à lan, de 5 en 5, de 10 en 10, ou par tranches inégales… *** Le genre sexuel est une donnée binaire, non discrétisable. ***

5 Exemple dun « mot » dans un « texte » : « chanté » propriétés qualitatives : séquence des lettres c-h-a-n-t-é entièrement en bas de casse forme verbale forme fléchie du verbe chanter participe passé sa fonte et son corps 4 ème mot du premier vers…

6 Exemple dun « mot » dans un « texte » : « chanté » propriétés quantitatives : comporte 6 lettres Comporte 4 phonèmes, 2 syllabes Comporte 4 consonnes graphiques Comporte 2 consonnes phonétiques Comporte 2 voyelles graphiques…

7 Exemple dun « mot » dans un « texte » : « chanté » « autres » propriétés qualitatives : « champ sémantique » de la musique « domaine » du show-business ? métaphore !

8 Un « texte », au sens restreint dénoncé écrit, est formé dunités successives délimitées conventionnellement (lettres, mots, phrases, paragraphes, chapitres…) Si lon considère ces unités, ou segments, comme les individus dune population, comportant des attributs susceptibles de les associer à des classes, dès lors le texte est un objet statistique.

9 La statistique a pour intérêt de permettre la connaissance synthétique dobjets complexes, très complexes, voire infiniment complexes. Un ensemble discursif et ses matérialités textuelles (corpus) deviennent rapidement aussi complexes que la population ou léconomie dun état ou du monde. Quelques applications statistiques relativement simples permettent de prendre connaissance de structures et de contrastes grossiers et simplifiés, mais surplombants, étayés et reproductibles, afin de les confronter à une expérience empirique subtile et diverse, mais « au ras du sol », labile et contradictoire.

10 APPLICATION : Un corpus de 692 articles de presse « vernaculaire » constitué dans le cadre dune enquête commanditée par la Préfecture de Région Franche-Comté Après une segmentation conventionnelle, on dénombre « individus », « segments » ou « mots » (à lexception des ponctuations). On désigne cette « population » par la lettre N. Si lon prend en compte le caractère qualitatif : Chaîne de caractères indépendamment de la casse, et de toute mise en forme de caractères, on détermine « classes », dont les plus fréquentes sont : (On désigne ce nombre de classes par la lettre V.)

11 de18231 a1972 la11204 sur1906 l'8511 il1886 et8336 nous1860 le7488 pas1765 les7329 ce1623 à6757 plus1605 des6719 ne1339 d'5515 avec1276 en5017 aux1252 du4066 europe1200 pour3577 se1166 une3480 s'1159 un3419 qu'1151 que2752 sont1124 est2728 n'1080 dans2665 cette967 qui2550 ont929 au2164 européenne890 par2083 c'est886 Et parmi lesquelles une majorité (13 919) nont quune occurrence (« hapax »).

12 de182315,4219% a19720,5865% la112043,3321% sur19060,5668% l'85112,5312% il18860,5609% et83362,4791% nous18600,5532% le74882,2269% pas17650,5249% les73292,1797% ce16230,4827% à67572,0095% plus16050,4773% des67191,9982% ne13390,3982% d'55151,6402% avec12760,3795% en50171,4921% aux12520,3723% du40661,2092% europe12000,3569% pour35771,0638% se11660,3468% une34801,0350% s'11590,3447% un34191,0168% qu'11510,3423% que27520,8184% sont11240,3343% est27280,8113% n'10800,3212% dans26650,7926% cette9670,2876% qui25500,7584% ont9290,2763% au21640,6436% européenne8900,2647% par20830,6195% c'est8860,2635% Si lon rapporte le nombre doccurrences (effectif) de chaque classe à N ( ), on établit sa fréquence.

13 Il est plus aisé de comparer des fréquences que des effectifs. 2 ème APPLICATION : Un corpus de 252 numéros du mensuel Le Monde diplomatique de 1980 à Après une segmentation suivant les mêmes normes que pour le corpus « SGAR », et sur la base du même caractère qualitatif : N = V =

14 NB : on peut déjà comparer les « rangs »… de de18231 la la11204 l' l'8511 les et8336 et le7488 le les7329 des à6757 à des6719 d' d'5515 en en5017 du du4066 un pour3577 une une3480 dans un3419 que que2752 qui est2728 est dans2665 par qui2550 pour au2164 a par2083 Monde diplomatique SGAR

15 La comparaison la plus immédiatement « parlante » est celle des fréquences. de ,41% de182315,42% la ,28% la112043,33% l' ,64% l'85112,53% les ,31% et83362,48% et ,22% le74882,23% le ,18% les73292,18% des ,03% à67572,01% à ,95% des67192,00% d' ,68% d'55151,64% en ,51% en50171,49% du ,25% du40661,21% un ,08% pour35771,06% une ,05% une34801,03% dans ,88% un34191,02% que ,87% que27520,82% qui ,80% est27280,81% est ,74% dans26650,79% par ,69% qui25500,76% pour ,68% au21640,64% a ,65% par20830,62%

16 Monde diplomatique SGAR La comparaison la plus immédiatement « parlante » est celle des fréquences. de ,41% de182315,42% la ,28% la112043,33% l' ,64% l'85112,53% les ,31% et83362,48% et ,22% le74882,23% le ,18% les73292,18% des ,03% à67572,01% à ,95% des67192,00% d' ,68% d'55151,64% en ,51% en50171,49% du ,25% du40661,21% un ,08% pour35771,06% une ,05% une34801,03% dans ,88% un34191,02% que ,87% que27520,82% qui ,80% est27280,81% est ,74% dans26650,79% par ,69% qui25500,76% pour ,68% au21640,64% a ,65% par20830,62%

17 RAPPORT DE V ET DE N. Souvent défini comme indice de « richesse » lexicale (parfois mieux dit : « variété » Comparaison difficile. Laccroissement de V (lemploi de formes non encore utilisées) diminue au fur et à mesure du développement du texte (et donc, de laccroissement de N). Le rapport nest en aucun cas proportionnel. De nombreuses formules dindices ont été proposée, sans quaucune parvienne à maîtriser les grandes variations de V. On en est réduit à recenser des échantillons du corpus le plus étendu.

18 RAPPORT DE V ET DE N. En loccurrence, si lon prend plusieurs tranches de mots extraites du Monde diplomatique, on obtient un résultat « V » toujours supérieur au V de SGAR. Exemples : SGARN = V = Mondiplo1N = V = (1980) Mondiplo2N = V = (1986) Mondiplo3N = V = (1998) Mais Le Vicomte de Bragelonne, de Dumas père : N = V = !

19 RAPPORT DE V ET DE N. Quelles conclusions (ne pas) en tirer ? Certains linguistes ont considéré quil sagissait dun indice détendue du lexique sous-jacent. Le terme de « richesse » va dans le sens dun jugement de valeur et a minima dun jugement stylistique. En réalité, le rapport de V à N renvoie à plusieurs facteurs que seules des analyses plus poussées peuvent espérer discriminer.

20 LOI DE ZIPF Liée aux théories de linformation (Shannon, Mandelbrot), cest une loi statistique applicable aux dépouillements lexique-fréquence dans les langues naturelles. Rang décroissant et effectif sont liés : grosso modo, le produit dun rang par leffectif correspondant à ce rang est constant. (plus exactement : où f est leffectif et K une constante) La relation des logarithmes du rang et de leffectif correspondant donne lieu à un nuage de points typiquements alignés.

21 LOI DE ZIPF Vocabulaire de SGAR en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

22 LOI DE ZIPF Vocabulaire de Mondiplo en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

23 LOI DE ZIPF Vocabulaire de La Comédie humaine en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

24 LOI DE ZIPF Vocabulaire d Illusions perdues en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

25 LOI DE ZIPF Vocabulaire du Vicomte de Bragelonne en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

26 GAMMES DE FREQUENCES 2 ANS (N= V=55 663) TOTAL (N= V= )10 ANS (N= V= ) 6 MOIS (N= V=28 085) MD SGAR

27 GAMMES DE FREQUENCES COMEDIE HUMAINE (N= V=66 108) ILLUSIONS (N= V=18 287) BALZAC DUMAS BRAGELONNE (N= V=25 417)

28 2. Probabilités

29 La majorité des tests statistiques employés dans létude des textes sont de nature probabiliste. La probabilité affectée à un événement dans un cadre spatio-temporel défini est un quotient : Le dénominateur est le nombre total de configurations envisageables de tous les facteurs efficaces contenus dans le cadre défini Le numérateur est le nombre de configurations produisant cet événement.

30 Ainsi, la probabilité de tirer un Roi dans un jeu de 32 cartes classique neuf et normal, non marqué, en prenant une seule carte est de 4/32 (il existe 4 configurations favorables pour un total de 32). On comprend que p a pour bornes 0 et 1. Une probabilité peut être inférée des paramètres du cadre (exemples : un dé à six faces) ou (cas le plus fréquent) de lobservation prolongée du cadre (sexe de lenfant à naître, météorologie, voire astrologie…).

31 La distinction est importante. Le modèle théorique dun dé à six faces, conduit à prêter à chacun des six résultats possibles dun lancer simple une probabilité égale (équiprobabilité). Mais on peut tester un dé « réel », qui peut ne pas être équilibré. Il faut alors le lancer un « certain » nombre de fois afin de vérifier si les résultats sont conformes aux prédictions du modèle. Si le dé est mal équilibré, lexpérience permet à un tricheur de détenir un modèle non équiprobable susceptible de lui permettre un système de paris gagnants.

32 Modèle du lancer de dés : un seul lancer Chaque résultat est « équiprobable » Le total des probabilités est 1. Chaque probabilité est comprise entre 0 et 1

33 Un dé « pipé », lancé 1000 fois. Résultats de 1000 lancers : Modèle probabiliste de ce dé :

34 Contraste des deux modèles : Permet de spéculer sur le(s) facteur(s) dune telle déviation. Ici, une masse plus dense entre le centre du dé et la face « 6 » ?

35 Modèle du lancer de dés : un seul lancer Additivité Le total des probabilités reste 1. Chaque probabilité est comprise entre 0 et 1, ces bornes comprises

36 Modèle du lancer de dés : deux lancers Composition exemple A Le total des probabilités reste 1. Attention à lopérateur « ET »

37 Modèle du lancer de dés : deux lancers Composition exemple B Le total des probabilités reste 1. Attention à lopérateur « PUIS »

38 Modèle du lancer de dés : deux lancers Composition exemple C Le total des probabilités reste 1.

39 Modèle du jeu de cartes Les tirages ne sont plus indépendants les uns des autres Exemple 1 : on tire une seule carte. Le total des probabilités reste 1.

40 Modèle du jeu de cartes Les tirages ne sont plus indépendants les uns des autres Exemple 1 : on tire deux cartes SANS REMETTRE LA 1ère. Les probabilités concernant la 2 ème carte sont modifiées par le tirage de la 1 ère carte. Si je tire un Roi, il reste alors 3 rois sur 31 cartes. La probabilité combinée de tirer SIMULTANEMENT 2 rois se calcule ainsi : 4/32 * 3/31 = (si lon remettait la carte et rebattait le jeu, la probabilité de tirer SUCCESSIVEMENT 2 rois serait : 4/32 * 4/32 =

41 Modèle du jeu de cartes Les tirages ne sont plus indépendants les uns des autres La différence de à peut paraître minime… Mais si je tire 4 cartes dans lespoir dobtenir 4 Rois : La probabilité combinée de tirer SIMULTANEMENT 4 rois (un « carré de rois » ) se calcule ainsi : 4/32 * 3/31 * 2/30 * 1/29 = 28 pour UN MILLION (noté 2.78 E-05) (si lon remettait la carte et rebattait le jeu, la probabilité de tirer SUCCESSIVEMENT 2 rois serait : 4/32 * 4/32 * 4/32 * 4/32 = 244 pour un million (noté 2.44 E-04) SOIT 9 FOIS PLUS.

42 Modèle du jeu de cartes En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle (« sans remise ») Exemple : si je compare le vocabulaire dun article de journal à celui de la collection complète de ce journal, cest « comme si » je tirais SIMULTANEMENT dun immense jeu de (mettons) 40 millions de cartes une « poignée » de (mettons) 5000 cartes Si je veux calculer la probabilité que cette « poignée » comporte (mettons) 50 « cartes » marquées « je », je devrai tenir compte du fait que le « stock » total de cartes « je » est limité et épuisable.

43 Modèle du jeu de cartes En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle (« sans remise ») REMARQUE ECLAIRANTE : Quelle est la probabilité de tirer SIMULTANEMENT 5 rois en 5 cartes dans un jeu de 32 cartes ordinaire ?

44 Modèle du jeu de cartes En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle (« sans remise ») REMARQUE ECLAIRANTE : Quelle est la probabilité de tirer SIMULTANEMENT 5 rois en 5 cartes dans un jeu de 32 cartes ordinaire ? Cette probabilité est NULLE. On le montre aisément par le calcul : p = 4/32 * 3/31 * 2/30 * 1/29 * 0/28 = 0 Il en va de même pour lhypothèse de rencontrer 51 occurrences de « je » dans un article si la collection complète nen comporte que 50.

45 Fréquence et probabilité Si lon « prend » (« tire ») un mot au hasard dans la suite des mots du corpus, la probabilité que ce mot soit une occurrence de telle ou telle forme graphique est égale à la fréquence de cette forme dans le corpus (Fréquence et probabilité sont également bornées par 0 et 1) [ DANS LE MODELE LEXICAL DEQUIPROBABILITE ] qui permettra, par contraste avec les observations réelles, de connaître certaines contraintes (STOCHASTIQUES)

46 Fréquence et probabilité Si lon « prend » (« tire ») un mot au hasard dans la suite des mots du corpus, la probabilité que ce mot soit une occurrence de telle ou telle forme graphique est égale à la fréquence de cette forme dans le corpus (Fréquence et probabilité sont également bornées par 0 et 1) [ DANS LE MODELE LEXICAL DEQUIPROBABILITE ] qui permettra, par contraste avec les observations réelles, de connaître certaines contraintes (STOCHASTIQUES)

47 Stochastique On laissera ici de côté la combinatoire syntaxique proprement dite (impossibilité linguistique de la suite « de je », fréquence de la suite « de la » bien supérieure à sa probabilité calculée mot par mot). Combinatoire « lexicale ». Exemple de la séquence « conseil général ». Dans SGAR, la fréquence de « conseil » est 9.57 E-04, celle de « général » de 6.22 E-04. La probabilité de les trouver dans cet ordre est 5.05 E-07 (0.6 pour 1 million). Or, la fréquence de « conseil général » parmi les « bi-formes » du corpus est 2.17 E-04, soit à peine plus faible que celle de ses constituants !

48 Conclusion partielle Face à un événement, produit « naturellement » ou provoqué « artificiellement » (on le nomme un résultat), du type : « je dénombre 8 occurrences de démocratie dans une page de ce livre, qui en compte 355 pour 220 pages » on calcule quelle était la probabilité de ce résultat « avant quil ait eu lieu », cest-à-dire la probabilité a posteriori de se tromper en affirmant quil est dû au hasard (ou linverse, de parier quil va se reproduire, p.ex.) Les « lois » de distribution (binomiale, normale, de Poisson) expriment directement la probabilité de ce qui est observé, comme si elles avaient à le prévoir, et cest ce qui valorise – ou non – lévénement.

49 Conclusion partielle Face à un événement, produit « naturellement » ou provoqué « artificiellement » (on le nomme un résultat), du type : « je dénombre 8 occurrences de démocratie dans une page de ce livre, qui en compte 355 pour 220 pages » on calcule quelle était la probabilité de ce résultat « avant quil ait eu lieu », cest-à-dire la probabilité a posteriori de se tromper en affirmant quil est dû au hasard (ou linverse, de parier quil va se reproduire, p.ex.) Les « lois » de distribution (binomiale, normale, de Poisson) expriment directement la probabilité de ce qui est observé, comme si elles avaient à le prévoir, et cest ce qui valorise – ou non – lévénement.

50 Conclusion partielle Le calcul de lécart-réduit dune observation à sa valeur calculée dans le modèle de léquidistribution substitue un indice « désincarné », épuré dattributs accidentels, à leffectif dénombré. Et cest lui, lécart-réduit, qui répond de sa probabilité « dêtre dû au hasard ». Pour ceux qui le pratiquent, il a incorporé léchelle statistique (on dit « un écart-réduit de 3, un écart-réduit « du feu de Dieu »).

51 3. Distributions Evaluation en probabilité

52 Espérance mathématique. Si un mot quelconque a une probabilité connue dêtre loccurrence dune forme donnée, on peut calculer un nombre « théorique » doccurrences de cette forme dans un ensemble de n mots. Cest ce que la théorie des jeux appelle lespérance mathématique. La formule en est En dautres termes, si lon prend pour norme la fréquence dune forme dans un (vaste) corpus de référence (p), on « sattend » à en trouver, dans un corpus de travail comprenant n mots, p*n occurrences.

53 Effectif « théorique » ou calculé. En dautres termes encore, si lon prend pour norme leffectif (X) dune forme dans un (vaste) corpus de référence comprenant N mots, on « sattend » à en trouver, dans un corpus de travail comprenant n mots, X*n/N occurrences. L « espérance mathématique » est un effectif (un nombre doccurrences). On parle plutôt deffectif théorique, et mieux encore deffectif calculé (vs effectif mesuré), que d « espérance mathématique » Sa formule nous laisse entrevoir quil na pas de borne supérieure* et prendra le plus souvent laspect dun nombre « avec décimales ». * Si ce nest n, au cas où p=1…

54 Cas n°1 : norme exogène Le corpus de travail ne fait pas partie du corpus de référence. Exemple : corpus de travail Monde Diplo, corpus de référence Frantext 19 ème -20 ème siècles. Dans Frantext, la forme « production » a une fréquence de E-04 (195 pour un million). Le n de Mondiplo étant , leffectif calculé de « production » y est de * E-04 =

55 Cas n°1 : norme exogène Le corpus de travail ne fait pas partie du corpus de référence. Exemple : corpus de travail Monde Diplo, corpus de référence Frantext 19 ème -20 ème siècles. Dans Frantext, la forme « production » a une fréquence de E-04 (195 pour un million). Le N de Mondiplo étant , leffectif calculé de « production » y est de * E-04 = Leffectif mesuré (« réel ») est On note donc un excédent, un suremploi. On verra plus loin comment évaluer cet excédent.

56 Cas n°2 : norme endogène Le corpus de travail sert de norme aux sous-ensembles quon veut y étudier (on cherche à étudier les structures lexicales du corpus) Exemple : corpus de travail Monde Diplo, sous-ensemble année Dans Monde Diplo, la forme « production » a une fréquence de E-04 (464 pour un million). Le n de 2000 étant , leffectif calculé de « production » y est de * E-04 =

57 Cas n°2 : norme endogène Le corpus de travail sert de norme aux sous-ensembles quon veut y étudier (on cherche à étudier les structures lexicales du corpus) Exemple : corpus de travail Monde Diplo, sous-ensemble année Dans Monde Diplo, la forme « production » a une fréquence de E-04 (464 pour un million). Le n de 2000 étant , leffectif calculé de « production » y est de * E-04 = Leffectif mesuré (« réel ») est 181. On note donc un déficit, un sous-emploi. On verra plus loin comment évaluer ce déficit.

58 Récapitulons : Le Monde Diplomatique emploie PLUS que la norme de Frantext la forme « production ». En 2000, le Monde Diplomatique emploie MOINS que la norme de sa collection la forme « production ». Excédents et déficits entrent dans une même catégorie : les écarts à léquirépartition. On parle tout dabord décart absolu; cest une soustraction simple. Dans le premier cas, lécart est de = Dans le second cas, il est de =

59 Vue densemble sur les effectifs mesurés (en bleu) et calculés (en rouge) de « production » dans les 21 années du corpus.

60 Evaluation des écarts à la norme endogène. Lexistence décarts entre effectifs mesurés et calculés est normale. Labsence décarts, ou de très faibles écarts, signaleraient des objets fabriqués artificiellement (règle de parité H/F par exemple). On doit évaluer les écarts afin de décider sils sont ou non significatifs (par exemple, si lhistogramme vu précédemment représente une baisse tendancielle significative).

61 Une unité de mesure pertinente Excédents et déficits sont exprimés en effectifs, en nombre dindividus. Ils ne sont comme tels pas comparables entre eux, car plus le corpus est grand, plus des écarts absolus « normaux », non significatifs, vont pouvoir être importants. Ils ne peuvent pas non plus être évalués en pourcentage (excédent de 10%, etc), car ce sont alors les petits corpus qui exprimeront artificieusement des écarts importants. On va chercher une unité de mesure pertinente pour exprimer les écarts indépendamment de la taille du corpus. Une mesure décart pouvant être rapportée à une échelle universelle, et être ainsi évaluée.

62 Lécart-type. Dans lobservation de variables, on nomme écart-type une déviation « moyenne » (en réalité, la racine carrée de la moyenne des carrés des déviations). Cette déviation est la plus probable dans le cadre dexpériences multiples. Par exemple, voici une suite de 200 lancers simultanés de 5 dés, exprimée en total de points.

63 Lécart-type.

64 Moyenne des carrés des déviations (variance) : Racine carrée de la variance (écart-type) : 3.16 Fréquence cumulée des tirages présentant un écart absolu inférieur à 3.16 : = 0.64 Fréquence cumulée des tirages présentant un écart absolu inférieur à 6.32 : = 0.94

65 Lécart-type. La fréquence (probabilité, pour un tirage ultérieur dans les mêmes conditions), dun résultat supérieur à moyenne + 2 écarts-types ( , soit ) ou inférieur à moyenne + 2 écarts-types ( , soit ) est de lordre de 6 %.

66 Calcul de lécart-type. Dans le cas où on nobserve pas des variables aléatoires, mais des distributions réelles (notre cas), on est amené à calculer un écart-type dit « théorique », à partir des paramètres précis du problème étudié. Entrent en jeu : le nombre total de mots du corpus de référence (N) le nombre total de mots du sous-ensemble considéré (n) le nombre total doccurrences de la forme dont on observe la distribution(X) On calcule dabord la variance théorique, selon la formule NB : est une variante du produit pq où q = 1-p

67 Calcul de lécart-type. Lécart-type théorique est la racine carrée de la variance théorique, sa formule est donc : NB : est une variante du produit pq où q = 1-p. Le produit pq est dautant plus élevé que p sapproche de la valeur « centrale » 0.5

68 Calcul de lécart-type. Si lon observe les effectifs dun collège français de 1000 élèves, si le caractère étudié divise la population par moitié (le sexe), lécart-type est de Si le caractère étudié divise la population selon une proportion 5%/95% (enfants dimmigrés non naturalisés), lécart-type est de 6.9. Une répartition réelle de 530 filles et 470 garçons sera peu significative dun facteur discriminant, avec un écart de 30 à la norme donc. En revanche, un même écart absolu, la norme « prévoyant » 50/950, donnera un effectif réel denfants dimmigrés non naturalisés de 20 ou de 80, ce qui dans les 2 cas signale un ou plusieurs facteurs sociaux manifestes (la déviation contient plus de 4 écarts-types, voir interprétation plus bas).

69 Calcul de lécart-type. Dans le cas envisagé plus haut (estimation du déficit de « production » dans lannée 2000 de Mondiplo sur norme endogène – corpus Mondiplo ), les valeurs sont les suivantes : ce qui donne = 17.04

70 Emploi de lécart-type ; lécart-réduit. On se souvient que le déficit était de Il contient donc / 17.04, soit environ 7.1 fois lécart-type. Lécart-réduit est le nombre décarts-types contenus dans lécart absolu, affecté du signe + ou du signe -. Ici, lécart-réduit est La probabilité dun tel écart-réduit dans une distribution aléatoire est infinitésimale. Tableau dinterprétation : zp z = écart réduit p = probabilité datteindre ou dépasser un tel écart-réduit

71 Vue densemble sur les déficits et excédents de « production » dans les 21 années du corpus, vus en écarts-réduits.

72 Evaluation dune distribution en probabilité Sil est intéressant détudier une déviation individuelle, il lest plus encore détudier lensemble des déviations dune distribution donnée. Lhistogramme précédent est significatif au premier regard, mais comment lui attribuer directement et assurément un indice précis ? Comment discriminer les distributions, dans le même cadre, de dizaines de formes ?

73 Evaluation dune distribution en probabilité Comment, par exemple, évaluer la distribution figurée ci- dessous (forme « choix », 3769 occurrences)

74 Test de Pearson, ou Χ² Soit le tableau de valeurs :Lui correspondent des valeurs calculées selon le modèle déquirépartition : choixAUTRESTOTAL choixAUTRESTOTAL 192, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

75 Test de Pearson, ou Χ² Soit le tableau de valeurs :Lui correspondent des valeurs calculées selon le modèle déquirépartition : choixAUTRESTOTAL choixAUTRESTOTAL 192, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , o c

76 Test de Pearson, ou Χ² Pour chaque cellule du tableau (sauf la marge « TOTAL »), on calcule : (o – c)² / c (= variance théorique cf supra) Le X² est la somme de ces calculs. Exemple cellule « A1 » : (214 – )² / = 2.437

77 Test de Pearson, ou Χ² Tableau de valeurs :modèle déquirépartition : Résultats en X² : (somme : 18.32) choixAUTRESTOTAL choixAUTRESTOTAL 192, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,43720,0010 0,22750,0001 0,17870,0006 0,60120,0012 1,23710,0052 0,63700,0021 0,51390,0014 3,55460,0000 1,28800,0006 1,25510,0021 1,60350,0011 0,09620,0004 2,24650,0008 1,50420,0001 0,00210,0038 0,38240,0035 0,14160,0050 0,31310,0001 0,02660,0010 0,01730,0040 0,01960,0007

78 Test de Pearson, ou Χ² Résultats en X² (somme : 18.32) pour « choix » choixAUTRESTOTAL « degrés de liberté »

79 Test de Pearson, ou Χ²

80 Test de Pearson, ou Χ² pour « production » Tableau de valeurs :modèle déquirépartition : Résultats en X² : (somme : ) productio nAUTRESTOTAL productionAUTRESTOTAL 418, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,78300, ,01720, ,42610, ,88450,0012 0,48380, ,43570, ,63770, ,80380,0000 2,21120,0006 0,17030, ,56210, ,85500, ,76610, ,60540, ,03190, ,27240, ,55770, ,16540, ,08400, ,52870, ,31780,0007

81 Test de Pearson, ou Χ² Résultats en X² (somme : ) pour « production » 20 « degrés de liberté » productionAUTRESTOTAL

82 Limites du X² Le X² ne peut semployer que pour comparer des distributions en effectifs, et (comme lécart-réduit, dont il est parent), lorsque les effectifs « calculés » ne sont pas inférieurs à un seuil de pertinence (5, 10…) Surtout, le X² a les propriétés de son modèle (la distribution aléatoire). Son interprétation dans létude des distributions lexicales est fiable pour un « nombre de tirages » raisonnable. Au- delà (par exemple, de occurrences), même des items comme « de » ou « le » prennent des valeurs dont la « probabilité » selon le modèle aléatoire est infinitésimale (ainsi en va-t-il de lorganisation textuelle…) Le résultat est « juste », mais non interprétable.

83 La corrélation des rangs Revenons au cas de « production » dans Mondiplo. Cette forme a un profil qui semble fort caractéristique : emploi décroissant en diachronie. Nous voyons que le X² de cette distribution est très élevé (le 4 ème au total de tout le vocabulaire du corpus). En complément, un test simple et rapide permet de valider limpression visuelle (qui peut être trompeuse).

84 La corrélation des rangs On range les années du corpus par écart-réduit croissant à léquidistribution (on leur attribue un rang) ANNEEDEVIATIONRANG _ ,51541 _1996-9,54772 _1997-8,82783 _1998-8,34344 _1995-7,71295 _2000-7,07646 _1993-6,53117 _1987-6,09138 _1990-6,04209 _1994-5, _1992-5, _1991-5, _1984-2, _1989-2, _1988-1, _19830, _19854, _19826, _19866, _19807, _198112,942121

85 La corrélation des rangs On range les années du corpus par écart-réduit croissant à léquidistribution (on leur attribue un rang) ANNEEDEVIATIONRANG _ ,51541 _1996-9,54772 _1997-8,82783 _1998-8,34344 _1995-7,71295 _2000-7,07646 _1993-6,53117 _1987-6,09138 _1990-6,04209 _1994-5, _1992-5, _1991-5, _1984-2, _1989-2, _1988-1, _19830, _19854, _19826, _19866, _19807, _198112, ANN EE DEVIATI ON RA NG DIACHRO NIE(R-D)² _19807, _198112, _19826, _19830, _1984-2, _19854, _19866, _1987-6, _1988-1, _1989-2, _1990-6, _1991-5, _1992-5, _1993-6, _1994-5, _1995-7, _1996-9, _1997-8, _1998-8, _ , _2000-7, Σ d² 2936 On calcule les écarts entre les rangs selon les 2 ordres (on les porte au carré et on les totalise – Σ d² - )

86 La corrélation des rangs On range les années du corpus par écart-réduit croissant à léquidistribution (on leur attribue un rang) ANNEEDEVIATIONRANG _ ,51541 _1996-9,54772 _1997-8,82783 _1998-8,34344 _1995-7,71295 _2000-7,07646 _1993-6,53117 _1987-6,09138 _1990-6,04209 _1994-5, _1992-5, _1991-5, _1984-2, _1989-2, _1988-1, _19830, _19854, _19826, _19866, _19807, _198112, ANN EE DEVIATI ON RA NG DIACHRO NIE (R- D)² _19807, _198112, _19826, _19830, _1984-2, _19854, _19866, _1987-6, _1988-1, _1989-2, _1990-6, _1991-5, _1992-5, _1993-6, _1994-5, _1995-7, _1996-9, _1997-8, _1998-8, _ , _2000-7, TOTAL2936 On calcule les écarts entre les rangs selon les 2 ordres (on les porte au carré et on les totalise – Σ d² - ) n est le nombre de lignes comparées. ρ (rho) est un indice dont les bornes sont -1 et +1.

87 La corrélation des rangs On range les années du corpus par écart-réduit croissant à léquidistribution (on leur attribue un rang) ANNEEDEVIATIONRANG _ ,51541 _1996-9,54772 _1997-8,82783 _1998-8,34344 _1995-7,71295 _2000-7,07646 _1993-6,53117 _1987-6,09138 _1990-6,04209 _1994-5, _1992-5, _1991-5, _1984-2, _1989-2, _1988-1, _19830, _19854, _19826, _19866, _19807, _198112, ANN EE DEVIATI ON RA NG DIACHRO NIE (R- D)² _19807, _198112, _19826, _19830, _1984-2, _19854, _19866, _1987-6, _1988-1, _1989-2, _1990-6, _1991-5, _1992-5, _1993-6, _1994-5, _1995-7, _1996-9, _1997-8, _1998-8, _ , _2000-7, TOTAL2936 On calcule les écarts entre les rangs selon les 2 ordres (on les porte au carré et on les totalise – Σ d² -) n est le nombre de lignes comparées. ρ (rho) est un indice dont les bornes sont -1 et +1. Ici, le résultat est

88

89 Corrélation négative de probabilité infinitésimale.

90 La corrélation des rangs Mêmes données et calculs pour « femmes » ANN EE DEVIATI ON RA NG DIACHRO NIE (R- D)² _1980-3, _1981-8, _1982-6, _1983-4, _1984-1, _1985-5, _1986-8, _1987-5, _1988-1, _1989-4, _1990-4, _1991-4, _1992-5, _1993-2, _19940, _19953, _19966, _199717, _199819, _199911, _200010, X² TOTAL326 ρ = Corrélation positive de probabilité infinitésimale.

91 La corrélation des rangs On peut aussi comparer 2 profils distributionnels particuliers Exemple : république et démocratie

92 La corrélation des rangs république et démocratie ρ = Corrélation positive de très basse probabilité. ANN EE DEMOCRA TIE REPUBLIQ UE(R-D)² _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ X² TOTAL550

93 La corrélation des rangs On peut aussi comparer 2 profils distributionnels particuliers Exemple : internationale et mort

94 La corrélation des rangs Internationale et mort ρ = Corrélation négative de basse probabilité. ANNEE internation alemort(R-D)² _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ X² TOTAL2376

95 La corrélation des rangs On peut aussi comparer 2 profils distributionnels particuliers Contre-exemple : chef et manière

96 La corrélation des rangs chef et manière ρ = Corrélation positive banale, sans signification. ANN EEchefmanière(R-D)² _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ X² TOTAL1162

97 4. Distributions Généralisations et synthèses Classifications

98 Profil distributionnel. Dans les études précédentes, nous avons vu de nombreux histogrammes décarts-réduits à léqui-distribution. Ce sont des images, calculées, de la propriété statistique majeure des unités textuelles, corrélat de leurs fonctions linguistiques, fondement de leur sémantisme : lirrégularité de leur distribution. Cet autre histogramme, celui de tiers-monde, en dit plus long que bien des phrases sur le discours de la presse anti-mondialiste, sur celui du monde dominant, sur leurs idéologies respectives, sur leurs rapports mutuels.

99 Profil distributionnel. On nommera ces histogrammes et ce quils figurent des profils distributionnels.

100 Profil distributionnel. Nous les avons comparés à une norme idéale (tirages aléatoires), à un ordre de référence (diachronie), et entre eux deux à deux. Mais nous navons pas la vision synthétique promise en échange de lemploi fastidieux des méthodes statistiques. Même si notre intuition nous mène à de brillantes ouvertures, et si la validation individuelle nous y conforte, il nous manque les calculs densemble qui seuls nous permettraient de nous orienter en nous élevant au-dessus du substrat.

101 Profil distributionnel. Cette « hauteur de vue », nous allons la chercher dans les méthodes de comparaison générale des profils, que nous appellerons méthodes classificatoires. Elles sont de 3 ordres (imbriqués et cousins) : Classifications hiérarchiques (ascendante – CHA – ou descendante – CHD) Calcul de distances + visualisations arborées Analyse Factorielle des Correspondances (AFC)

102 Profil distributionnel. Classifications hiérarchiques (ascendante – CHA – ou descendante – CHD) Il sagit de former des « clusters » (grappes) dans un ensemble de variables, formalisées en un nuage de points, qui représentent des classes et des sous- classes. La CHA (CAH) est la plus connue, et procède par fusions successives de clusters déjà existants. La CHD (CDH) procède à linverse par segmentation progessive. Toutes deux supposent une définition et une méthode de calcul des « distances » entre points déterminés par lalgèbre dune matrice de données. Il sagit de méthodes et de visualisations dichotomiques. Même si des méthodes en aval rétablissent des ponts, les classes formées sont exclusives et étanches. Elles mettent en valeur des points de rupture et peuvent être « piégées » par des structures de données où plusieurs « chemins » (bifurcations) sont proches en termes de pertinence (cest souvent le cas des données textuelles).

103 Profil distributionnel. Distances et représentations arborées Hyperbase contient ces fonctions. On calcule, par exemple, la distance de Jaccard pour chaque paire de variables selon un critère déterminé (par exemple, distribution des formes graphiques, de traits grammaticaux…), et on dispose les résultats dans une matrice « carrée » (réduite ou non, avec ou sans diagonale). Puis, lanalyse arborée consiste à construire un graphe « arbre », où chaque variable est une feuille, où les feuilles se regroupent en rameaux, branches et troncs, de manière à figurer des clusters, mais surtout à ce que la longueur totale de tous les chemins entre feuilles (paire à paire), soit proportionnelle à la distance indiquée dans la matrice. Cette méthodologie est particulièrement indiquée pour visualiser les similarités et dissimilarités; elle représente un compromis entre une approche dichotomique/hiérarchique et une approche visant au continuum, ce quest lAFC.

104 Lanalyse factorielle des correspondances. Soit le tableau de distribution suivant (avec ses « marges ») : TOTAL développement gouvernement guerre marché société tiers-monde travail production TOTAL

105 Lanalyse factorielle des correspondances. On peut lui confronter un tableau « dindépendance », où les valeurs sont calculées dans lhypothèse déquirépartition TOTAL développement2849,732447,222399,972302,522598, gouvernement3492,382999,12941,22821,773184, guerre3686,473165,773104,652978,583361, marché2403,882064,352024,491942, société2451,392105,142064,51980,662235, tiers-monde1058,87909,306891,751855,54965, travail2408,632068,422028,491946,122196, production1854,661592,691561,951498,521691, TOTAL TOTAL développement gouvernement guerre marché société tiers-monde travail production TOTAL contingence « correspondance » indépendance

106 Lanalyse factorielle des correspondances. On peut lui confronter un tableau « dindépendance », où les valeurs sont calculées dans lhypothèse déquirépartition TOTAL développement gouvernement guerre marché société tiers-monde travail production TOTAL contingence indépendance TOTAL développement2849,732447,222399,972302,522598, gouvernement3492,382999,102941,202821,773184, guerre3686,473165,773104,652978,583361, marché2403,882064,352024,491942,282192, société2451,392105,142064,501980,662235, tiers-monde1058,87909,31891,75855,54965, travail2408,632068,422028,491946,122196, production1854,661592,691561,951498,521691, TOTAL développement404,27337,7857,03-186,52-612,55 gouvernement548,6238,90-496,20-42,77-48,56 guerre-718,47-172,77267,35262,42361,47 marché-633,88-260,35313,51362,72218,00 société-426,39-407,1485,5084,34663,69 tiers-monde540,13475,69114,25-367,54-762,54 travail-352,63-232,42-260,49130,88714,67 production638,34220,31-80,95-243,52-534,18 On en déduit un tableau des écarts :

107 Lanalyse factorielle des correspondances. On va travailler sur le tableau des écarts, dit « T 1 » développement404,27337,7857,03-186,52-612,55 gouvernement548,6238,90-496,20-42,77-48,56 guerre-718,47-172,77267,35262,42361,47 marché-633,88-260,35313,51362,72218,00 société-426,39-407,1485,5084,34663,69 tiers-monde540,13475,69114,25-367,54-762,54 travail-352,63-232,42-260,49130,88714,67 production638,34220,31-80,95-243,52-534,18 On cherche quelles marges pourraient, par multiplication, donner un tablea aussi approchant que possible

108 Lanalyse factorielle des correspondances. Une sorte de tableau dindépendance « dérivé » … On considère chaque valeur du vecteur C comme coordonnée du point ligne correspondant sur un axe bi- orienté, et chaque valeur du vecteur L comme coordonnée du point colonne correspondant : VECTEUR C développement297, , , , , ,91846 gouvernement109, , , , , ,10376 guerre-221, ,005027, , , ,34388 marché-307, , , , , ,39572 société-363, , , , , ,02552 tiers-monde1079, , , , , ,49216 travail-341, , , , , ,98334 production484, , , , , ,66498 VECTEUR L-21, ,661920, , ,20060

109 Lanalyse factorielle des correspondances. LAFC est algorithme itératif. La passe n°2 consiste à confronter T1 au tableau « calculé » T1 Calculé daprès T1 On en déduit un tableau des écarts …. : … développement404,27337,7857,03-186,52-612,55 gouvernement548,6238,90-496,20-42,77-48,56 guerre-718,47-172,77267,35262,42361,47 marché-633,88-260,35313,51362,72218,00 société-426,39-407,1485,5084,34663,69 tiers-monde540,13475,69114,25-367,54-762,54 travail-352,63-232,42-260,49130,88714,67 production638,34220,31-80,95-243,52-534, développement106, , , , ,87881 gouvernement439, , , , ,16641 guerre-497, , , , ,45194 marché-326, , , , ,17519 société-62, , , , ,60641 tiers-monde-539, , , , ,38938 travail-10, , , , ,89661 production153, , , , , développement297, , , , ,67200 gouvernement109, , , , ,72157 guerre-221, ,005027, , ,01586 marché-307, , , , ,17650 société-363, , , , ,07884 tiers-monde1079, , , , ,92489 travail-341, , , , ,77310 production484, , , , ,83607

110 Lanalyse factorielle des correspondances. … sur lequel on va appliquer la même recherche des marges permettant la meilleure approximation développement106, , , , ,87881 gouvernement439, , , , ,16641 guerre-497, , , , ,45194 marché-326, , , , ,17519 société-62, , , , ,60641 tiers-monde-539, , , , ,38938 travail-10, , , , ,89661 production153, , , , , VECTEUR C développement-89, , , , ,059965,5216 gouvernement341, , , , , ,1344 guerre-208, , , , , ,9472 marché-363, , , , , ,5386 société43, , , , , ,6894 tiers-monde-313, , , , , ,4208 travail276, , , , , ,136 production144, , , , , ,9726 VECTEUR L-16,136404, ,989603, ,13720

111 Lanalyse factorielle des correspondances. Une sorte de 2ème tableau dindépendance « dérivé » … On effectue la même projection quen 1, sur un 2 ème axe, orthogonal au 1 er : VECTEUR C développement-89, , , , ,059965,5216 gouvernement341, , , , , ,1344 guerre-208, , , , , ,9472 marché-363, , , , , ,5386 société43, , , , , ,6894 tiers-monde-313, , , , , ,4208 travail276, , , , , ,136 production144, , , , , ,9726 VECTEUR L-16,136404, ,989603, ,13720

112 Lanalyse factorielle des correspondances. Un système de coordonnées sur un plan de 2 « facteurs »

113 Lanalyse factorielle des correspondances. Un système de coordonnées sur un plan de 2 « facteurs »

114 Lanalyse factorielle des correspondances. Autant ditérations (de « facteurs ») que le tableau comporte de colonnes (ou de lignes, sil y a moins de lignes que de colonnes) – en comptant le Facteur 0, qui correspond au tableau T0 de départ. Chaque itération extrait une part décroissante de linformation totale du tableau dorigine (le total des « pourcentages dinertie » est 100%.

115 Lanalyse factorielle des correspondances. Un système de coordonnées sur un plan de 2 « facteurs »

116 Lanalyse factorielle des correspondances. Un système de coordonnées sur un plan de 2 « facteurs » Mais ici, avec 244 lignes et 21 colonnes, il y a 2O facteurs, dont lhistogramme indique la « décroissance » en % dinformation. Le 3 ème facteur mériterait dêtre visualisé. Nous en reparlerons plus loin.

117 Lanalyse factorielle des correspondances. Tout tableau de données comportant des lignes décrivant des classes doccurrences du corpus des colonnes décrivant des variables recouvrant une partie du corpus des cellules « intersections » rendant compte deffectifs peut être soumis à lAFC. Celle-ci classe les profils de lignes par parentés, chaque facteur extrayant successivement linformation résiduelle ; et les profils de colonnes de même, en assurant la correspondane entre les lignes et les colonnes. Moyennant certaines précautions, il sagit de la visualisation synthétique la plus fidèle des informations dominantes dune matrice de données de cet ordre. Le résultat de lAFC est un (double) nuage de points, chaque point ayant ses coordonnées sur N axes orthogonaux (dans un espace à N dimensions), autant quil y a de facteurs.

118 Lanalyse factorielle des correspondances. Les applications sont nombreuses et variées. En statistique lexicale et plus largement : textuelle, les lignes sont généralement des types, formes graphiques, lemmes, indices grammaticaux, codes sémantiques attribués… les colonnes peuvent renvoyer à des partitions linéaires (chapitres douvrages, tranches diachroniques, des auteurs/locuteurs, des classes dauteurs, des rubriques de presse, des CSP… classiquement des critères considérés comme non textuels, « exogènes ». Mais Max Reinert, avec Alceste, avait déjà institué en colonnes des unités vraiment textuelles (UT), constituées de phrases ou de membres de phrases (le tableau avait alors un très grand nombre de colonnes, et Alceste procédait à un classification hiérarchique avant de se risquer à une AFC sur des données simplifiées). Viprey (1996) a proposé de constituer des tableaux « carrés », constitués de colonnes identiques aux lignes. A lintersection, le nombre de co-occurrences entre deux formes, deux lemmes… dans un empan cotextuel paramétrable.

119 AFC des cooccurrences Exemple : 12 formes fréquentes dans Mondiplo culture5194 dollars9691 élections4402 fonds3991 liberté4385 libertés1176 parti12814 production8199 ressources3557 social5197 société10837 sociétés4714 Balayage de lensemble du corpus à la recherche des cooccurrences entre ces 12 formes, dans les limites de 15 mots à gauche et à droite, et dans les limites de la phrase (ponctuation forte) culturedollarsélectionsfondslibertélibertéspartipartisproductionressourcessocialsociétésociétés culture dollars élections fonds liberté libertés parti partis production ressources social société sociétés

120 AFC des cooccurrences culturedollarsélectionsfondslibertélibertéspartipartisproductionressourcessocialsociétésociétés culture0,0000-4,1619-5,7677-2,03734,04351,8438-5,8313-2,94813,0365-1,12142,295413,66262,6713 dollars-4,11380,0000-6,343626,1306-3,9473-2,6466-8,0158-5,00329,26814,5638-4,3563-0,48775,6788 élections-5,6659-6,30450,0000-5,4651-1,48440,635430,185612,6993-6,5914-4,4091-5,8780-7,3452-5,6298 fonds-2,024326,2676-5,52780,0000-3,5873-2,8003-6,4969-4,6319-1,17139,30822,1514-4,27881,5607 liberté4,0702-4,0198-1,5210-3,63410,000014,86751,4158-1,2846-3,8726-0,7754-0,12483,69820,5285 libertés1,8826-2,73380,6604-2,877415,08050,0000-1,8658-1,5283-3,0058-2,39781,23721,2400-1,7676 parti-5,4862-7,629628,9093-6,15161,3233-1,71930,000017,2584-6,9917-4,82294,15351,3945-7,1811 partis-2,9033-4,984912,7313-4,5909-1,2568-1,474218,06580,0000-5,5923-4,4464-2,4210-1,5378-4,9145 production3,00769,2870-6,6459-1,1676-3,8106-2,9159-7,3607-5,62430,00008,34262,27614,125210,0786 ressources-1,12634,6376-4,50829,4094-0,7737-2,3589-5,1490-4,53498,46020,0000-0,9655-0,13062,1281 social2,2715-4,3614-5,92132,1427-0,12271,19924,3689-2,43272,2741-0,95130,00004,32562,5427 société13,1711-0,4757-7,2081-4,15133,54181,17081,4289-1,50534,0151-0,12544,21390,00001,9331 sociétés2,67225,7472-5,73291,57120,5252-1,7319-7,6355-4,992010,17912,11942,57032,00590,0000 Ecarts à lindépendance (tableau T1) La diagonale est neutralisée

121 AFC des cooccurrences Comparaison des profils cooccurrentiels de élections et parti

122 AFC des cooccurrences Comparaison des profils cooccurrentiels de liberté et culture

123 AFC des cooccurrences Comparaison des profils cooccurrentiels de dollars et parti

124 AFC des cooccurrences Plan des 2 premiers facteurs

125 AFC des cooccurrences 244 formes lexicales les plus fréquentes, empan 15g/15d limite de phrase. Plan des 2 premiers facteurs (23 % de linertie).

126 AFC des cooccurrences 244 formes lexicales les plus fréquentes, empan 15g/15d limite de phrase Inerties cumulées des facteurs 1 et 2 : 23 % Visualiser lensemble des 3 premiers facteurs donnerait une meilleure approximation (Cibois 1994:85) Nuage très enchevêtré Centre du nuage encombré de points

127 Visualisation des 3 premiers facteurs On visualise classiquement le plan de 2 facteurs (1/2, 1/3, 2/3..) Les tentatives « 3D », « MacSpin »… aboutissent à des visualisations erronées (et non plus « approximatives » ! nuage vu de lextérieur avec des superpositions trompeuses) Rappel : en AFC, tous les axes représentant les facteurs sont orthogonaux (dans certaines autres méthodes, ils peuvent présenter des angles différents). Donc, si lon prend pour point de départ le plan des 2 premiers facteurs, on conçoit aisément que laxe du 3 ème facteur coupe celui-ci à angle droit, « verticalement », de part en part. Ensemble, les 3 axes orthogonaux constituent un repère « sphérique » Le nuage sinscrit dans une boule. Une boule ne peut être représentée sur le plan dune feuille de papier ou dun écran que par un planisphère.

128 Visualisation des 3 premiers facteurs Une boule ne peut être représentée sur le plan dune feuille de papier ou dun écran que par un planisphère. Inertie cumulée visualisée : 31%

129 Visualisation des 3 premiers facteurs Une boule ne peut être représentée sur le plan dune feuille de papier ou dun écran que par un planisphère. Inertie cumulée visualisée : 31%

130 Visualisation des 3 premiers facteurs Zoom « régional »

131 Visualisation des 3 premiers facteurs Les fortes contributions au facteur 1 :

132 Visualisation des 3 premiers facteurs Les fortes contributions au facteur 2 :

133 Visualisation des 3 premiers facteurs Les fortes contributions au facteur 3 :

134 Visualisation des 3 premiers facteurs Marquage des formes excédentaires en 1980 :

135 Visualisation des 3 premiers facteurs Marquage des formes excédentaires (bleu) et déficitaires (rouge) en 1980 :

136 Visualisation des 3 premiers facteurs Marquage des formes excédentaires (bleu) et déficitaires (rouge) en 2000 :

137 Visualisation des 3 premiers facteurs Marquage des formes excédentaires sur (rouge), (magenta), (bleu), (vert) :

138 Retour à la 1 ère application Marquage des formes excédentaires sur CBLP (rouge), CPTP (magenta), CGSR (bleu), PPOCO (vert) :

139 Conclusions Les statistiques lexicales offrent deux voies qui peuvent diverger fortement ou au contraire être maintenues parallèles par leffort de lanalyste. Démarche hypothético-déductive, où lon cherche à valider et raffiner une hypothèse par test(s) probatoire(s), oui/non Démarche exploratoire, où la seule « hypothèse » est au fond quun discours dans son organisation textuelle sécarte en tous points des modalités de laléatoire et de léquidistribution.

140 Conclusions Lessentiel de cette démarche consiste à mesurer des écarts, locaux, régionaux, globaux, individuels et/ou corrélés, à deux modèles : aléatoire, equidistributif. Une fois mesurés, ils sont pondérés et rapportés pour lessentiel à des probabilités (donc, à des issues diverses pour linterprétation et à des poursuites bifurcantes). Cest pourquoi, même si en droit certaines techniques et formules ne peuvent être dites probabilistes, lensemble quelles forment autour des objets textuels pour éclairer le discours est une démarche probabiliste.


Télécharger ppt "Eléments de statistique et de visualisations pour lanalyse textuelle Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus."

Présentations similaires


Annonces Google