La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La richesse lexicale dans une perspective de lexicométrie arabe Etude contrastive de cinq méthodes de mesure Application à al-Imtâ wa l-muânasa de Tawhîdî

Présentations similaires


Présentation au sujet: "La richesse lexicale dans une perspective de lexicométrie arabe Etude contrastive de cinq méthodes de mesure Application à al-Imtâ wa l-muânasa de Tawhîdî"— Transcription de la présentation:

1 La richesse lexicale dans une perspective de lexicométrie arabe Etude contrastive de cinq méthodes de mesure Application à al-Imtâ wa l-muânasa de Tawhîdî (932-1024) 5 èmes Journées de linguistique de corpus Lorient les 13, 14 et 15 septembre 2007 Zoubeïr MOUELHI ICAR Université Lumière-Lyon2

2 2 PLAN Autour de la notion de richesse lexicale Les méthodes de mesure La méthode de comparaison des indices La formule de Guiraud Lindice W de Brunet La méthode binomiale de Muller Lindice V m de Yule-Herdan Bilan Conclusion

3 3 Richesse lexicale difficile à définir Lexicométrie un dénominateur commun : « lieu de comparaison entre deux ou plusieurs textes en fonction de leur étendue respective et du nombre de vocables relevés dans chacun deux » [1] [1] Décrire la structure lexicale ou la comparer à dautres corpus indépendante du contenu propriété quantitative Notion absolue ou relative ? "Neutralité" du terme Richesse « mieux vaut donc comprendre le mot "richesse" comme un terme neutre, un peu comme font les physiciens pour qui "vitesse" ne se confond pas avec "rapidité" » [ 2 ] [ 2 ] [1][1] Nathan Ménard, Mesure de la richesse lexicale. Théorie et vérifications expérimentales : Etudes stylométriques et sociolinguistiques, 1983, p. 16 [2][2] Thoiron, Ph., Richesse lexicale et classement des textes, dans Études sur la richesse et la structure lexicales, 1988, pp. 141-163, p.142.

4 4 Les méthodes de mesure de la richesse lexicale Problèmes : objectivité, comparaison, évaluer V en fonction de N, influence de létendue sur la RL, existe-t-il un indice/échelle ( thermomètre)? Solutions multiples : V/N, V1/V et V1/N influence de létendue dautres méthodes La méthode de comparaison des indices, la formule de Guiraud ( ), lindice W de Brunet, la méthode binomiale de Muller et lindice Vm de Yule-Herdan

5 5 Méthode des indices : Comparaison binaire des textes en confrontant les 4 indices NVV1V1 q1q1 Texte ANuit 810788196712495,4840,3650 Texte BNuit 59063402652,6650,2206 1111 NVV1V1 q1q1 Texte ANuit 9460710036374,5930,3649 Texte BNuit 4424811338343,7490,2639 0011 Comparaisons binaires = q1 =

6 6 Interprétation des combinaisons dindices Combinaisons Indicateurs partiels de la richesse lexicale Interprétation globaleSymbole VV1V1 q1q1 1 - 1 - 1 - 1???? ?? 1 - 1 - 0 – 0??AA A plus riche que B + 0 - 0 - 1 – 1BB?? A moins riche que B - 0 - 0 - 1 – 0BB?A (A moins riche que B) (-) 0 - 1 - 1 - 0B??A (A moins riche que B) (-) 1 - 0 - 0 - 1?BA? (A plus riche que B) (+) 1 - 1 - 0 - 1??A? (A plus riche que B) (+) 1 - 0 - 1 - 1?B?? (A moins riche que B) (-) 1 - 1 - 1 - 0???A ??

7 7 Valeurs des indices pour chacune des nuits al-Imtâ wa l-muânasa NuitsNVV1V1 q1q1 Nuit 08 10788196712495,4840,3650 Nuit 10 9564177210335,3970,4170 Nuit 06 7079164411404,3060,3066 Nuit 00 5062141210483,5850,2578 Nuit 09 460710036374,5930,3649 Nuit 04 424811338343,7490,2639 Nuit 14 32718195463,9940,3333 Nuit 02 31158966493,4770,2757 Nuit 07 25696884643,7340,3256 Nuit 01 24787034983,5250,2916 Nuit 13 24275353424,5360,3607 Nuit 03 20046274703,1960,2504 Nuit 15 17735103443,4760,3255 Nuit 16 12864203133,0620,2548 Nuit 05 9063402652,6650,2206

8 8 Résultat des comparaisons binaires des Nuits selon la méthode des indices

9 9 Classement de quelques Nuits en fonction de la richesse lexicale selon la méthode des indices Nuit 02 Nuit 01 Préambule Nuit 14Nuit 03 Nuit 07 Nuit 06Nuit 04 Nuit 15Nuit 09 AB comparaison non résolue Nuit 13 AB A est plus riche que B Nuit 2 Nuit 1 Nuit 7 Nuit 13 Nuit 2 Nuit 14 Nuit 15 Préambule Nuit 14 Nuit 15 Préambule Nuit 7 Nuit 13 Préambule Nuit 4 Nuit 9 Nuit 3 Nuit 13 Nuit 3 Nuit 15 Nuit 6 Nuit 9 Nuit 6 Nuit 13

10 10 NuitsNVClassement Nuit 005062141219,846Nuit 00506219,846 Nuit 01247870314,122Nuit 06707919,540 Nuit 02311589616,054Nuit 081078818,938 Nuit 03200462714,006Nuit 10956418,119 Nuit 044248113317,384Nuit 04424817,384 Nuit 0590634011,296Nuit 02311516,054 Nuit 067079164419,540Nuit 09460714,777 Nuit 07256968813,574Nuit 14327114,320 Nuit 0810788196718,938Nuit 01247814,122 Nuit 094607100314,777Nuit 03200414,006 Nuit 109564177218,119Nuit 07256913,574 Nuit 13242753510,860Nuit 15177312,112 Nuit 14327181914,320Nuit 16128611,712 Nuit 15177351012,112Nuit 0590611,296 Nuit 16128642011,712Nuit 13242710,860 Classement des Nuits selon lindice de richesse lexicale de Guiraud

11 11 Selon la formule de Guiraud (1 / 3)

12 12 Selon la formule de Guiraud (2 / 3) Test de corrélation des rangs de Spearman

13 13 Selon la formule de Guiraud (3 / 3)

14 14 Classement des Nuits selon lindice W de Brunet NV Classement WR Nuit 00506214123,48150,287211,5875Nuit 0011,58750,8942 Nuit 0124787033,08800,323812,5640Nuit 0611,94720,8702 Nuit 0231158963,21960,310612,1639Nuit 0412,08750,8608 Nuit 0320046273,02780,330312,3174Nuit 0512,16370,8558 Nuit 04424811333,35220,298312,0875Nuit 0212,16390,8557 Nuit 059063402,72530,366912,1637Nuit 0312,31740,8455 Nuit 06707916443,57380,279811,9472Nuit 0812,42160,8386 Nuit 0725696883,07660,325012,8323Nuit 0112,56400,8291 Nuit 081078819673,68580,271312,4216Nuit 1012,57640,8282 Nuit 09460710033,28260,304613,0616Nuit 1612,59390,8271 Nuit 10956417723,62020,276212,5764Nuit 0712,83230,8112 Nuit 1324275352,94630,339414,0904Nuit 1412,84300,8105 Nuit 1432718193,17020,315412,8430Nuit 1512,93460,8044 Nuit 1517735102,92210,342212,9346Nuit 0913,06160,7959 Nuit 1612864202,82620,353812,5939Nuit 1314,09040,7273

15 15 Selon lindice W de Brunet (1 / 3) Traduit une réduction de linfluence de létendue

16 16 Selon lindice W de Brunet (2 / 3)

17 17 Selon lindice W de Brunet (3 / 3)

18 18 Classement des Nuits selon la méthode binomiale de Muller N V réelle V théorique Ecart absolu Ecart réduit Ecart translaté Classement Ecart translaté Nuit 00 506214121397,8114,1933,230,4335,43 Nuit 0035,43 Nuit 01 2478703818,02- 115,0226,78- 4,2930,71 Nuit 0533,44 Nuit 02 3115896974,36- 78,3628,84- 2,7232,28 Nuit 0332,32 Nuit 03 2004627693,82- 66,8224,93- 2,6832,32 Nuit 0232,28 Nuit 04 424811331229,17- 96,1731,66- 3,0431,96 Nuit 0431,96 Nuit 05 906340369,14- 29,1418,67- 1,5633,44 Nuit 1631,76 Nuit 06 707916441776,87- 132,8736,09- 3,6831,32 Nuit 0631,32 Nuit 07 2569688841,04- 153,0427,11- 5,6529,35 Nuit 0130,71 Nuit 08 1078819672373,00- 406,0039,07- 10,3924,61 Nuit 1529,96 Nuit 09 460710031304,86- 301,8632,39- 9,3225,68 Nuit 0729,35 Nuit 10 956417722187,81- 415,8138,32- 10,8524,15 Nuit 1428,44 Nuit 13 24275351750,85- 1215,8535,92- 33,851,15 Nuit 0925,68 Nuit 14 32718191011,07- 192,0729,28- 6,5628,44 Nuit 0824,61 Nuit 15 1773510630,37- 120,3723,89- 5,0429,96 Nuit 1024,15 Nuit 16 1286420488,85- 68,8521,28- 3,2431,76 Nuit 131,15 T (N = 61177) T (N = 5062)T - T p = 0,083q = 0,917

19 19 Selon la méthode binomiale de Muller (1 / 4)

20 20 Selon la méthode binomiale de Muller (2 / 4) Réduction de linfluence de létendue

21 21 Selon la méthode binomiale de Muller (3 / 4)

22 22 Selon la méthode binomiale de Muller (4 / 4)

23 23 Classement des Nuits selon lindice Vm de Yule-Herdan NVV1V1 f f VmVm Nuit 005062141210483,5828,287,890,210 Nuit 0124787034983,5219,065,410,204 Nuit 0231158966493,4822,026,330,212 Nuit 0320046274703,2018,855,900,236 Nuit 04424811338343,7525,006,670,198 Nuit 059063402652,6614,355,390,292 Nuit 067079164411404,3128,676,660,164 Nuit 0725696884643,7318,014,820,184 Nuit 0810788196712495,4828,975,280,119 Nuit 09460710036374,5920,644,490,142 Nuit 109564177210335,4025,494,720,112 Nuit 1324275353424,5414,973,300,143 Nuit 1432718195463,9919,544,890,171 Nuit 1517735103443,4815,534,470,198 Nuit 1612864203133,0615,284,990,244

24 24 Selon lindice Vm de Yule-Herdan (1 / 4) Sous linfluence de N et de V 1

25 25 Selon lindice Vm de Yule-Herdan (2 / 4) Confirmation de linfluence de V1 sur lindice Vm en comparant les deux diagrammes de la richesse lexicale, selon lindice Vm et le quotient V1/V

26 26 Selon lindice Vm de Yule-Herdan (3 / 4)

27 27 Selon lindice Vm de Yule-Herdan (4 / 4)

28 28 BILAN NuitClassement selon : Guiraud ( ) Brunet ( W ) Muller ( Binomiale ) Yule-Herdan ( V m ) Nuit 001115 Nuit 019886 Nuit 026544 Nuit 0310633 Nuit 045357 Nuit 0514521 Nuit 0622711 Nuit 0711 109 Nuit 08371314 Nuit 097141213 Nuit 10491415 Nuit 1315 12 Nuit 148121110 Nuit 15121398 Nuit 16131062 Récapitulatif des classements selon les différentes méthodes utilisées

29 29 BILAN CommunsEcart / MoyContigusEcart / Moy Guiraud713- 3 Brunet6060 Muller8293 Yule-Herdan2- 471 Moyenne66 Nombre total, pour chaque méthode, des rangs communs et contigus à ceux des autres méthodes

30 30 BILAN

31 31 BILAN Yule-HerdanMullerBrunet Guiraud - 0,364 Corrélation non significative 0,079 Corrélation non significative 0,590 Corrélation significative Brunet 0,409 Corrélation non significative 0,744 Corrélation significative Muller 0,871 Corrélation significative Corrélation des rangs de Spearman entre les classements obtenus par les 4 principales méthodes

32 32 BILAN

33 33 BILAN Analyse Factorielle des variables latentes du classement des 15 nuits par les quatre méthodes de mesure de richesse lexicale : Représentations graphique des méthodes Sur la base de la contiguïté Sous linfluence inverse de N et de V1

34 34 Analyse Factorielle des variables latentes du classement des 15 nuits par les quatre méthodes de mesure de richesse lexicale : Représentations graphique des nuits

35 35 BILAN La dispersion des nuits interprétée selon laxe F1

36 36 BILAN La dispersion des nuits interprétée selon laxe F2

37 37 Interprétation globale, selon les deux axes F1 et F2, de la représentation graphique de lanalyse factorielle des variables latentes

38 38 BILAN Nuit 00 Nuit 01 Nuit 02 Nuit 03 Nuit 04 Nuit 05 Nuit 06 Nuit 07 Nuit 08 Nuit 09 Nuit 10 Nuit 13 Nuit 14 Nuit 15 Nuit 16 Classement, en fonction de la richesse lexicale, des nuits d' al-ÞImtâÝ wa l- muÞânasa résultant de la représentation graphique de l'analyse factorielle des variables latentes Plus riche que

39 39 BILAN Méthode "factorielle"Corrélation Guiraud 0,318non significative Brunet 0,872significative Muller 0,882significative Yule-Herdan 0,711significative Corrélation entre les classements calculés et le classement inféré

40 40 Conclusion Commencer, tout dabord, par la méthode des indices. Les cas résolus (surtout les cas sûrs) pourront ouvrir la voie par la suite, aux autres méthodes de mesure (21 / 22 comparaisons résolues sont confirmées). Sil ne faut choisir quune seule méthode de mesure de la richesse lexicale, la méthode binomiale proposée par Charles Muller est la plus apprpopriée ("logique irréprochable" et bien-fondé théorique). À défaut dutiliser la méthode binomiale lindice W de Brunet est fortement recommandé (stabilité, à linstar de la loi binomiale). Sinon, lon peut imaginer une utilisation coinjointe des quatre méthodes. Lanalyse factorielle pourrait dans ce cas servir doutil daide à la prise de décision dans le choix de lune ou lautre des méthodes (voire même déduire un classement qui soit la résultante des autres).


Télécharger ppt "La richesse lexicale dans une perspective de lexicométrie arabe Etude contrastive de cinq méthodes de mesure Application à al-Imtâ wa l-muânasa de Tawhîdî"

Présentations similaires


Annonces Google