La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Lanalyse lexicométrique dal-Imtâ wa l-muânasa de TawÎîdî : Quelques résultats autour de la structure lexicale Journées détudes Reconnaissance automatique.

Présentations similaires


Présentation au sujet: "Lanalyse lexicométrique dal-Imtâ wa l-muânasa de TawÎîdî : Quelques résultats autour de la structure lexicale Journées détudes Reconnaissance automatique."— Transcription de la présentation:

1 Lanalyse lexicométrique dal-Imtâ wa l-muânasa de TawÎîdî : Quelques résultats autour de la structure lexicale Journées détudes Reconnaissance automatique et exploration contextuelle en français et en arabe, dans une perspective de traduction Zoubeïr MOUELHI ICAR Université Lumière-Lyon2

2 2 PLAN Les principales caractéristiques lexicométriques La richesse lexicale Les catégories lexicales

3 3 Au niveau du corpus Les principales caractéristiques lexicométriques du Imtâ Au niveau du corpus

4 4 Au niveau des Nuits Les PCLC du Imtâ Au niveau des Nuits

5 5 Etendues des Nuits Les principales caractéristiques lexicométriques du Imtâ Etendues des Nuits

6 6 Distribution des étendues Les principales caractéristiques lexicométriques du Imtâ Distribution des étendues

7 7 tendance centrale Des mesures de tendance centrale à savoir : la moyenne arithmétique (= 4 078,47) la médiane (= 3 115) le mode qui est ici létendue maximale (=10 788) dispersion Des mesures de dispersion à savoir : la variance (= ,552) lécart-type (= 2 952,19) le coefficient de variation (=0,72) position Des mesures de position qui sont les quartiles Description statistique Les principales caractéristiques lexicométriques du Imtâ Description statistique

8 8

9 9 Répartition intertextuelle et générique Les principales caractéristiques lexicométriques du Imtâ Répartition intertextuelle et générique

10 10 Les citations poétiques Les PCLC du Imtâ Les citations poétiques

11 11 Les citations coraniques Les PCLC du Imtâ Les citations coraniques

12 12 La gamme de fréquences Les PCLC du Imtâ La gamme de fréquences

13 13 Richesse lexicale difficile à définir Lexicométrie un dénominateur commun : « lieu de comparaison entre deux ou plusieurs textes en fonction de leur étendue respective et du nombre de vocables relevés dans chacun deux » [1] [1] Décrire la structure lexicale ou la comparer à dautres corpus indépendante du contenu propriété quantitative Notion absolue ou relative ? "Neutralité" du terme Richesse « mieux vaut donc comprendre le mot "richesse" comme un terme neutre, un peu comme font les physiciens pour qui "vitesse" ne se confond pas avec "rapidité" » [ 2 ] [ 2 ] [1][1] Nathan Ménard, Mesure de la richesse lexicale. Théorie et vérifications expérimentales : Etudes stylométriques et sociolinguistiques, 1983, p. 16 [2][2] Thoiron, Ph., Richesse lexicale et classement des textes, dans Études sur la richesse et la structure lexicales, 1988, pp , p.142.

14 14 Les méthodes de mesure de la richesse lexicale Problèmes : objectivité, comparaison, évaluer V en fonction de N, influence de létendue sur la RL, existe-t-il un indice/échelle ( thermomètre)? Solutions multiples : V/N, V1/V et V1/N influence de létendue dautres méthodes La méthode de comparaison des indices, la formule de Guiraud ( ), lindice W de Brunet, la méthode binomiale de Muller et lindice Vm de Yule-Herdan

15 15 Méthode des indices : Comparaison binaire des textes en confrontant les 4 indices NVV1V1 q1q1 Texte ANuit ,4840,3650 Texte BNuit ,6650, NVV1V1 q1q1 Texte ANuit ,5930,3649 Texte BNuit ,7490, Comparaisons binaires = q1 =

16 16 Interprétation des combinaisons dindices Combinaisons Indicateurs partiels de la richesse lexicale Interprétation globaleSymbole VV1V1 q1q ???? ?? – 0??AA A plus riche que B – 1BB?? A moins riche que B – 0BB?A (A moins riche que B) (-) B??A (A moins riche que B) (-) ?BA? (A plus riche que B) (+) ??A? (A plus riche que B) (+) ?B?? (A moins riche que B) (-) ???A ??

17 17 Valeurs des indices pour chacune des nuits al-Imtâ wa l-muânasa NuitsNVV1V1 q1q1 Nuit ,4840,3650 Nuit ,3970,4170 Nuit ,3060,3066 Nuit ,5850,2578 Nuit ,5930,3649 Nuit ,7490,2639 Nuit ,9940,3333 Nuit ,4770,2757 Nuit ,7340,3256 Nuit ,5250,2916 Nuit ,5360,3607 Nuit ,1960,2504 Nuit ,4760,3255 Nuit ,0620,2548 Nuit ,6650,2206

18 18 Résultat des comparaisons binaires des Nuits selon la méthode des indices

19 19 Classement de quelques Nuits en fonction de la richesse lexicale selon la méthode des indices Nuit 02 Nuit 01 Préambule Nuit 14Nuit 03 Nuit 07 Nuit 06Nuit 04 Nuit 15Nuit 09 AB comparaison non résolue Nuit 13 AB A est plus riche que B Nuit 2 Nuit 1 Nuit 7 Nuit 13 Nuit 2 Nuit 14 Nuit 15 Préambule Nuit 14 Nuit 15 Préambule Nuit 7 Nuit 13 Préambule Nuit 4 Nuit 9 Nuit 3 Nuit 13 Nuit 3 Nuit 15 Nuit 6 Nuit 9 Nuit 6 Nuit 13

20 20 NuitsNVClassement Nuit ,846Nuit ,846 Nuit ,122Nuit ,540 Nuit ,054Nuit ,938 Nuit ,006Nuit ,119 Nuit ,384Nuit ,384 Nuit ,296Nuit ,054 Nuit ,540Nuit ,777 Nuit ,574Nuit ,320 Nuit ,938Nuit ,122 Nuit ,777Nuit ,006 Nuit ,119Nuit ,574 Nuit ,860Nuit ,112 Nuit ,320Nuit ,712 Nuit ,112Nuit ,296 Nuit ,712Nuit ,860 Classement des Nuits selon lindice de richesse lexicale de Guiraud

21 21 Selon la formule de Guiraud (1 / 3)

22 22 Selon la formule de Guiraud (2 / 3) Test de corrélation des rangs de Spearman

23 23 Selon la formule de Guiraud (3 / 3)

24 24 Classement des Nuits selon lindice W de Brunet NV Classement WR Nuit ,48150,287211,5875Nuit 0011,58750,8942 Nuit ,08800,323812,5640Nuit 0611,94720,8702 Nuit ,21960,310612,1639Nuit 0412,08750,8608 Nuit ,02780,330312,3174Nuit 0512,16370,8558 Nuit ,35220,298312,0875Nuit 0212,16390,8557 Nuit ,72530,366912,1637Nuit 0312,31740,8455 Nuit ,57380,279811,9472Nuit 0812,42160,8386 Nuit ,07660,325012,8323Nuit 0112,56400,8291 Nuit ,68580,271312,4216Nuit 1012,57640,8282 Nuit ,28260,304613,0616Nuit 1612,59390,8271 Nuit ,62020,276212,5764Nuit 0712,83230,8112 Nuit ,94630,339414,0904Nuit 1412,84300,8105 Nuit ,17020,315412,8430Nuit 1512,93460,8044 Nuit ,92210,342212,9346Nuit 0913,06160,7959 Nuit ,82620,353812,5939Nuit 1314,09040,7273

25 25 Selon lindice W de Brunet (1 / 3) Traduit une réduction de linfluence de létendue

26 26 Selon lindice W de Brunet (2 / 3)

27 27 Selon lindice W de Brunet (3 / 3)

28 28 Classement des Nuits selon la méthode binomiale de Muller N V réelle V théorique Ecart absolu Ecart réduit Ecart translaté Classement Ecart translaté Nuit ,8114,1933,230,4335,43 Nuit 0035,43 Nuit , ,0226,78- 4,2930,71 Nuit 0533,44 Nuit ,36- 78,3628,84- 2,7232,28 Nuit 0332,32 Nuit ,82- 66,8224,93- 2,6832,32 Nuit 0232,28 Nuit ,17- 96,1731,66- 3,0431,96 Nuit 0431,96 Nuit ,14- 29,1418,67- 1,5633,44 Nuit 1631,76 Nuit , ,8736,09- 3,6831,32 Nuit 0631,32 Nuit , ,0427,11- 5,6529,35 Nuit 0130,71 Nuit , ,0039,07- 10,3924,61 Nuit 1529,96 Nuit , ,8632,39- 9,3225,68 Nuit 0729,35 Nuit , ,8138,32- 10,8524,15 Nuit 1428,44 Nuit , ,8535,92- 33,851,15 Nuit 0925,68 Nuit , ,0729,28- 6,5628,44 Nuit 0824,61 Nuit , ,3723,89- 5,0429,96 Nuit 1024,15 Nuit ,85- 68,8521,28- 3,2431,76 Nuit 131,15 T (N = 61177) T (N = 5062)T - T p = 0,083q = 0,917

29 29 Selon la méthode binomiale de Muller (1 / 4)

30 30 Selon la méthode binomiale de Muller (2 / 4) Réduction de linfluence de létendue

31 31 Selon la méthode binomiale de Muller (3 / 4)

32 32 Selon la méthode binomiale de Muller (4 / 4)

33 33 Classement des Nuits selon lindice Vm de Yule-Herdan NVV1V1 f f VmVm Nuit ,5828,287,890,210 Nuit ,5219,065,410,204 Nuit ,4822,026,330,212 Nuit ,2018,855,900,236 Nuit ,7525,006,670,198 Nuit ,6614,355,390,292 Nuit ,3128,676,660,164 Nuit ,7318,014,820,184 Nuit ,4828,975,280,119 Nuit ,5920,644,490,142 Nuit ,4025,494,720,112 Nuit ,5414,973,300,143 Nuit ,9919,544,890,171 Nuit ,4815,534,470,198 Nuit ,0615,284,990,244

34 34 Selon lindice Vm de Yule-Herdan (1 / 4) Sous linfluence de N et de V 1

35 35 Selon lindice Vm de Yule-Herdan (2 / 4) Confirmation de linfluence de V1 sur lindice Vm en comparant les deux diagrammes de la richesse lexicale, selon lindice Vm et le quotient V1/V

36 36 Selon lindice Vm de Yule-Herdan (3 / 4)

37 37 Selon lindice Vm de Yule-Herdan (4 / 4)

38 38 BILAN (R. L.) NuitClassement selon : Guiraud ( ) Brunet ( W ) Muller ( Binomiale ) Yule-Herdan ( V m ) Nuit Nuit Nuit Nuit Nuit Nuit Nuit Nuit Nuit Nuit Nuit Nuit Nuit Nuit Nuit Récapitulatif des classements selon les différentes méthodes utilisées

39 39 BILAN (R. L.) CommunsEcart / MoyContigusEcart / Moy Guiraud Brunet6060 Muller8293 Yule-Herdan Moyenne66 Nombre total, pour chaque méthode, des rangs communs et contigus à ceux des autres méthodes

40 40 BILAN (R. L.)

41 41 BILAN (R. L.) Yule-HerdanMullerBrunet Guiraud - 0,364 Corrélation non significative 0,079 Corrélation non significative 0,590 Corrélation significative Brunet 0,409 Corrélation non significative 0,744 Corrélation significative Muller 0,871 Corrélation significative Corrélation des rangs de Spearman entre les classements obtenus par les 4 principales méthodes

42 42 BILAN (R. L.)

43 43 BILAN (R. L.) Analyse Factorielle des variables latentes du classement des 15 nuits par les quatre méthodes de mesure de richesse lexicale : Représentations graphique des méthodes Sur la base de la contiguïté Sous linfluence inverse de N et de V1

44 44 Analyse Factorielle des variables latentes du classement des 15 nuits par les quatre méthodes de mesure de richesse lexicale : Représentations graphique des nuits

45 45 BILAN (R. L.) La dispersion des nuits interprétée selon laxe F1

46 46 BILAN (R. L.) La dispersion des nuits interprétée selon laxe F2

47 47 Interprétation globale, selon les deux axes F1 et F2, de la représentation graphique de lanalyse factorielle des variables latentes

48 48 BILAN (R. L.) Nuit 00 Nuit 01 Nuit 02 Nuit 03 Nuit 04 Nuit 05 Nuit 06 Nuit 07 Nuit 08 Nuit 09 Nuit 10 Nuit 13 Nuit 14 Nuit 15 Nuit 16 Classement, en fonction de la richesse lexicale, des nuits d' al-ÞImtâÝ wa l- muÞânasa résultant de la représentation graphique de l'analyse factorielle des variables latentes Plus riche que

49 49 BILAN (R. L.) Méthode "factorielle"Corrélation Guiraud 0,318non significative Brunet 0,872significative Muller 0,882significative Yule-Herdan 0,711significative Corrélation entre les classements calculés et le classement inféré

50 50 Conclusion autour de la R. L. Commencer, tout dabord, par la méthode des indices. Les cas résolus (surtout les cas sûrs) pourront ouvrir la voie par la suite, aux autres méthodes de mesure (21 / 22 comparaisons résolues sont confirmées). Sil ne faut choisir quune seule méthode de mesure de la richesse lexicale, la méthode binomiale proposée par Charles Muller est la plus apprpopriée ("logique irréprochable" et bien-fondé théorique). À défaut dutiliser la méthode binomiale lindice W de Brunet est fortement recommandé (stabilité, à linstar de la loi binomiale). Sinon, lon peut imaginer une utilisation coinjointe des quatre méthodes. Lanalyse factorielle pourrait dans ce cas servir doutil daide à la prise de décision dans le choix de lune ou lautre des méthodes (voire même déduire un classement qui soit la résultante des autres).

51 51 Lexicalité et fonctionnalité Les catégories lexicales Lexicalité et fonctionnalité

52 52 Lexicalité et fonctionnalité Les catégories lexicales Lexicalité et fonctionnalité

53 53 Catégories lexicales au niveau du corpus Les catégories lexicales Catégories lexicales au niveau du corpus قَال / يَقُولُ نفْس صاحِب - 93 معنًى - 89 ال هُ إنّما - 58 ليس - 148

54 54 Catégories lexicales au niveau du corpus Les catégories lexicales Catégories lexicales au niveau du corpus

55 55 Catégories lexicales au niveau des nuits Les catégories lexicales Catégories lexicales au niveau des nuits

56 56 Nuits déficitaires et Nuits excédentaires Les catégories lexicales Nuits déficitaires et Nuits excédentaires

57 57 Analyse factorielle des correspondances Les catégories lexicales Analyse factorielle des correspondances


Télécharger ppt "Lanalyse lexicométrique dal-Imtâ wa l-muânasa de TawÎîdî : Quelques résultats autour de la structure lexicale Journées détudes Reconnaissance automatique."

Présentations similaires


Annonces Google