La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

INF L14 Initiation aux statistiques 4 – Classement et cumul.

Présentations similaires


Présentation au sujet: "INF L14 Initiation aux statistiques 4 – Classement et cumul."— Transcription de la présentation:

1 INF L14 Initiation aux statistiques 4 – Classement et cumul

2 Classement des modalités CATEFFECTIF ADJ307 ADV349 CONJ305 DET792 INTERJ4 NOM1093 NUM16 PREP539 PRO632 VERBE896 Total4933 Non classées : pas très lisible...

3 Classement des modalités CATEFFECTIF NOM1093 VERBE896 DET792 PRO632 PREP539 ADV349 ADJ307 CONJ305 NUM16 INTERJ4 Total4933 Classement par fréquences décroissantes

4 Classement des modalités CATEFFECTIF NOM1093 VERBE896 DET792 PRO632 PREP539 ADV349 ADJ307 CONJ305 NUM16 INTERJ4 Total4933 Polygone de fréquences

5 Classement des modalités CATEFFECTIF NOM1093 VERBE896 DET792 PRO632 PREP539 ADV349 ADJ307 CONJ305 NUM16 INTERJ4 Total4933 Diagramme en secteurs

6 Rangs RANGCATEFFECTIF 1NOM1093 2VERBE896 3DET792 4PRO632 5PREP539 6ADV349 7ADJ307 8CONJ305 9NUM16 10INTERJ4

7 Rangs RangFormeFréq. 1de239 2le153 3l'125 4la119 5et95 6est88 7que83 8d'82 9les79 10il62 11un61 12a58 13qui53 14du52 15une51 16des48 17en47 18à46 19qu'46 20ne43 21dans40 22on37 23plus34... Quand les modalités sont très nombreuses, on utilise plutôt les rangs sur laxe des abscisses (X), par exemple de 10 en 10, 100 en 100, etc.

8 Changement déchelle Lorsque les modalités sont très nombreuses et les fréquences très inégales on peut utiliser un changement déchelle des axes (coordonnées logarithmiques).

9 Loi de Zipf George Zipf (1935) sest aperçu que cette relation rang- fréquence était une propriété de tous les textes. George Zipf (1935) sest aperçu que cette relation rang- fréquence était une propriété de tous les textes. Approximativement : rang x fréquence = constante

10 Exemples

11 Fréquences cumulées CATEFFECTIF NOM1093 VERBE896 DET792 PRO632 PREP539 ADV349 ADJ307 CONJ305 NUM16 INTERJ4 Total4933 Etape 1 : Classement par fréquences décroissantes

12 Fréquences cumulées CATEFFECTIFCUMUL NOM VERBE DET PRO PREP ADV ADJ CONJ NUM INTERJ44933 Total4933

13 Fréquences cumulées CATEFFECTIFCUMULCUMUL% NOM ,2% VERBE ,3% DET ,4% PRO ,2% PREP ,1% ADV ,2% ADJ ,4% CONJ ,6% NUM ,9% INTERJ ,0% Total ,0¨% Idem, expression en pourcentages

14 Exemple Petit Prince Petit Prince occurrences occurrences 2414 formes 2414 formes Rappel : loi de Zipf Rappel : loi de Zipf

15 Fréquences cumulée Environ Environ 50 mots = 50% 50 mots = 50% 1000 mots = 90% 1000 mots = 90% Vocabulaire fondamental

16 Agrandissement

17 Mots les plus fréquents RangFormeCumulRangFormeCumul 1LE3,0%27EN37,4% 2DE5,7%28QU'38,1% 3IL8,2%29ME38,8% 4JE10,4%30QUI39,5% 5ET12,3%31POUR40,1% 6UN14,2%32BIEN40,8% 7EST16,0%33AI41,4% 8LES17,7%34SE41,9% 9LA19,1%35A42,5% 10PETIT20,4%36S'43,0% 11PAS21,6%37COMME43,5% 12À22,8%38MOI44,0% 13NE24,0%39SI44,5% 14PRINCE25,1%40DU45,0% 15L'26,2%41ON45,5% 16QUE27,3%42SUR45,9% 17D'28,3%43ELLE46,4% 18TU29,3%44ÉTAIT46,8% 19J'30,3%45VOUS47,2% 20C'31,3%46DANS47,7% 21UNE32,3%47LUI48,1% 22DIT33,3%48PLANÈTE48,5% 23N'34,2%49PLUS48,9% 24MAIS35,1%50MON49,3% 25DES36,0%51ÇA49,6% 26CE36,8%52TOUT50,0%

18 Antidictionnaire Mots outils Mots outils Mots grammaticaux Mots grammaticaux Présents dans tous les textes Présents dans tous les textes Parmi les plus fréquents Parmi les plus fréquents

19 $ £ a A à afin ah ai aie aient aies ailleurs ainsi ait alentour alias allais allaient allait allons allez alors Ap. Apr. après après-demain arrière as assez attendu au aucun aucune au-dedans au-dehors au-delà au-dessous au-dessus au-devant... Exemple

20 Programme Dico

21 Tous les mots Tous les mots

22 Filtré Filtré On voit apparaître les mots-clés du texte

23 Termes à retenir Rang Coordonnées logarithmiques Loi de Zipf Fréquences cumulées


Télécharger ppt "INF L14 Initiation aux statistiques 4 – Classement et cumul."

Présentations similaires


Annonces Google