La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Les Méthodes Quantitatives Données qualitatives et quantitatives La notion de distribution de fréquence La distinction entre type et token Les n-grammes.

Présentations similaires


Présentation au sujet: "1 Les Méthodes Quantitatives Données qualitatives et quantitatives La notion de distribution de fréquence La distinction entre type et token Les n-grammes."— Transcription de la présentation:

1 1 Les Méthodes Quantitatives Données qualitatives et quantitatives La notion de distribution de fréquence La distinction entre type et token Les n-grammes

2 2 Données qualitatives Exemple : jugement de grammaticalité des phrases Je mange la pizza avec le fromage. Je mange la pizza au fromage. Pas de fréquences, toutes données ont la même importance. Exemples se trouvent dans un corpus ou sont obtenues de façon naturelle. Beaucoup dattention aux détails Les conclusions tirées sur la base dun échantillon qualitatif ne sappliquent pas à toute la population avec certitude, car on ne recherche pas des exemples représentatifs de la population.

3 3 Données quantitatives Exemple : comptage des fréquences des verbes dans un corpus français. Les données sont classées, comptées, résumées avec des statistiques. Les données nont pas toutes la même importance. Les données à basse fréquence sont souvent considérées comme moins importantes (mais sont-elles moins nombreuses?). Les données sont des échantillons, donc les généralisations sappliquent à toute la population avec un certain degré de certitude.

4 4 La classification L'approche la plus simple à la manipulation des données textuelles avec une méthode quantitative est de les classifier/classer. Dans ce cours, nous allons voir deux exemples de problèmes TALN formalisés en tant que problèmes de classification. - classification binaire : attachement du syntagme prépositionnel - classification multiple : classes des verbes

5 5 Tokens, types et distributions Pour classer des occurrences (les tokens), il faut d'abord établir un schéma, qu'on appelle une classification (les types). Une fois la classification établie, on peut classer chaque occurrence selon un type. Chaque type aura alors un certain nombre d'effectifs. L'ensemble des comptages d'effectifs de la classification s'appelle une distribution. Exemple 1 Si les vocables du langage sont les types de données, et les occurrences des mots, les tokens, alors il s'agit d'une distribution des fréquences des mots. Par exemple, la phrase suivante : La fille a vu son père, mais le père n'a pas vu la fille. a la distribution suivante : type : a fille la le mais n' pas père son vu fréq. :

6 6 Tokens, types et distributions Exemple 2 Soit une classification dont les types sont les étiquettes des parties du discours (parts­of­speech tags ou POS tags en anglais). Les tokens sont les mots dans un texte. Alors, il s'agit d'une distribution d'étiquettes. Par exemple, voici la distribution des 15 étiquettes les plus fréquentes dans le corpus Brown, étiqueté avec les étiquettes du Penn Treebank : NN , VBD IN NNS CC DT VB JJ RB VBN NNP PRP TO

7 7 Tokens, types et distributions Exemple 3 Si les mots et les signes de ponctuation sont les types de la classification, et leurs occurrences les tokens de la classification, alors il s'agit d'une distribution de lexèmes. Ou un dictionnaire des fréquences. Par exemple, voici un extrait de la distribution des mots et signes de ponctuation dans le corpus Brown : the a said , in about that time of is man and was like to he made

8 8 Questions Quel sont les mots les plus fréquents du français? Quel sont les parties du discours les plus fréquentes en français? Quels sont les mots significatifs les plus fréquents du français? Pourquoi cela nous intéresse?

9 9 Linguistique et statistique Historiquement, les premiers à avoir abordé les aspects quantitatifs du langage sont sans doute les cryptographes et les sténographes. Les cryptographes ont dû établir des tables de fréquences de lettres C'est au sténographe Baptiste Estoup que l'on doit les premières observations connues sur les fréquences relatives des mots dans un texte. Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.l'Encyclopaedia Universalis

10 10 Loi de Zipf Si l'on dresse une table de l'ensemble des mots différents d'un texte quelconque, classés par ordre de fréquences décroissantes, on constate que la fréquence d'un mot est inversement proportionnelle à son rang dans la liste, ou, autrement dit, que le produit de la fréquence de n'importe quel mot par son rang est constant, ce que traduit la formule f * r = C, où f est la fréquence et r le rang. La loi de Zipf stipule donc que la fréquence du second mot le plus fréquent est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent, son tiers, etc. Cette égalité, qui n'est vraie qu'en approximation, est indépendante des locuteurs, des types de textes et des langues. Il semble ainsi qu'il s'agisse véritablement d'un trait général des énoncés linguistiques. Cette constatation, n'est pas isolée, mais n'est que la première de toute une série d'autres. Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.l'Encyclopaedia Universalis

11 11 Exemple Pour le deuxième paragraphe du texte précédant, on a la distribution suivante. On indique le rang, la fréquence et le mot. 1 8, 2 4 de 2 4 des la 6 3 n'est 6 3 du 8 2 fréquent 8 2 mot 8 2 plus 8 2 est 8 2 fréquence 8 2 le 8 2 que 8 2 Cette 16 1 général 16 1 isolée 16 1 langues 16 1 indépendante 16 1 Il 16 1 d'autres 16 1 d'un 16 1 constatation 16 1 approximation 16 1 celle 16 1 ainsi 16 1 et 16 1 etc 16 1 La 16 1 Zipf 16 1 donc 16 1 linguistiques 16 1 tiers 16 1 toute 16 1 trait 16 1 stipule 16 1 série 16 1 textes 16 1 troisième 16 1 véritablement 16 1 égalité 16 1 énoncés 16 1 types 16 1 une 16 1 vraie 16 1 son 16 1 moitié 16 1 pas 16 1 premier 16 1 locuteurs 16 1 loi 16 1 mais 16 1 première 16 1 s'agisse 16 1 second 16 1 semble 16 1 qu'en 16 1 qu'il 16 1 qui

12 12 Exemple Remarques : il y a 88 mots au total. le mot le plus fréquent apparaît 8 fois, le deuxième 4 fois, il y a 42 mots qu'on trouve une seule fois (hapax legomena)

13 13 Autres phénomènes de fréquence La fréquence relative des catégories grammaticales, bien que variant d'un individu ou d'un texte à l'autre, est stable. C'est ainsi qu'en français les mots outils (articles, pronoms, conjonctions, prépositions) représentent 50% de n'importe quel texte, l'autre moitié étant constituée par les mots pleins (substantifs, verbes, adjectifs, adverbes). On peut noter que dans le dictionnaire cette proportion est tout autre, les mots outils ne représentant que 0,5% du lexique total. Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.l'Encyclopaedia Universalis

14 14 Autres phénomènes de fréquence La fréquence des mots d'une langue dans le discours est liée à leur structure phonique; en particulier, le nombre de phonèmes d'un mot dépend de son rang. On peut ainsi observer une tendance générale de toutes les langues, selon laquelle plus un mot est fréquent, plus il est court (c'est-à-dire moins son « coût de production » est élevé). Cela apparaît bien dans le phénomène général d'abrègement des mots longs dont la fréquence a tendance à augmenter dans le discours : tronquements (« cinématographe » devient « cinéma » et « ciné »), sigles (S.N.C.F., U.R.S.S.), auxquels on peut rattacher certains phénomènes de substitution (« contremaître » devient « singe », etc.). Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.l'Encyclopaedia Universalis

15 15 URL génial

16 16 MORALE

17 17 Les n-grammes De la même façon que nous sommes intéressés aux distributions des fréquences des mots individuels, nous sommes aussi, même plus, intéressés à récolter les distributions des fréquences des séquences à deux, trois, quatre mots à la fois.

18 18 Les n-grammes Un n-gramme (néologisme à partir des termes « bigramme », « trigramme », etc.) est une séquence de taille fixée d'un texte. Exemples Les n-grammes des mots sont toutes les séquences de n mots dans le corpus. le chat mange la souris bigrammes (n-grammes de longueur 2) (le chat) (chat mange) (mange la) (la souris) trigrammes (n-grammes de longueur 3) (le chat mange) (chat mange la) (mange la souris)

19 19 Les n-grammes À quoi servent les n-grammes? À travers les distributions des n-grammes on arrive à approximer certaines régularités langagières. Par exemple, voisins d'un mot dans un texte classification distributionnelle (syntaxique) des mots représentation d'un document représentation d'une langue

20 20 Les n-grammes Les unités de comptage ne sont pas nécessairement les mots. Les spécialistes de parole s'occupent de n-grammes de phonèmes. Ou encore en syntaxe les bigrammes de catégorie morpho- syntaxique sont des couples du type (Nom-Verbe) ou (Adjectif- Nom), parmi d'autre, indiquant combien de fois un nom est suivi d'un verbe dans le corpus, ou un adjectif suivi d'un nom. En cryptographie on s'occupe dunigrammes, de bigrammes et de trigrammes de lettres.

21 21 Chiffrer un message Un des moyens les plus simples de chiffrer un message est de remplacer chaque lettre par une autre (ou un autre symbole). Par sa simplicité et par sa force, ce système a dominé la technique des écritures secrètes pendant tout le premier millénaire. Il a résisté aux cryptanalystes jusqu'à ce que le savant arabe Abu Yusuf Ya'qub ibn Is-haq ibn as-Sabbah Oòmran ibn Ismaïl al-Kindi (ouf!) mette au point, au IX ème siècle, une technique appelée analyse des fréquences. Al-Kindi rédige sa méthode dans son plus important traité intitulé Manuscrit sur le déchiffrement des messages cryptographiques. C'est le premier manuscrit connu faisant mention des fréquences d'apparition des lettres. Il explique que « la façon d'élucider un message crypté, si nous savons dans quelle langue il est écrit, est de nous procurer un autre texte en clair dans la même langue, de la longueur d'un feuillet environ, et de compter alors les apparitions de chaque lettre. Ensuite, nous nous reportons au texte chiffré que nous voulons éclaircir et relevons de même ses symboles. Nous remplaçons le symbole le plus fréquent par la lettre première (la plus fréquente du texte clair), le suivant par la deuxième, le suivant par la troisième, et ainsi de suite jusqu'à ce que nous soyons venus à bout de tous les symboles du cryptogramme à résoudre ». Référence :

22 22 Les distributions de n-grammes Les systèmes de chiffrement simples sont facilement cassable par une méthode d'analyse de fréquences des lettres, car pour chaque langue, certaines lettres sont beaucoup plus utilisées que d'autres.

23 23 Les distributions dunigrammes Voici pour le français, l'anglais, l'allemand et l'espagnol les fréquences d'apparition des lettres. Référence :

24 24 Identificateurs des langues Arrive-t-on à identifier une langue avec seulement les fréquences de n-grammes? Essayons!

25 25 Les distributions de bigrammes Voici pour trois langues inconnues, les fréquences d'apparition des 10 bigrammes les plus fréquents : Bigrammes ES DE LE EN RE NT ON ER TE EL Nombres Bigrammes TH HE IN ER AN RE ES ON ST NT Nombres Bigrammes EN ER CH DE TE ND EI IE IN GE Nombres

26 26 Les distributions de trigrammes Voici pour trois langues inconnues, les fréquences d'apparition des 10 trigrammes les plus fréquents : Trigrammes ENT LES EDE DES QUE AIT LLE SDE ION EME Nombres Trigrammes THE AND ING ENT ION NTH TER INT OFT THA Nombres Trigrammes DER ICH EIN NDE SCH DIE TEN END CHE UND Nombres

27 27 Les distributions de bi- et trigrammes en français Voici pour le français, les fréquences d'apparition des 10 bigrammes et des 10 trigrammes les plus fréquents : Bigrammes ES DE LE EN RE NT ON ER TE EL Nombres Trigrammes ENT LES EDE DES QUE AIT LLE SDE ION EME Nombres Référence :

28 28 Les distributions de n-grammes en français Tous les tableaux de la page précédente ont été construits en comptant les fréquences dans un texte français de 100'000 lettres composé de textes de Gustave Flaubert (20'600 lettres), de Jules Verne (19'438) et de trois articles de l'Encyclopedia Universalis, le premier consacré à Bruges (8'182), le deuxième à l'artillerie (25'078) et le dernier à la population (26'702). Référence :

29 29 Les distributions de bi- et trigrammes en anglais Voici pour l'anglais, les fréquences d'apparition des 10 bigrammes et des 10 trigrammes les plus fréquents : Bigrammes TH HE IN ER AN RE ES ON ST NT Nombres Remarques : les 52 (sur 676) bigrammes les plus fréquents, représentent plus de la moitié de toutes les occurrences. Trigrammes THE AND ING ENT ION NTH TER INT OFT THA Nombres Si les espaces entre les mots ont été conservés (ce qui n'est généralement pas le cas) on peut aussi utiliser les informations suivantes : Les mots de deux lettres les plus fréquents sont of, to, in, it, is, be, as, at, so, we, he, by, or, on, do, if, me, my, up, an, go, no, us, am. Les mots de trois lettres les plus fréquents sont the et and. Référence :

30 30 Les distributions de n-grammes en anglais Tous les tableaux de la page précédente ont été construits en comptant les fréquences dans un texte anglais de 100'000 lettres composé de textes d'Edgar Allan Poe (24'541 lettres), d'Arthur Conan Doyle (14'153) et de quatre articles de l'Encyclopédie Encarta 95, le premier consacré à New York (13'100), le deuxième à la Bible (19'405), le troisième aux baleines (9'083) et le dernier au transport ferroviaire (19'718). Référence :

31 31 Les distributions de bi- et trigrammes en allemand Voici pour l'allemand, les fréquences d'apparition des 10 bigrammes et des 10 trigrammes les plus fréquents : Bigrammes EN ER CH DE TE ND EI IE IN GE Nombres Trigrammes DER ICH EIN NDE SCH DIE TEN END CHE UND Nombres On reconnaît les articles « der », « die », « ein ». Il est à noter que « das » ne vient qu'en 43ème position avec 255 occurrences seulement. Référence :

32 32 Les distributions de n-grammes en allemand Tous les tableaux de la page précédente ont été construits en comptant les fréquences dans un texte allemand de 100'000 lettres composé d'un texte de Franz Kafka (28'188 lettres), d'un texte historique consacré à Gilberte de Courgenay (17'845) et de trois articles trouvés sur le web, le premier consacré à la découverte de la planète Pluton (24'165), le deuxième à Yvan le Terrible (24'560) et le dernier aux éléphants d'Afrique (5'242). Le symbole « ß » a été remplacé systématiquement par « ss ». Référence :

33 33 Effectifs et proportions On a vu que les simples comptages sont très utiles pour l'investigation quantitative des données textuelles. Mais ils ne sont pas suffisants. Par exemple, on ne peut pas les utiliser pour faire de comparaisons. Il faut alors utiliser les fréquences relatives ou proportions. Exemple Nous voudrions savoir si le mot anglais boot est utilisé avec la même fréquence en anglais parlé et anglais écrit. Nous avons accès à un corpus de 500'000 mots d'anglais écrit mais seulement 50'000 d'anglais parlé. En comptant les effectifs, nous trouvons 50 occurrences dans le corpus parlé et 500 occurrence dans le corpus écrit. La conclusion est clairement que la fréquence d'utilisation de boot est la même dans les deux modalités, car la proportion des cas est égale.

34 34 Significance testing Significance tests allow us to determine whether or not a finding is the result of a genuine difference between two (or more) items, or whether it is just due to chance. For example, suppose we are examining the Latin versions of the Gospel of Matthew and the Gospel of John and we are looking at how third person singular speech is represented. Specifically we want to compare how often the present tense form of the verb "to say" is used ("dicit") with how often the perfect form of the verb is used ("dixit"). A simple count of the two verb forms in each text produces the following results: dicitdixit john matthew From these figures is looks as if John uses the present form ("dicit") proportionally more often than Matthew does, but to be more certain that this is not just due to co-incidence, we need to perform a further calculation - the significance test. There are several types of significance test available to the corpus. Here we will only examine the chi-squared test as it is the most commonly used significance test in corpus linguistics. This is a non-parametric test which is easy to calculate, even without a computer statistics package, and can be used with data in 2 X 2 tables, such as the example above. However, it should be noted that the chi-squared test is unreliable where very small numbers are involved and should not therefore be used in such cases. Also, proportional data (percentages etc) can not be used with the chi-squared test. Référence :

35 35 Significance testing The test compares the difference between the actual frequencies (the observed frequencies in the data) with those which one would expect if no factor other than chance had been operating (the expected frequencies). The closer these two results are to each other, the greater the probability that the observed frequencies are influenced by chance alone. Having calculated the chi-squared value (we will omit this here and assume it has been done with a computer statistical package) we must look in a set of statistical tables to see how significant our chi-squared value is (usually this is also carried out automatically by computer). We also need one further value - the number of degrees of freedom which is simply: (number of columns in the frequency table - 1) x (number of rows in the frequency table - 1) In the example above this is equal to (2-1) x (2-1) = 1. We then look at the table of chi-square values in the row for the relevant number of degrees of freedom until we find the nearest chi-square value to the one which is calculated, and read off the probability value for that column. The closer to 0 the value, the more significant the difference is - i.e. the more unlikely that it is due to chance alone. A value close to 1 means that the difference is almost certainly due to chance. In practice it is normal to assign a cut-off point which is taken to be the difference between a significant result and an "insignificant" result. This is usually taken to be 0.05 (probability values of less than 0.05 are written as "p < 0.05" and are assumed to be significant.) Référence :

36 36 Résumé du cours Données qualitatives vs quantitatives quantitatives : attention au détail, même importance qualitative : résumé, échantillonnage, représentativité Classification : on établit un schéma (les types), et on classes les instances (tokens). Distribution des tokens par type Loi de Zipf : le produit entre le rang et la fréquence est constant Les n-grammes en tant quunités linguistiques, les distributions de n- grammes Fréquence relative pour normaliser échantillons de tailles différentes


Télécharger ppt "1 Les Méthodes Quantitatives Données qualitatives et quantitatives La notion de distribution de fréquence La distinction entre type et token Les n-grammes."

Présentations similaires


Annonces Google