La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les Méthodes Quantitatives

Présentations similaires


Présentation au sujet: "Les Méthodes Quantitatives"— Transcription de la présentation:

1 Les Méthodes Quantitatives
Données qualitatives et quantitatives La notion de distribution de fréquence La distinction entre type et token Les n-grammes

2 Données qualitatives Exemple : jugement de grammaticalité des phrases
Je mange la pizza avec le fromage. Je mange la pizza au fromage. Pas de fréquences, toutes données ont la même importance. Exemples se trouvent dans un corpus ou sont obtenues de façon naturelle. Beaucoup d’attention aux détails Les conclusions tirées sur la base d’un échantillon qualitatif ne s’appliquent pas à toute la population avec certitude, car on ne recherche pas des exemples représentatifs de la population.

3 Données quantitatives
Exemple : comptage des fréquences des verbes dans un corpus français. Les données sont classées, comptées, résumées avec des statistiques. Les données n’ont pas toutes la même importance. Les données à basse fréquence sont souvent considérées comme moins importantes (mais sont-elles moins nombreuses?). Les données sont des échantillons, donc les généralisations s’appliquent à toute la population avec un certain degré de certitude.

4 La classification L'approche la plus simple à la manipulation des données textuelles avec une méthode quantitative est de les classifier/classer. Dans ce cours, nous allons voir deux exemples de problèmes TALN formalisés en tant que problèmes de classification. - classification binaire : attachement du syntagme prépositionnel - classification multiple : classes des verbes

5 Tokens, types et distributions
Pour classer des occurrences (les tokens), il faut d'abord établir un schéma, qu'on appelle une classification (les types). Une fois la classification établie, on peut classer chaque occurrence selon un type. Chaque type aura alors un certain nombre d'effectifs. L'ensemble des comptages d'effectifs de la classification s'appelle une distribution. Exemple 1 Si les vocables du langage sont les types de données, et les occurrences des mots, les tokens, alors il s'agit d'une distribution des fréquences des mots. Par exemple, la phrase suivante : La fille a vu son père, mais le père n'a pas vu la fille. a la distribution suivante : type : a fille la le mais n' pas père son vu fréq. :

6 Tokens, types et distributions
Exemple 2 Soit une classification dont les types sont les étiquettes des parties du discours (parts­of­speech tags ou POS tags en anglais). Les tokens sont les mots dans un texte. Alors, il s'agit d'une distribution d'étiquettes. Par exemple, voici la distribution des 15 étiquettes les plus fréquentes dans le corpus Brown, étiqueté avec les étiquettes du Penn Treebank : NN , VBD IN NNS CC DT VB JJ RB VBN NNP PRP TO

7 Tokens, types et distributions
Exemple 3 Si les mots et les signes de ponctuation sont les types de la classification, et leurs occurrences les tokens de la classification, alors il s'agit d'une distribution de lexèmes. Ou un dictionnaire des fréquences. Par exemple, voici un extrait de la distribution des mots et signes de ponctuation dans le corpus Brown : the a said , in about that time of is man and was like to he made

8 Questions Quel sont les mots les plus fréquents du français?
Quel sont les parties du discours les plus fréquentes en français? Quels sont les mots significatifs les plus fréquents du français? Pourquoi cela nous intéresse?

9 Linguistique et statistique
Historiquement, les premiers à avoir abordé les aspects quantitatifs du langage sont sans doute les cryptographes et les sténographes. Les cryptographes ont dû établir des tables de fréquences de lettres C'est au sténographe Baptiste Estoup que l'on doit les premières observations connues sur les fréquences relatives des mots dans un texte. Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.

10 Loi de Zipf Si l'on dresse une table de l'ensemble des mots différents d'un texte quelconque, classés par ordre de fréquences décroissantes, on constate que la fréquence d'un mot est inversement proportionnelle à son rang dans la liste, ou, autrement dit, que le produit de la fréquence de n'importe quel mot par son rang est constant, ce que traduit la formule f * r = C, où f est la fréquence et r le rang. La loi de Zipf stipule donc que la fréquence du second mot le plus fréquent est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent, son tiers, etc. Cette égalité, qui n'est vraie qu'en approximation, est indépendante des locuteurs, des types de textes et des langues. Il semble ainsi qu'il s'agisse véritablement d'un trait général des énoncés linguistiques. Cette constatation, n'est pas isolée, mais n'est que la première de toute une série d'autres. Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.

11 Exemple Pour le deuxième paragraphe du texte précédant, on a la distribution suivante. On indique le rang, la fréquence et le mot. son moitié pas premier locuteurs loi mais première s'agisse second semble qu'en qu'il qui 1 8, de des la n'est du fréquent mot plus est fréquence le que Cette donc linguistiques tiers toute trait stipule série textes troisième véritablement égalité énoncés types une vraie général isolée langues indépendante Il d'autres d'un constatation approximation celle ainsi et etc La Zipf

12 Exemple Remarques : il y a 88 mots au total.
le mot le plus fréquent apparaît 8 fois, le deuxième 4 fois, il y a 42 mots qu'on trouve une seule fois (hapax legomena)

13 Autres phénomènes de fréquence
La fréquence relative des catégories grammaticales, bien que variant d'un individu ou d'un texte à l'autre, est stable. C'est ainsi qu'en français les mots outils (articles, pronoms, conjonctions, prépositions) représentent 50% de n'importe quel texte, l'autre moitié étant constituée par les mots pleins (substantifs, verbes, adjectifs, adverbes). On peut noter que dans le dictionnaire cette proportion est tout autre, les mots outils ne représentant que 0,5% du lexique total. Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.

14 Autres phénomènes de fréquence
La fréquence des mots d'une langue dans le discours est liée à leur structure phonique; en particulier, le nombre de phonèmes d'un mot dépend de son rang. On peut ainsi observer une tendance générale de toutes les langues, selon laquelle plus un mot est fréquent, plus il est court (c'est-à-dire moins son « coût de production » est élevé). Cela apparaît bien dans le phénomène général d'abrègement des mots longs dont la fréquence a tendance à augmenter dans le discours : tronquements (« cinématographe » devient « cinéma » et « ciné »), sigles (S.N.C.F., U.R.S.S.), auxquels on peut rattacher certains phénomènes de substitution (« contremaître » devient « singe », etc.). Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.

15 URL génial

16 MORALE

17 Les n-grammes De la même façon que nous sommes intéressés aux distributions des fréquences des mots individuels, nous sommes aussi, même plus, intéressés à récolter les distributions des fréquences des séquences à deux, trois, quatre mots à la fois.

18 Les n-grammes Un n-gramme (néologisme à partir des termes « bigramme », « trigramme », etc.) est une séquence de taille fixée d'un texte. Exemples Les n-grammes des mots sont toutes les séquences de n mots dans le corpus. le chat mange la souris bigrammes (n-grammes de longueur 2) (le chat) (chat mange) (mange la) (la souris) trigrammes (n-grammes de longueur 3) (le chat mange) (chat mange la) (mange la souris)

19 Les n-grammes À quoi servent les n-grammes?
À travers les distributions des n-grammes on arrive à approximer certaines régularités langagières. Par exemple, voisins d'un mot dans un texte classification distributionnelle (syntaxique) des mots représentation d'un document représentation d'une langue

20 Les n-grammes Les unités de comptage ne sont pas nécessairement les mots. Les spécialistes de parole s'occupent de n-grammes de phonèmes. Ou encore en syntaxe les bigrammes de catégorie morpho-syntaxique sont des couples du type (Nom-Verbe) ou (Adjectif-Nom), parmi d'autre, indiquant combien de fois un nom est suivi d'un verbe dans le corpus, ou un adjectif suivi d'un nom. En cryptographie on s'occupe d’unigrammes, de bigrammes et de trigrammes de lettres.

21 Chiffrer un message Un des moyens les plus simples de chiffrer un message est de remplacer chaque lettre par une autre (ou un autre symbole). Par sa simplicité et par sa force, ce système a dominé la technique des écritures secrètes pendant tout le premier millénaire. Il a résisté aux cryptanalystes jusqu'à ce que le savant arabe Abu Yusuf Ya'qub ibn Is-haq ibn as-Sabbah Oòmran ibn Ismaïl al-Kindi (ouf!) mette au point, au IXème siècle, une technique appelée analyse des fréquences. Al-Kindi rédige sa méthode dans son plus important traité intitulé Manuscrit sur le déchiffrement des messages cryptographiques. C'est le premier manuscrit connu faisant mention des fréquences d'apparition des lettres. Il explique que « la façon d'élucider un message crypté, si nous savons dans quelle langue il est écrit, est de nous procurer un autre texte en clair dans la même langue, de la longueur d'un feuillet environ, et de compter alors les apparitions de chaque lettre. Ensuite, nous nous reportons au texte chiffré que nous voulons éclaircir et relevons de même ses symboles. Nous remplaçons le symbole le plus fréquent par la lettre première (la plus fréquente du texte clair), le suivant par la deuxième, le suivant par la troisième, et ainsi de suite jusqu'à ce que nous soyons venus à bout de tous les symboles du cryptogramme à résoudre ». Référence :

22 Les distributions de n-grammes
Les systèmes de chiffrement simples sont facilement cassable par une méthode d'analyse de fréquences des lettres, car pour chaque langue, certaines lettres sont beaucoup plus utilisées que d'autres.

23 Les distributions d’unigrammes
Voici pour le français, l'anglais, l'allemand et l'espagnol les fréquences d'apparition des lettres. Référence :

24 Identificateurs des langues
Arrive-t-on à identifier une langue avec seulement les fréquences de n-grammes? Essayons!

25 Les distributions de bigrammes
Voici pour trois langues inconnues, les fréquences d'apparition des 10 bigrammes les plus fréquents : Bigrammes ES DE LE EN RE NT ON ER TE EL Nombres Bigrammes TH HE IN ER AN RE ES ON ST NT Nombres Bigrammes EN ER CH DE TE ND EI IE IN GE Nombres

26 Les distributions de trigrammes
Voici pour trois langues inconnues, les fréquences d'apparition des 10 trigrammes les plus fréquents : Trigrammes ENT LES EDE DES QUE AIT LLE SDE ION EME Nombres Trigrammes THE AND ING ENT ION NTH TER INT OFT THA Nombres Trigrammes DER ICH EIN NDE SCH DIE TEN END CHE UND Nombres

27 Les distributions de bi- et trigrammes en français
Voici pour le français, les fréquences d'apparition des 10 bigrammes et des 10 trigrammes les plus fréquents : Bigrammes ES DE LE EN RE NT ON ER TE EL Nombres Trigrammes ENT LES EDE DES QUE AIT LLE SDE ION EME Nombres Référence :

28 Les distributions de n-grammes en français
Tous les tableaux de la page précédente ont été construits en comptant les fréquences dans un texte français de 100'000 lettres composé de textes de Gustave Flaubert (20'600 lettres), de Jules Verne (19'438) et de trois articles de l'Encyclopedia Universalis, le premier consacré à Bruges (8'182), le deuxième à l'artillerie (25'078) et le dernier à la population (26'702). Référence :

29 Les distributions de bi- et trigrammes en anglais
Voici pour l'anglais, les fréquences d'apparition des 10 bigrammes et des 10 trigrammes les plus fréquents : Bigrammes TH HE IN ER AN RE ES ON ST NT Nombres Remarques : les 52 (sur 676) bigrammes les plus fréquents, représentent plus de la moitié de toutes les occurrences. Trigrammes THE AND ING ENT ION NTH TER INT OFT THA Nombres Si les espaces entre les mots ont été conservés (ce qui n'est généralement pas le cas) on peut aussi utiliser les informations suivantes : Les mots de deux lettres les plus fréquents sont of, to, in, it, is, be, as, at, so, we, he, by, or, on, do, if, me, my, up, an, go, no, us, am. Les mots de trois lettres les plus fréquents sont the et and. Référence :

30 Les distributions de n-grammes en anglais
Tous les tableaux de la page précédente ont été construits en comptant les fréquences dans un texte anglais de 100'000 lettres composé de textes d'Edgar Allan Poe (24'541 lettres), d'Arthur Conan Doyle (14'153) et de quatre articles de l'Encyclopédie Encarta 95, le premier consacré à New York (13'100), le deuxième à la Bible (19'405), le troisième aux baleines (9'083) et le dernier au transport ferroviaire (19'718). Référence :

31 Les distributions de bi- et trigrammes en allemand
Voici pour l'allemand, les fréquences d'apparition des 10 bigrammes et des 10 trigrammes les plus fréquents : Bigrammes EN ER CH DE TE ND EI IE IN GE Nombres Trigrammes DER ICH EIN NDE SCH DIE TEN END CHE UND Nombres On reconnaît les articles « der », « die », « ein ». Il est à noter que « das » ne vient qu'en 43ème position avec 255 occurrences seulement. Référence :

32 Les distributions de n-grammes en allemand
Tous les tableaux de la page précédente ont été construits en comptant les fréquences dans un texte allemand de 100'000 lettres composé d'un texte de Franz Kafka (28'188 lettres), d'un texte historique consacré à Gilberte de Courgenay (17'845) et de trois articles trouvés sur le web, le premier consacré à la découverte de la planète Pluton (24'165), le deuxième à Yvan le Terrible (24'560) et le dernier aux éléphants d'Afrique (5'242). Le symbole « ß » a été remplacé systématiquement par « ss ». Référence :

33 Effectifs et proportions
On a vu que les simples comptages sont très utiles pour l'investigation quantitative des données textuelles. Mais ils ne sont pas suffisants. Par exemple, on ne peut pas les utiliser pour faire de comparaisons. Il faut alors utiliser les fréquences relatives ou proportions. Exemple Nous voudrions savoir si le mot anglais boot est utilisé avec la même fréquence en anglais parlé et anglais écrit. Nous avons accès à un corpus de 500'000 mots d'anglais écrit mais seulement 50'000 d'anglais parlé. En comptant les effectifs, nous trouvons 50 occurrences dans le corpus parlé et 500 occurrence dans le corpus écrit. La conclusion est clairement que la fréquence d'utilisation de boot est la même dans les deux modalités, car la proportion des cas est égale.

34 Significance testing Significance tests allow us to determine whether or not a finding is the result of a genuine difference between two (or more) items, or whether it is just due to chance. For example, suppose we are examining the Latin versions of the Gospel of Matthew and the Gospel of John and we are looking at how third person singular speech is represented. Specifically we want to compare how often the present tense form of the verb "to say" is used ("dicit") with how often the perfect form of the verb is used ("dixit"). A simple count of the two verb forms in each text produces the following results: dicit dixit john matthew From these figures is looks as if John uses the present form ("dicit") proportionally more often than Matthew does, but to be more certain that this is not just due to co-incidence, we need to perform a further calculation - the significance test. There are several types of significance test available to the corpus. Here we will only examine the chi-squared test as it is the most commonly used significance test in corpus linguistics. This is a non-parametric test which is easy to calculate, even without a computer statistics package, and can be used with data in 2 X 2 tables, such as the example above. However, it should be noted that the chi-squared test is unreliable where very small numbers are involved and should not therefore be used in such cases. Also, proportional data (percentages etc) can not be used with the chi-squared test. Référence :

35 Significance testing The test compares the difference between the actual frequencies (the observed frequencies in the data) with those which one would expect if no factor other than chance had been operating (the expected frequencies). The closer these two results are to each other, the greater the probability that the observed frequencies are influenced by chance alone. Having calculated the chi-squared value (we will omit this here and assume it has been done with a computer statistical package) we must look in a set of statistical tables to see how significant our chi-squared value is (usually this is also carried out automatically by computer). We also need one further value - the number of degrees of freedom which is simply: (number of columns in the frequency table - 1) x (number of rows in the frequency table - 1) In the example above this is equal to (2-1) x (2-1) = 1. We then look at the table of chi-square values in the row for the relevant number of degrees of freedom until we find the nearest chi-square value to the one which is calculated, and read off the probability value for that column. The closer to 0 the value, the more significant the difference is - i.e. the more unlikely that it is due to chance alone. A value close to 1 means that the difference is almost certainly due to chance. In practice it is normal to assign a cut-off point which is taken to be the difference between a significant result and an "insignificant" result. This is usually taken to be 0.05 (probability values of less than 0.05 are written as "p < 0.05" and are assumed to be significant.) Référence :

36 Résumé du cours Données qualitatives vs quantitatives
quantitatives : attention au détail, même importance qualitative : résumé, échantillonnage, représentativité Classification : on établit un schéma (les types), et on classes les instances (tokens). Distribution des tokens par type Loi de Zipf : le produit entre le rang et la fréquence est constant Les n-grammes en tant qu’unités linguistiques, les distributions de n-grammes Fréquence relative pour normaliser échantillons de tailles différentes


Télécharger ppt "Les Méthodes Quantitatives"

Présentations similaires


Annonces Google