Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)

Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp Tom Mitchell Machine Learning)

Différentes méthodes empiriques
Représentation: probabiliste, symbolique, Entraînement: supervisé ou non-supervisé Tâches: reconnaissance de la parole; analyse syntaxique (parsing)/désambiguïsation; Classification textes; acquisition lexicale: attachement du PP, classes des mots; désambiguïsation du sens des mots; traduction automatique.

Apprentissage: définition
On dit qu'un programme informatique apprend à partir d’une expérience empirique E par rapport à une tâche T et par rapport à une mesure de performance P, si sa performance P à la tâche T s’améliore à la suite de E. Exemple Tâche T: classer des verbes anglais dans des classes prédéfinies Mesure de performance P : % de verbes classés correctement par rapport à une classification définie par des experts (gold standard) Expérience d’entraînement E: base de données de couples de verbes (et leurs propriétés) et classe correcte

Apprentissage par classification
La tâche la plus étudiée en apprentissage automatique (machine learning) consiste à inférer une fonction classant des exemples représentés comme vecteurs de traits distinctifs dans une catégorie parmi un ensemble fini de catégories données.

Apprentissage par classification: exemple
Soit un ensemble de verbes. Tâche: classification binaire: verbes de types de mouvement (courir, se promener) et verbes de changement d’état (fondre, cuire). Traits: pour chaque forme du verbe dans un corpus, le verbe, est-il transitif? est-il passif? Son sujet, est-il animé? Vecteur: vecteur du pourcentage de fois où le verbe est transitif, passif et son sujet est animé sur le total d’effectifs dans le corpus.

Apprentissage par classification:exemple
Exemple Trans? Pass? Anim? Class courir % 3% 90% MoM marcher % 5% 77% MoM fondre % 9% % CoS cuire % % % CoS

Apprentissage par classification
Fonctions apprises possibles Si Pass? < 10% et Anim? >25% alors MoM Si Trans? <= 10% et Anim >25% alors MoM Si Trans? > 10% et Pass? < 10% alors MoM

Arbre de décision Les arbres de décision sont des classifieurs (classeurs?) qui opèrent sur des instances représentées par des vecteurs de traits. Les nœuds testent les traits. Il y a une branche pour chaque valeur du trait. Les feuilles spécifient les catégories. Ils peuvent aussi être écrits comme de règles. Exercices Dessiner les (sous-)arbres de décision correspondant aux règles vues auparavant.

Apprentissage des arbre de décision
Les instances sont représentées en tant que vecteurs de couples traits-valeurs. La fonction cible à des valeurs discrètes de sortie. L’algorithme gère des masses de données avec efficacité, il gère des données bruitées, il gère des données auxquelles manquent certaines valeurs.

Algorithme de base d’apprentissage des arbres de décision
ArbreD(exemples,attributs) Si tous les exemples appartient à une catégorie alors retourner une feuille avec cette catégorie comme étiquette Sinon si attributs est vide alors retourner une feuille dont l’étiquette est la catégorie majoritaire dans exemples Sinon choisir un attribut A pour la racine: pour toutes les valeurs possibles vi de A soit exemplesi le sous-ensemble dont la valeur de A est vi ajouter une branche à la racine pour le test A = vi si exemplesi est vide alors créer une feuille dont l’étiquette est la catégorie majoritaire dans exemples sinon appeler récursivement ArbreD(exemplesi,attributs – {A})

Exercice Construire l’arbre de décision à partir des données suivantes. Exemple Trans? Pass? Anim? Class courir bas bas haut MoM marcher haut bas haut MoM fondre bas bas bas CoS cuire haut haut haut CoS

Exemple Anim? haut bas Courir/MoM Fondre/CoS Marcher/MoM Cuire/CoS
Exemple Trans? Pass? Anim? Classe courir bas bas haut MoM marcher haut bas haut MoM fondere bas bas bas CoS cuocere haut haut haut CoS Courir/MoM Marcher/MoM Cuire/CoS Fondre/CoS Marcher/MoM Cuire/CoS Trans? haut bas Courir/MoM Cuire/CoS Marcher/MoM Pass? haut bas

Exemple Anim? haut bas Trans? haut bas Fondre/CoS Cuire/CoS
Marcher/MoM pass? haut bas Courir/MoM

Choisir la racine En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles Cuire/CoS Marcher/MoM Courir/MoM Fondre/CoS pass? haut bas Marcher/MoMCuire/CoS Courir/MoM Fondre/CoS Trans? haut bas Cuire/CoS Courir/MoM Marcher/MoM Fondre/CoS Anim? haut bas

Choisir la racine En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles. Le test parfait diviserait les données en sous-ensembles pures, appartenant tous à la même classe. L’entropie est la mesure indiquant l’impureté d’un ensemble d’exemples par rapport à une classification Les mesures utilisées pour choisir l’attribut racine sont basées sur l’entropie

Entropie L’entropie est la mesure indiquant l’impureté où le désordre d’un ensemble d’exemples par rapport à une classification L’entropie d’un ensemble d’exemples S par rapport à une classification Où pi est la proportion d’exemples de catégorie i dans S

Exercice Exemple ClassA Exemple ClassB courir MoM courir MoM
Etant donnée la formule de l’entropie, calculer l’entropie des deux classification ci-dessous Exemple ClassA courir MoM marcher MoM fondre CoS cuire CoS Exemple ClassB courir MoM marcher MoM voler MoM cuire CoS

Exercice - solution Exemple ClassB Exemple ClassA courir MoM
marcher MoM voler MoM cuire CoS Exemple ClassA courir MoM marcher MoM fondre CoS cuire CoS Entropie(ClassA) = -(.5 log2 .5) -(.5 log2 .5) = -(.5 –1) –(.5 –1) =1 Entropie(ClassB)= -(.25 log2 .25) – (.75 log2 .75) = -(.25 -2) –( ) =.811 Pour une classification donnée, la distribution uniforme est celle avec l’entropie maximale

Gain d’information (information gain)
Le gain d’information d’un attribut A est la réduction de l’entropie à laquelle on peut s’attendre si on fait une partition sur la base de cet attribut. Values(A)= ensemble des valeurs possibles de l’attribut A Sv= sous-ensemble de S pour lequel A a valeur v |S| = taille de S | Sv|= taille de Sv

Gain d’information (information gain)
Le gain d’information est donc la réduction attendue de l’entropie (l’entropie des données, moins la moyenne proportionnelle de l’entropie) qui reste après avoir fait la partition. Plus le gain est élevé, plus cet attribut nous fourni de l’information pour la classification des données. Pour la racine de l’arbre, on choisit donc l’attribut qui maximise ce gain.

Exercice Calculer le gain d’information de chaque attribut des données ci-dessous. Exemple Trans? Pass? Anim? Classe courir bas haut MoM marcher fondre CoS cuire

Exercice—solution Gain(S,Anim?) = 1 – 3/4 ( ) – 1/4 (0) = 1 – .69 = .31 Gain(S,Pass?) = 1 – 1/4 (0) – 3/4 ( ) = 1 – .69 = .31 Gain(S,Trans?) = 1 – 2/4 (.5+.5) – 2/4 (.5+.5) = 1 – 1 = 0

Gain d’information et proportion de gain
Le gain d’information présente un désavantage. Il a tendance à préférer les attributs à beaucoup de valeurs différentes, et qui partagent les données en nombreux petits sous-ensembles pures La proportion de gain est une mesure alternative qui divise le gain d’information par une mesure proportionnelle à la taille de la partition générée par les valeurs d’un attribut (si il y a beaucoup de valeurs le dénominateur sera plus large)

Le biais inductif (inductive bias)
Toute méthode utilisée par un système de classification pour choisir entre deux fonctions, toutes les deux compatibles avec les données d’entraînement, s’appelle biais inductif. Le biais inductif est de deux types le biais du langage – le langage représentant les fonctions d’apprentissage définit un' espace d’hypothèses limité le biais de la recherche – le langage est assez expressif pour exprimer toutes les fonctions possibles, mais l’algorithme de recherche implique une préférence pour certaines hypothèses plutôt que d’autres Les arbres de décision impliquent un biais pour les arbres plus petits par rapport aux plus grands (biais de recherche)

La futilité de l’apprentissage en absence de biais
Un apprenant qui n’utilise aucune assomption a priori concernant l’identité du concept cible ne possède aucune base rationnelle pour classer de nouvelles instances. L’apprentissage sans biais est impossible. Le biais inductif décrit la logique avec laquelle l’apprenant généralise au delà des données d’entraînement. Le biais inductif de l’apprenant est l’ensemble d’assomptions ultérieures suffisantes pour justifier l’inférence inductive en tant que déduction

Le rasoir de Occam Pluralitas non est ponenda sine necessitate
Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins Mais alors, pourquoi ne pas préférer les hypothèses très spécifiques, qui sont aussi très peux nombreuses

Le rasoir de Occam Pluralitas non est ponenda sine necessitate
- citation attribuée à William of Occam (vers 1320) Interprétation courante : préférer l’hypothèse la plus simple qui décrit les données observées. Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins. Il y a donc moins de chance qu’une mauvaise hypothèse décrive parfaitement les données d’entraînement par hasard. Autre principe apparenté : description de longueur minimale (minimum description length). Ces principes ne sont pas parfaits, ils sont difficiles à justifier théoriquement, mais la pratique a démontré qu’ils sont utiles. Ils sont donc très souvent utilisés.

Systèmes d’induction d’arbres de décision
C4.5, par Ross Quinlan. Gratuit à : C4.5-ofai, version de C4.5 modifiée par Johann Petrak. Gratuit à : C5.0, par Ross Quinlan. C5.0 est une version vastement améliorée de C4.5, mais n’est pas gratuit. Démo gratuit—mais limité à 400 exemples—à :

Classification des verbes
Les verbes sont la source principale d’information relationnelle dans la phrase Jane hit the ball GN GN Agent Theme Classifier est une forme d’apprentissage indirect du lexique - organisation facile: les verbes partage des propriétés syntaxique et sémantiques - extension cohérente: l’association d’un verbe à une classe donnée permet d’hériter toutes les propriétés de la classe We focus now on a specific task in lexical acquisition, the task of verb classification. Knowledge about verbs is especially important, as verbs are the primary source of relational information in a sentence---the predicate-argument structure that relates an action or state to its participants Classification is a necessary subtask of building computational lexicons as it organizes the lexicon and gives means to extend entries to unknown words or new senses of a word.

Exemple de classification des verbes
Classes des verbes anglais selon Levin (1993) environs 200 classes pour 3000 verbes Par exemple Manner of Motion: race, jump, skip, moosey Sound Emission: buzz, ring, crack Change of State: burn, melt, pour Creation/Transformation: build, carve Psychological state: admire, love, hate, despise

Alternances des verbes
Comment arrive-t-on à une telle classification? Hypothèse: les verbes avec une sémantique semblable expriment leurs arguments de façon semblable dans les cadres de sous-catégorisation permis. Ils présentent les mêmes alternances. Exemple si un verbe peut être transitif melt butter jump horse et il peut être intransitif butter melts horse jumps et il peut donner lieu à un adjectif melted butter *jumped horse alors il est change of state

La méthode de Merlo et Stevenson (2001)
Selon Levin, il y a un correspondance régulière entre la sémantique d’un verbe et sa syntaxe: les verbes qui partagent la même sémantique partagent aussi la même syntaxe. On peut faire un raisonnement inverse et induire les classes sémantiques à partir de l’usage syntaxique: les verbes qui ont la même syntaxe en surface–-comme dans l’exemple précédent—ont les mêmes propriétés sémantiques. On apprend les classes des verbes sur la base de leurs propriétés dans un corpus. The crux of our proposal that differentiates it from other proposals is based on the observation, due to Pinker 89 and Levin 93, that verbs that share semantic properties share syntactic properties as well, as there is a regular mapping between these two levels. It is therefore possible to reason in the reverse direction and induce semantic class information from surface syntactic usage. In particular our proposal is that we can classify verbs based on their thematic relations –a deep level of linguistic description--, using only corpus-based statistics.

Méthodologie Analyser les classes des verbes afin de déterminer leurs propriétés les plus discriminantes. Développer des indices qui se rapprochent des propriétés discriminantes des verbes et qu’on peut compter dans un corpus. Compter dans un corpus afin de construire un résumé numérique pour chaque verbe. Utiliser un algorithme d’apprentissage automatique (par exemple l’algorithme d’induction des arbres des décision) pour construire un classificateur et mesurer sa performance. The method that we will use to achieve this goal unfolds in four steps Analyse the thematic properties of verbs Develop surface correlates to these thematic properties which we call indicators (indicator random variables) that can be counted in a corpus Collect relative frequencies to generate a statistical summary of the thematic behaviour of verb Apply learning algorithm (decision tree induction) To produce a classifier we experimented both with supervised and unsupervised method and concentrate on supervised method as it is easier to develop an understanding of the results

Classes des verbes anglais
Manner of Motion The rider raced the horse past the barn Agent Agent (Causal) The horse raced past the barn Agent Change of State The cook melted the butter Agent Theme The butter melted Theme Creation/Transformation The contractors built the house Agent Theme The contractors built all summer We will demonstrate the method on the most difficult case for a lexical semantic based appraoch, the case of those verb classes that differ in meaning but have a very similar surface syntactic behaviour: the three major classes of optionally intransitive verbs. Verbs that can occur both in a transitive (verb followed by a direct object) and intransitive (verb alone) construction. Manner of motion verbs: 1. verbs of activity that have a causative meaning in the transitive variant. 2. obj of trans is agentive 3. there is an alternation b/w objof trans and subj of intrans Change of state verbs 1 denote change no activityand they also have a causative alternation 2. participant undergoing the change is passive and non volitional hence a theme C/T verbs 1. activity verbs subj of trans is the performed of the action , object is result of the action 2 Subject of intr is same participant as trans, no alternation Learning this classification is of practical importance, as thematic relations are needed in many NLP tasks such as parsing generation, ie, translation, for example These three classes capture typological distinctions that are useful for machine translation (for example, causative MOMs are ungrammatical in many languages), as well as processing distinctions that are useful for generating naturally occurring language (for example, reduced relatives with MOM verbs are awkward, but they are acceptable and in fact often preferred to full relatives for COS and C/T.)

Résumé des propriétés thématiques
Classes Transitif Intransitif Sujet Objet Manner of Motion (race) Agent (Causal) Agent Change of State (melt) Theme Create/Transform (build) IDEE PRINCIPALE Les différences thématiques sous-jacentes entre les classes de verbes se reflètent dans des différences d’usage à la surface. I summarise here again the thematic properties I have illustrated before. Notice that column-wise one class stands out as different from the others. If we can pick out the odd one in all these cases, then we can discriminate the verb classes We attempt to achieve this goal based on the main idea that these thematic differences surface as detectable differences in the usage of surface indicators

Traits pour la classification automatique
Classes Transitif Exemple Sujet Objet MoM Agent (Causal) Agent The jockey raced the horse CoS Theme The cook melted the butter C/T The workers built the house Trait Transitivité (usage de la construction transitive ) La transitivité par « causation » est plus complexe. L’objet agent est très rare parmi les langues. Ordre de fréquence de la transitivité auquel on peut s’attendre : MoM < CoS < C/T Notice the thematic assignments of the transitive construction We predict that different classes will have different Transitive usage: MoM < CoS < C/T Causative are more complex than simple transitives Agentive objects are typologically rare. We know that complexity and rarity are correlated to frequency, as observed by markedness theory. Facts: No Lexical causatives of MOM verbs, but yes CoS: Italian, French, German, Portuguese, Gungbe (Kwa family), and Czech. Vietnamese appears to allow a very restricted form of causativization of MoM limited to only those cases that have a comitative reading.

Relation entre fréquence et transitivité
Transitivité par « causation » : MoM, CoS Complexité plus grande car deux événements (en français : « faire courir », « faire fondre ») Objet Agentif : MoM (transitif inergatif) Rare en Anglais: seulement MoM Rare dans la typologie des langues (* Italien, Français, Allemand, Portugais, Tchèque et Vietnamien) Difficile à traiter chez l’humain (Stevenson et Merlo, 97, Filip et al., CUNY 98) Transitive MOMs and COS have a causative meaning. We can assume that transitivity by causation is more complex than simple transitives, as there are two events involved. If the inverse relation between complexity and frequency is true, then we expect a lower use of transitive for these two classes compared to the C/T class. MOMs have agentive objects.This is becuase they are transitivized unergative verbs. This is a very marked construction on all accounts of markedess: it is rare even in English, as only MOMs and sound emission verbs are unergatives which nonetheless allows transitivisation. it is typologically rare Facts: No Lexical causatives of MOM verbs, but yes CoS: Italian, French, German, Portuguese, Gungbe (Kwa family), and Czech. Vietnamese appears to allow a very restricted form of causativization of MoM limited to only those cases that have a comitative reading. Notive that in all these languages transitive causative CoS are allowed. Transitive MOMs are slower to process than Cos transitives (Filip et al cuny 98 talk) MoMs cause garden paths even when they are NOT ambiguous For all these reasons, we expect a total order of transitivity MOM <COS <C/T We gave a processing explanation of the fact that these verbs cause a garden path, which was however grounded in a specific extension of hale and keyser proposal. We developed a specific representation for these cases which require an extra level of embedding, hence more complex. Combined with stevenson’s competitive model, we had the obsered effects. Work by Bresnan and colleagues could well be used to explain these markedness facts.

Animacy Classes Sujet du Exemple Transitif Intransitif MoM
(Causal) Agent Agent The jockey raced the horse The horse raced CoS Theme The cook melted the butter The butter melted C/T The workers built the house The workers built Animacy is another property for which we can expect to have differential statistical values typical of the class, as they reflect underlying thematic assignments. We expect COS verbs to have fewer animate subjects than the other two classes. This is because we expect themes to be less likely to be animate. Il est moins probable que les thèmes soient animés Ordre de fréquence de « animacy » auquel on peut s’attendre : COS < {MoM,C/T}

Utilisation Causative
Classes Objet Sujet Transitif Intransitif Exemple MoM Agent The jockey raced the horse The horse raced CoS Theme The cook melted the butter The butter melted C/T No causative alternation Transitivité par « causation » : MoM, CoS Sujet causal, même rôle thématique entre sujet intr. et objet trans. Ordre de fréquence du chevauchement auquel on peut s’attendre : MoM, C/T < CoS The overlap between subjects and objects will be higher for classes that participate in the causative alternation. By definition of causative, these are classes where we assume that subjects and objects can be sampled from the same pool of nouns as they express the same thematic role Notice however that the frequency expectations must take the interaction with other properties into account. Such as the fact that MOMs are not often transitive, so despite their being causative verbs, they will not show a high overlap. Hence the expected frequency MOM, C/T < COS

Résumé des fréquences auxquelles on s’attend
Transitivité : verbe est transitif MoM < CoS < C/T Causativité : usage causatif CoS > C/T Animacy : sujet est une entité animé CoS < {MoM, C/T} Analogous inferential reasoning can be applied to develop Expected indicators of the other differences in thematic assignments. The percentage of causative usage and the percentage of animate subjects, which will primarily distinguish the CoS class

Récolte des données Verbes manner of motion: jump, march
change of state: open, explode Creation/transformation: carved, painted Forme du verbe: ``-ed'‘ Corpus 65 millions mots étiquetés Brown + étiquetés WSJ corpus (LDC) 29 millions mots analysés WSJ (LDC corpus, parser Collins 97) The verbs were chosen because they do not generally show massive departures from the intended verb sense (and usage) in the corpus. Though note that there are only 19 unaccusatives because {\em ripped\/}, which was initially counted in the unaccusatives, was then excluded from the analysis as it occurred mostly in a very different usage in the corpus ({\em ripped off\/}) from the intended change of state sense. In performing this kind of corpus analysis, one has to take into account the fact that current corpus annotations do not distinguish verb senses. In these counts, we did not distinguish a core sense of the verb from an extended use of the verb. So, for instance, the sentence {\em Consumer spending jumped 1.7\% in February after a sharp drop the month before\/} (WSJ 1987) is counted as an occurrence of the manner-of-motion verb {\em jump\/} in its intransitive form.

Récolte des données–-Méthode
TRANS Token du verbe suivi immédiatement d’un groupe nominal = transitif sinon intransitif. PASS Verbe principal (VBD) = forme active. Token avec étiquette VBN = active si auxiliaire précédent = have = passive si auxiliaire précédent = be. VBN Étiquette POS

Récolte des données–-Méthode
CAUS L’objet de la forme causative transitive est le même argument sémantique que le sujet de la forme intransitive. Étapes d’approximation Récolter les multi-ensembles des sujets et des objets pour chaque verbe Calculer le chevauchement des deux multi-ensembles Calculer la proportion entre le chevauchement et la somme de deux multi-ensembles ANIM Proportion de pronoms sujet sur le total des sujets pour chaque verbe These counts approximates the actual values pretty well, as found by manual inspection of two verbs in each class. However, they mostly makes mistakes such as underestimating transitivity, that bring unaccusatives and object-drops together.

Analyse statistique des données
Fréquences relatives moyennes Toutes significatives, sauf la différences entre CoS et ObD pour les traits PASS et VBN TRANS PASS VBN CAUS ANIM MoM .23 .07 .12 .00 .25 CoS .40 .33 .27 ObD .62 .31 .26 .04 .15

Expériences de classification
Entrée Vecteur: [ verbe,TRANS,PASS,VBN,CAUS,ANIM,class] Exemple: [ open, .69, , .21, , , CoS ] Méthode Apprenant: C5.0 (algorithme d’induction d’arbre de décision) Entraînement/Test: 10-fold cross-validation, répété 50 fois

Résultats Exactitude 69.8%
(baseline 33.9, limite supérieure experts 86.5%) 54% réduction du taux d’erreur sur des verbes jamais vus Traits Exactitude % 1 TRANS PASS VBN CAUS ANIM 69.8 2 3 67.3 4 66.5 5 63.2 6 61.6

Résultats Tous les traits sont utiles, sauf le passif

Résultats classe par classe
Traits Trait éliminé Exac- titude F MoM CoS C/T 1 TRANS PASS VBN CAUS ANIM 69.8 73.9 68.6 64.9 2 TRANS VBN CAUS ANIM PASS 76.2 75.7 61.6 3 TRANS PASS VBN ANIM CAUS 67.3 65.1 60.0 62.8 4 TRANS PASS CAUS ANIM VBN 66.5 66.7 65.0 51.3 5 TRANS PASS VBN CAUS ANIM 63.2 72.7 47.0 6 PASS VBN CAUS ANIM TRANS 78.1 51.5 61.9 Les MoM sont les mieux identifiés

MoM Levin Program floated, E O hurried, E E jumped, E E leaped, E E marched, E E paraded, E O raced, E E rushed, E E vaulted, E E wandered,E E galloped, E A glided, E E hiked, E E hopped, E E jogged, E E scooted, E E scurried, E E skipped, E E tiptoed, E E trotted, E O CoS Levin Program boiled, A A cracked, A O dissolved, A A exploded, A A flooded, A A fractured, A A hardened,A A melted, A E opened, A O solidified, A O collapsed,A E cooled, A A folded, A E widened, A A changed, A A cleared, A A divided, A A simmered,A E stabilized, A A C/T Levin Program carved, O O danced, O O kicked, O E knitted, O O painted, O O played, O E reaped, O O typed, O O washed, O O yelled, O E borrowed, O O inherited, O O organized,O A rented, O E sketched, O A cleaned, O O packed, O O studied, O A swallowed,O O called, O A

Traits MoM (E) P R CoS (A) P R C/T (O) TRANS PASS VBN CAUS ANIM 16/24 .67 16/20 .8 12/17 .71 12/19 .63 12/18 12/20 .6 F = .73 F = .67 F = .63

Analyse des Erreurs TRANS augmente la discrimination des trois classes
Tous traits Classe donnée MoM CoS C/T Vraie Classe 1 2 4 3 5 Sans Animacy Classe donnée MoM CoS C/T Vraie classe 2 5 6 3 TRANS augmente la discrimination des trois classes ANIM augmente la discrimination des CoS VBN augmente la discrimination des C/T

Conclusions On peut apprendre trois classes de verbes anglais à l’aide de calculs tirés d’un corpus avec une performance satisfaisante Questions: La méthode, s’applique-t-elle à d’autres verbes? à d’autres classes? à d’autres langues?

Généralisation 1 : nouveaux verbes
Nouveaux verbes - Mêmes classes de verbes, plus de verbes - Une classe similaire: Verbes d’émission de son (similaire à MoMs) Données Comptage du corpus BNC (100 M mots) Exactitude Selon les groupes de verbes, de 58.8% à 80.4% Conclusion 1 - la généralisation de la méthode à de nouveaux verbes a une performance très variable

Généralisation 2 : nouvelle classe
Nouvelle Classe Verbes d’état psychologique Rôles thématiques Experiencer Stimulus Exemple The rich love money Experiencer Stimulus The rich love too Experiencer Traits d’apprentissage : TRANS, CAUS, ANIM PROG utilisation du progressif (statif/pas statif) carefully indique action volontaire (agent vs experiencer) Résultats % exactitude(baseline 57%) TRANS, CAUS, ANIM meilleurs traits Same three classes as before + Psych verbs were based on the admire class in Levin 93 Psych vs MoM,CoS CAUS: psych verbs do not undergo the causative alternation, so the CAUS feature should be lower. Psych vs CoS ANIM: their subjects (Experiencers) are more likely to be animate than CoS, so the ANIM feature should be higher. Psych (stative) vs C/T,MoM (non-stative): PROG a measure of progressive use, non-stativity (Bertinetto 86).

Discussion Relation entre fréquence et propriétés thématiques est valable pour la nouvelle classe Certains traits d’apprentissage (ANIM,TRANS) sont valables pour plusieurs classes DISCOVERY AND FUTURE DIRECTIONS This suggests that thematic roles may be decomposable into more primitive features (Dowty 91) which our syntactic indicators are tapping into. That is, the ability of features to discriminate new roles may be a function of how much those features reflect underlying commonalities across thematic roles.

Généralisation 3 : nouvelle langue
Extension de la méthode mono-langue développé pour l’anglais à une nouvelle langue (Italien) - on profite des similarités entre langues (anglais, italien) - on étends la couverture de la méthode What unifies these two types of cross-linguistic generalisations is they both explore language universals, in different ways, but crucially relying on the same abstract notion of thematic relation. Thematic roles capture the underlying similarity of verbs cross-linguistically, the syntax/semantics mapping may exhibit well-attested cross-linguistic variation in the surface realization of the verbal arguments.

Extension monolingue (Merlo, Stevenson, Tsang et Allaria, 2002; Allaria, 2001)
Nouvelle langue Italien Classes Cos, 20 Obd, 19 Psy (*MoM) Traits: TRANS, CAUS, ANIM (for CoS et obD) PROG, PRES (Psy) We exploit the similarities in the cross-linguistic classification of verbs, to extend this work to a new language (Italian), and to new classes within that language, achieving an even better accuracy than the work on English. We selected two of the three classes originally studied for English---change of state and object drop (a more general set of verbs with the same argument structure as the creation/transformation verbs)---to show that the same classes could be distinguished within a new language, Italian. We also added the psych verbs, to study whether the method would extend to a new class as well. The psych verbs were chosen as the novel class because they are optionally intransitive and introduce new thematic roles---Experiencer and Stimulus---that had not been previously investigated.

Données et Méthode Corpus : PAROLE 22 millions mots (CNR, Pisa)
extraction de patrons pour chaque verbe (CNR, Pisa) comptages manuelle (Allaria, Geneva) Comptages : pourcentages (à différence de comptages pour l’anglais, ils sont exacts) Méthode Algorithme : C5.0 Entraînement/Test: 10-fold cross-validation, répété 50 fois

Résultats 79% réduction du taux d’erreur pour nouveaux verbes
Traits Exa% TRANS CAUS ANIM PRES (PROG) 85.1 TRANS CAUS ANIM PROG 85.4 TRANS (CAUS) ANIM 86.4 79% réduction du taux d’erreur pour nouveaux verbes Classification est faite avec les traits développés pour l’anglais (TRANS ANIM) Overall Results compare very favourably to English (recall there we had 54% error rate reduction) PRES GERUN don’t do much CAUS not useful if in combination with TRANS and ANIM (but TRANS CAUS quite better than baseline) CAUS ANIM 57%

Conclusions Méthode générale s’applique à une nouvelle langue
Certains traits sont portables à travers les langues En pratique on peut utiliser la technique pour démarrer une classification dans une nouvelle langue DISCOVERY AND FUTURE DIRECTIONS This suggests that thematic roles may be decomposable into more primitive features (Dowty 91) which our syntactic indicators are tapping into. That is, the ability of features to discriminate new roles may be a function of how much those features reflect underlying commonalities across thematic roles. Random variables are incomplete indicators of thematic roles, thus they generalise to properties common to several thematic roles

Généralisation 4 : données multilingues
Extension à l’utilisation de données multilingues pour classifier une langue Par exemple, Chinois et Anglais pour classifier verbes anglais On exploite les différences entre les langues - On améliore la précision de la classification What unifies these two types of cross-linguistic generalisations is they both explore language universals, in different ways, but crucially relying on the same abstract notion of thematic relation. Thematic roles capture the underlying similarity of verbs cross-linguistically, the syntax/semantics mapping may exhibit well-attested cross-linguistic variation in the surface realization of the verbal arguments.

Extension multilingue (Tsang, Stevenson et Merlo, 2002)
Ce qui est implicite dans une langue peut être explicite dans une autre Exemple - Verbes psychologique en allemand ou italien ont souvent une forme réflexive pléonastique sich - Forme causative en chinois a une marque morphologique On utilise données des plusieurs langues pour en classer une Entraînement Chinois Anglais Test Anglais Our second strand of research exploits the differences across languages in the surface expression of meaning, to show that complementary information about English verbs can be extracted from their translations in a second language (Chinese or Italian), considerably improving the classification performance of the English verbs (Tsang et al submitted).

Classification monolingue avec données multilingues
Classes des verbes anglais: 20 MoM, 20 CoS, 20 C/T Traits anglais: TRANS,PASS,VBN,CAUS,ANIM. Traduction chinoise des verbes (on garde toutes les traductions) Comptage de nouveaux traits adaptés au chinois - étiquette POS (sous-catégorisation et statif/actif) - particule passive - particule périphrastique causative ENGLISH Three English classes: MoM, CoS, C/T. All five of the original features: TRANS, PASS, VBN, CAUS, ANIM. Translations of these types of verbs in Chinese were analysed to determine features that potentially discriminate among the three classes. The verb tags and particles are overt expressions of semantic information that is not expressed as clearly in English. The verb tags assigned using the POS tagger from the Chinese Knowledge Information Processing Group (CKIP) incorporate both subcategorization and active/stative information. The particles are overt indicators of the passive construction (an approximate indicator of transitivity, as in English) and of the causative construction (a more reliable version of the English CAUS indicator).

Données et méthode Données anglaises du BNC (étiquetés et chunked),
Données chinoises du Mandarin News (165 millions de caractères) Proportions de étiquette CKIP particule causative particule passive Algorithme: C5.0 Entraînement/Test : 10-fold cross-validation, répété 50 fois Features extracted from the BNC (tagged Brill 95 chunked Abney 96) Mnews: People's Daily and Xinhua newswire sections, 165M characters, from the Linguistic Data Consortium (POS-tagged using the CKIP tagger). Method From MNews, translations of the 60 English verbs in the appropriate semantic meaning were extracted. (Avg number of translations per English verb is 6.5.) All counts were collected automatically. Feature values are relative frequencies.

Résultats Meilleur résultat : combinaison de traits chinois et anglais
Les traits chinois donne une meilleure performance que les traits anglais. Significance: p<.01, t-test with Welch correction, 80df A multi-lingual set of features outperforms either set of mono-lingual features (83.5%, error rate reduction of 75%). 2. The next best accuracy is attained by a single Chinese feature, the \CKIP\ verb tags. We conclude that it is extremely helpful to look to multi-lingual data to increase the potential of syntactic features in revealing semantic information. 3. The features that do best mono-lingually are also the best in combination. This trend generally holds.

Conclusions Les différences parmi les langue fournissent différents points de vue à l’algorithme et améliorent ainsi la performance. En pratique, cela élargit la quantité de données disponibles.

Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)

Présentations similaires

Présentation au sujet: "Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)

Présentations similaires

Présentation au sujet: "Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back