Mesures de performance

Slides:

Advertisements

Présentations similaires

MOT Éditeur de modèles de connaissances par objets typés

Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.

Algorithmes et structures de données avancés

Classification et prédiction

Regroupement (clustering)

Olivier Kraif, Agnès Tutin LIDILEM

TD METHODOLOGIE : RÉUSSIR LA PARTIE ANALYTIQUE

GEF 435 Principes des systèmes d’exploitation

Inférence statistique

Système formel Nous avons introduit : signes de variables (x, y, z, …), de constantes (0, 1), d’opérations (+, ), de relations (=, ) Axiomes : ce sont.

Etude de la langue LOrthographe grammaticale. Constat Les élèves connaissent les règles. Ils savent les appliquer dans les exercices. Et pourtant ! Ils.

"Recherche de scénarios redoutés à partir d'un modèle réseau de Petri"

variable aléatoire Discrète

Traitement de données socio-économiques et techniques d’analyse :

Apprendre à partir des observations

Algorithmique et Programmation

Hésitations autonomes en 8 langues :

Méthode des k plus proches voisins

Régression linéaire simple

Bases de données lexicales

Algorithmique et Programmation

Reconnaissance Vocale

1 Mettre tout ça ensemble Exemple de problème: Attachement du SP Le problème Méthodes possibles Implémentation en Perl Évaluation.

Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp Tom Mitchell Machine Learning)

Courbes de Bézier.

1 CSI3525: Concepts des Languages de Programmation Notes # 4: Description Semantique des Languages.

CSI3525: Concepts des Languages de Programmation

Chapitre 3: Les équations et les inéquations

Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Systeme Question-Reponse SQR

Structure discriminante (analyse discriminante)

Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,

Initiation à la conception des systèmes d'informations

Interprétation automatique

Technique de points de contrôle: Formes de Bézier

Préférences et fonctions d’utilité

Programmation linéaire en nombres entiers : les méthodes de troncature

Paradigmes des Langages de Programmation

Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.

Multi-country Workshop on Development Impact Evaluation in Finance and Private Sector Development Dakar, Senegal, February 1-4, 2010 Non-Experimental Methods.

Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.

Test d'hypothèse pour des proportions:

Micro-intro aux stats.

Évaluation des examens complémentaires

D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.

L’INFINITIF : DEUXIEME PARTIE

Probabilités et Statistiques Année 2010/2011

Initiation à la conception des systèmes d'informations

Aide a la décision avec le tableur

Recherche de motifs par projections aléatoires

Concepts fondamentaux: statistiques et distributions

Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.

Combating Web Spam with TrustRank. OSINI Aurélien.

La proportionnalité Au cycle 3.

Classification automatique des messages électroniques

Post-optimisation, analyse de sensibilité et paramétrage

Résolution des équations différentielles

Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.

Epicure VIème partie. Nous avons remarqué que notre connaissance de la vérité était dépendante de nos sens. Mais tout n’est pas si simple. S’il y a effectivement.

La production écrite Deuxième partie : Modalités

RÉFÉRENCES SCIENTIFIQUES

Comment faire un résumé d’article ?

Chap. 3 Récursion et induction. Les définitions par récurrence consistent à construire des objets finis, à partir d'autres, selon certaines règles. Les.

Evaluation des examens complémentaires dans la démarche médicale

Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.

MES STRATÉGIES DE LECTURE

Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.

Adapté du cours de Stéphane Fontaine par Valéry Michau Source : Les Relations logiques 1°) Définition 2°) Les relations implicites.

Des variables et des données. Dans le domaine de la statistique le mot variable signifie une idée différente de celle dans l’algèbre ou les fonctions.

Transcription de la présentation:

Mesures de performance Classification des verbes Merlo et Stevenson (2001) Joanis et Stevenson (2003)

Mesures de performance : exactitude Supposons qu’on ait un problème d’apprentissage automatique où il s’agit d’identifier, parmi un certain nombre d’objets, lesquels ont la propriété X. Pour chaque objet, on obtient à l’aide d’un modèle statistique la réponse « oui » ou la réponse « non ». Comment peut-on évaluer la performance de notre modèle? Il y a plusieurs méthodes. La plus simple est ce que nous appellerons l’exactitude ou, parfois, la précision—mais attention, le mot « précision » est ici ambigu, comme on va le voir plus tard. Exactitude = Nombre de réponses correctes Nombre total de réponses

Mesures de performance : exactitude Parfois, l’exactitude n’est pas appropriée. Supposons qu’on évalue un engin de recherche comme Google et qu’il y ait 1’000’000 de documents dont 100 m’intéressent. Si je fais le recherche et Google me propose 50 documents dont 10 sont parmi ces 100, alors: Nombre de réponses correctes = 10 (oui qui sont exacts) + 999’860 (non qui sont exacts) Donc exactitude = 999’870 / 1’000’000 = .999’87 !!! Pourtant, ce résultat est en fait mauvais, puisque j’ai 40 documents que je ne veux pas et il en manque 90 que je voudrais.

Mesures de performance : précision et rappel Deux autres mesures sont plus utiles ici : la précision et le rappel. Étant donné les valeurs dans le tableau suivants : Réponse de l’algorithme oui non Vraie réponse vp = Vrai positif fn = Faux négatif Non fp = Faux positif vn = Vrai négatif On définit ces mesures ainsi : Précision = # oui corrects = vp / vp + fp # de oui trouvés Rappel = # oui corrects = vp / fp + fn # de oui réels

Mesures de performance : précision et rappel Alors pour notre recherche sur Google, nous avons : Réponse de l’algorithme oui non Vraie réponse 10 90 Non 40 999’860 Précision = 10 / 10 + 40 = .2 Rappel = 10 / 10 + 90 = .1 Ces mesures sont plus utiles dans ce cas-ci que Exactitude = vp + vn / total

Mesures de performance : mesure F Une autre mesure est utile, résumant la précision et le rappel en une seule mesure : la mesure F. Si P est la précision et R est la rappel, alors F se définit comme: F = 2PR / P + R La mesure F nous donne un mesure de performance équilibrée. Précision inadéquate: Rappel inadéquat: « Équilibre »: vp = 100 fn = 0 fp = 900 vn = 999’000 vp = 20 fn = 80 fp = 0 vn = 999’900 vp = 80 fn = 20 fp = 20 vn = 999’880 P = .1 R = 1 P = 1 R = .4 P = .8 R = .8 F = .18 F = .33 F = .8

Classification des verbes Les verbes sont la source principale d’information relationnelle dans la phrase Jane hit the ball GN GN Agent Theme Classifier est une forme d’apprentissage indirect du lexique - organisation facile: les verbes partage des propriétés syntaxique et sémantiques - extension cohérente: l’association d’un verbe à une classe donnée permet d’hériter toutes les propriétés de la classe We focus now on a specific task in lexical acquisition, the task of verb classification. Knowledge about verbs is especially important, as verbs are the primary source of relational information in a sentence---the predicate-argument structure that relates an action or state to its participants Classification is a necessary subtask of building computational lexicons as it organizes the lexicon and gives means to extend entries to unknown words or new senses of a word.

Exemple de classification des verbes Classes des verbes anglais selon Levin (1993) environs 200 classes pour 3000 verbes Par exemple Manner of Motion: race, jump, skip, moosey Sound Emission: buzz, ring, crack Change of State: burn, melt, pour Creation/Transformation: build, carve Psychological state: admire, love, hate, despise

Alternances des verbes Comment arrive-t-on à une telle classification? Hypothèse: les verbes avec une sémantique semblable expriment leurs arguments de façon semblable dans les cadres de sous-catégorisation permis. Ils présentent les mêmes alternances. Exemple si un verbe peut être transitif melt butter jump horse et il peut être intransitif butter melts horse jumps et il peut donner lieu à un adjectif melted butter *jumped horse alors il est change of state

La méthode de Merlo et Stevenson (2001) Selon Levin, il y a un correspondance régulière entre la sémantique d’un verbe et sa syntaxe: les verbes qui partagent la même sémantique partagent aussi la même syntaxe. On peut faire un raisonnement inverse et induire les classes sémantiques à partir de l’usage syntaxique: les verbes qui ont la même syntaxe en surface–-comme dans l’exemple précédent—ont les mêmes propriétés sémantiques. On apprend les classes des verbes sur la base de leurs propriétés dans un corpus. The crux of our proposal that differentiates it from other proposals is based on the observation, due to Pinker 89 and Levin 93, that verbs that share semantic properties share syntactic properties as well, as there is a regular mapping between these two levels. It is therefore possible to reason in the reverse direction and induce semantic class information from surface syntactic usage. In particular our proposal is that we can classify verbs based on their thematic relations –a deep level of linguistic description--, using only corpus-based statistics.

Méthodologie Analyser les classes des verbes afin de déterminer leurs propriétés les plus discriminantes. Développer des indices qui se rapprochent des propriétés discriminantes des verbes et qu’on peut compter dans un corpus. Compter dans un corpus afin de construire un résumé numérique pour chaque verbe. Utiliser un algorithme d’apprentissage automatique (par exemple l’algorithme d’induction des arbres des décision) pour construire un classificateur et mesurer sa performance. The method that we will use to achieve this goal unfolds in four steps Analyse the thematic properties of verbs Develop surface correlates to these thematic properties which we call indicators (indicator random variables) that can be counted in a corpus Collect relative frequencies to generate a statistical summary of the thematic behaviour of verb Apply learning algorithm (decision tree induction) To produce a classifier we experimented both with supervised and unsupervised method and concentrate on supervised method as it is easier to develop an understanding of the results

Classes des verbes anglais Manner of Motion The rider raced the horse past the barn Agent Agent (Causal) The horse raced past the barn Agent Change of State The cook melted the butter Agent Theme The butter melted Theme Creation/Transformation The contractors built the house Agent Theme The contractors built all summer We will demonstrate the method on the most difficult case for a lexical semantic based appraoch, the case of those verb classes that differ in meaning but have a very similar surface syntactic behaviour: the three major classes of optionally intransitive verbs. Verbs that can occur both in a transitive (verb followed by a direct object) and intransitive (verb alone) construction. Manner of motion verbs: 1. verbs of activity that have a causative meaning in the transitive variant. 2. obj of trans is agentive 3. there is an alternation b/w objof trans and subj of intrans Change of state verbs 1 denote change no activityand they also have a causative alternation 2. participant undergoing the change is passive and non volitional hence a theme C/T verbs 1. activity verbs subj of trans is the performed of the action , object is result of the action 2 Subject of intr is same participant as trans, no alternation Learning this classification is of practical importance, as thematic relations are needed in many NLP tasks such as parsing generation, ie, translation, for example These three classes capture typological distinctions that are useful for machine translation (for example, causative MOMs are ungrammatical in many languages), as well as processing distinctions that are useful for generating naturally occurring language (for example, reduced relatives with MOM verbs are awkward, but they are acceptable and in fact often preferred to full relatives for COS and C/T.)

Résumé des propriétés thématiques Classes Transitif Intransitif Sujet Objet Manner of Motion (race) Agent (Causal) Agent Change of State (melt) Theme Create/Transform (build) IDEE PRINCIPALE Les différences thématiques sous-jacentes entre les classes de verbes se reflètent dans des différences d’usage à la surface. I summarise here again the thematic properties I have illustrated before. Notice that column-wise one class stands out as different from the others. If we can pick out the odd one in all these cases, then we can discriminate the verb classes We attempt to achieve this goal based on the main idea that these thematic differences surface as detectable differences in the usage of surface indicators

Traits pour la classification automatique Classes Transitif Exemple Sujet Objet MoM Agent (Causal) Agent The jockey raced the horse CoS Theme The cook melted the butter C/T The workers built the house Trait Transitivité (usage de la construction transitive ) La transitivité par « causation » est plus complexe. L’objet agent est très rare parmi les langues. Ordre de fréquence de la transitivité auquel on peut s’attendre : MoM < CoS < C/T Notice the thematic assignments of the transitive construction We predict that different classes will have different Transitive usage: MoM < CoS < C/T Causative are more complex than simple transitives Agentive objects are typologically rare. We know that complexity and rarity are correlated to frequency, as observed by markedness theory. Facts: No Lexical causatives of MOM verbs, but yes CoS: Italian, French, German, Portuguese, Gungbe (Kwa family), and Czech. Vietnamese appears to allow a very restricted form of causativization of MoM limited to only those cases that have a comitative reading.

Relation entre fréquence et transitivité Transitivité par « causation » : MoM, CoS Complexité plus grande car deux événements (en français : « faire courir », « faire fondre ») Objet Agentif : MoM (transitif inergatif) Rare en Anglais: seulement MoM Rare dans la typologie des langues (* Italien, Français, Allemand, Portugais, Tchèque et Vietnamien) Difficile à traiter chez l’humain (Stevenson et Merlo, 97, Filip et al., CUNY 98) Transitive MOMs and COS have a causative meaning. We can assume that transitivity by causation is more complex than simple transitives, as there are two events involved. If the inverse relation between complexity and frequency is true, then we expect a lower use of transitive for these two classes compared to the C/T class. MOMs have agentive objects.This is becuase they are transitivized unergative verbs. This is a very marked construction on all accounts of markedess: it is rare even in English, as only MOMs and sound emission verbs are unergatives which nonetheless allows transitivisation. it is typologically rare Facts: No Lexical causatives of MOM verbs, but yes CoS: Italian, French, German, Portuguese, Gungbe (Kwa family), and Czech. Vietnamese appears to allow a very restricted form of causativization of MoM limited to only those cases that have a comitative reading. Notive that in all these languages transitive causative CoS are allowed. Transitive MOMs are slower to process than Cos transitives (Filip et al cuny 98 talk) MoMs cause garden paths even when they are NOT ambiguous For all these reasons, we expect a total order of transitivity MOM <COS <C/T We gave a processing explanation of the fact that these verbs cause a garden path, which was however grounded in a specific extension of hale and keyser proposal. We developed a specific representation for these cases which require an extra level of embedding, hence more complex. Combined with stevenson’s competitive model, we had the obsered effects. Work by Bresnan and colleagues could well be used to explain these markedness facts.

Animacy Classes Sujet du Exemple Transitif Intransitif MoM (Causal) Agent Agent The jockey raced the horse The horse raced CoS Theme The cook melted the butter The butter melted C/T The workers built the house The workers built Animacy is another property for which we can expect to have differential statistical values typical of the class, as they reflect underlying thematic assignments. We expect COS verbs to have fewer animate subjects than the other two classes. This is because we expect themes to be less likely to be animate. Il est moins probable que les thèmes soient animés Ordre de fréquence de « animacy » auquel on peut s’attendre : COS < {MoM,C/T}

Utilisation Causative Classes Objet Sujet Transitif Intransitif Exemple MoM Agent The jockey raced the horse The horse raced CoS Theme The cook melted the butter The butter melted C/T No causative alternation Transitivité par « causation » : MoM, CoS Sujet causal, même rôle thématique entre sujet intr. et objet trans. Ordre de fréquence du chevauchement auquel on peut s’attendre : MoM, C/T < CoS The overlap between subjects and objects will be higher for classes that participate in the causative alternation. By definition of causative, these are classes where we assume that subjects and objects can be sampled from the same pool of nouns as they express the same thematic role Notice however that the frequency expectations must take the interaction with other properties into account. Such as the fact that MOMs are not often transitive, so despite their being causative verbs, they will not show a high overlap. Hence the expected frequency MOM, C/T < COS

Résumé des fréquences auxquelles on s’attend Transitivité : verbe est transitif MoM < CoS < C/T Causativité : usage causatif CoS > C/T Animacy : sujet est une entité animé CoS < {MoM, C/T} Analogous inferential reasoning can be applied to develop Expected indicators of the other differences in thematic assignments. The percentage of causative usage and the percentage of animate subjects, which will primarily distinguish the CoS class

Récolte des données Verbes manner of motion: jump, march change of state: open, explode Creation/transformation: carved, painted Forme du verbe: ``-ed'‘ Corpus 65 millions mots étiquetés Brown + étiquetés WSJ corpus (LDC) 29 millions mots analysés WSJ (LDC corpus, parser Collins 97) The verbs were chosen because they do not generally show massive departures from the intended verb sense (and usage) in the corpus. Though note that there are only 19 unaccusatives because {\em ripped\/}, which was initially counted in the unaccusatives, was then excluded from the analysis as it occurred mostly in a very different usage in the corpus ({\em ripped off\/}) from the intended change of state sense. In performing this kind of corpus analysis, one has to take into account the fact that current corpus annotations do not distinguish verb senses. In these counts, we did not distinguish a core sense of the verb from an extended use of the verb. So, for instance, the sentence {\em Consumer spending jumped 1.7\% in February after a sharp drop the month before\/} (WSJ 1987) is counted as an occurrence of the manner-of-motion verb {\em jump\/} in its intransitive form.

Récolte des données–-Méthode TRANS Token du verbe suivi immédiatement d’un groupe nominal = transitif sinon intransitif. PASS Verbe principal (VBD) = forme active. Token avec étiquette VBN = active si auxiliaire précédent = have = passive si auxiliaire précédent = be. VBN Étiquette POS

Récolte des données–-Méthode CAUS L’objet de la forme causative transitive est le même argument sémantique que le sujet de la forme intransitive. Étapes d’approximation Récolter les multi-ensembles des sujets et des objets pour chaque verbe Calculer le chevauchement des deux multi-ensembles Calculer la proportion entre le chevauchement et la somme de deux multi-ensembles ANIM Proportion de pronoms sujet sur le total des sujets pour chaque verbe These counts approximates the actual values pretty well, as found by manual inspection of two verbs in each class. However, they mostly makes mistakes such as underestimating transitivity, that bring unaccusatives and object-drops together.

Analyse statistique des données Fréquences relatives moyennes Toutes significatives, sauf la différences entre CoS et ObD pour les traits PASS et VBN TRANS PASS VBN CAUS ANIM MoM .23 .07 .12 .00 .25 CoS .40 .33 .27 ObD .62 .31 .26 .04 .15

Expériences de classification Entrée Vecteur: [ verbe,TRANS,PASS,VBN,CAUS,ANIM,class] Exemple: [ open, .69, .09, .21, .16, .36, CoS ] Méthode Apprenant: C5.0 (algorithme d’induction d’arbre de décision) Entraînement/Test: 10-fold cross-validation, répété 50 fois

Mesures de performance Supposons d’avoir 20 verbes. En réalité la moitié des verbes appartient à la classe E, tandis que l’autre moitié appartient à un mélange d’autres classes qui ne nous intéressent pas. On l’appelle O. E est la classe d’observations expérimentales, tandis que C est la classe de contrôle. Nous lançons notre algorithme et il nous dit que 8 verbes appartient à la classe E et 12 verbes appartient à la classe O. Voici un exemple les données résultats Results TRANS ANIM CAUS 62.9 TRANS ANIM CAUS VBN 69.8

Mesures de performance Verbe Effectif Algorithme Floated E O Hiked E E Hurried E O Jumped E E Leaped E E Marched E E Paraded E E Raced E E Rushed E O Skipped E E Verbe Effectif Algorithme Borrowed O O Carved O O Inherited O O Kicked O E Knitted O O Organised O O Painted O O Played O O Typed O E Washed O O Yelled O O Results TRANS ANIM CAUS 62.9 TRANS ANIM CAUS VBN 69.8

Mesures de performance Quel sont le critères de performance qui nous intéressent? Si l’algorithme me dit qu’un verbe est E, quel est la probabilité qu’il se trompe? Est-il précis? Pour tous les verbes E qui m’intéressent, combien l’algorithme arrive-t-il à en trouver? A-t-il une bonne couverture? Quel sont les erreurs possibles? Verbes qui en réalité sont de E mais qui ont été classés comme O Verbes qui en réalité sont de O mais qui ont été classés comme E Results TRANS ANIM CAUS 62.9 TRANS ANIM CAUS VBN 69.8

Mesures de performance Verbe Effectif Algorithme Floated E O Hiked E E Hurried E O Jumped E E Leaped E E Marched E E Paraded E E Raced E E Rushed E O Skipped E E Verbe Effectif Algorithme Borrowed O O Carved O O Inherited O O Kicked O E Knitted O O Organised O O Painted O O Played O O Typed O E Washed O O Yelled O O Algorithme Effectifs E O Total 7 3 10 2 8 9 11 20

Mesures de performance Algorithme Effectifs E O Total 7 3 10 2 8 9 11 20 Précision E = 7 / 9 O = 8/11 Rappel E = 7/10 O = 8/10 Exactitude E+O = 7+8/20

Mesures de performance–-Formules générales Algorithme Effectifs X X’ Total a b a+b c d c+d a+c b+d a+b+c+d Si la classe d’observation qui nous intéresse est X alors Précision: a/a+c Rappel: a/a+b Exactitude de l’algorithme: a+d/a+b+c+d

Résultats Exactitude 69.8% (baseline 33.9, limite supérieure experts 86.5%) 54% réduction du taux d’erreur sur des verbes jamais vus Traits Exactitude % 1 TRANS PASS VBN CAUS ANIM 69.8 2 3 67.3 4 66.5 5 63.2 6 61.6

Résultats Tous les traits sont utiles, sauf le passif

Résultats classe par classe Traits Trait éliminé Exac- titude F MoM CoS C/T 1 TRANS PASS VBN CAUS ANIM 69.8 73.9 68.6 64.9 2 TRANS VBN CAUS ANIM PASS 76.2 75.7 61.6 3 TRANS PASS VBN ANIM CAUS 67.3 65.1 60.0 62.8 4 TRANS PASS CAUS ANIM VBN 66.5 66.7 65.0 51.3 5 TRANS PASS VBN CAUS ANIM 63.2 72.7 47.0 6 PASS VBN CAUS ANIM TRANS 78.1 51.5 61.9 Les MoM sont les mieux identifiés

Résultats classe par classe MoM Levin Program floated, E O hurried, E E jumped, E E leaped, E E marched, E E paraded, E O raced, E E rushed, E E vaulted, E E wandered,E E galloped, E A glided, E E hiked, E E hopped, E E jogged, E E scooted, E E scurried, E E skipped, E E tiptoed, E E trotted, E O CoS Levin Program boiled, A A cracked, A O dissolved, A A exploded, A A flooded, A A fractured, A A hardened,A A melted, A E opened, A O solidified, A O collapsed,A E cooled, A A folded, A E widened, A A changed, A A cleared, A A divided, A A simmered,A E stabilized, A A C/T Levin Program carved, O O danced, O O kicked, O E knitted, O O painted, O O played, O E reaped, O O typed, O O washed, O O yelled, O E borrowed, O O inherited, O O organized,O A rented, O E sketched, O A cleaned, O O packed, O O studied, O A swallowed,O O called, O A

Résultats classe par classe Traits MoM (E) P R CoS (A) P R C/T (O) TRANS PASS VBN CAUS ANIM 16/24 .67 16/20 .8 12/17 .71 12/19 .63 12/18 12/20 .6 F = .73 F = .67 F = .63

Analyse des Erreurs TRANS augmente la discrimination des trois classes Tous traits Classe donnée MoM CoS C/T Vraie Classe 1 2 4 3 5 Sans Animacy Classe donnée MoM CoS C/T Vraie classe 2 5 6 3 TRANS augmente la discrimination des trois classes ANIM augmente la discrimination des CoS VBN augmente la discrimination des C/T

Conclusions On peut apprendre trois classes de verbes anglais à l’aide de calculs tirés d’un corpus avec une performance satisfaisante Questions: La méthode, s’applique-t-elle à d’autres verbes? à d’autres classes? à d’autres langues?

Généralisation 1 : nouveaux verbes Nouveaux verbes - Mêmes classes de verbes, plus de verbes - Une classe similaire: Verbes d’émission de son (similaire à MoMs) Données Comptage du corpus BNC (100 M mots) Exactitude Selon les groupes de verbes, de 58.8% à 80.4% Conclusion 1 - la généralisation de la méthode à de nouveaux verbes a une performance très variable

Généralisation 2 : nouvelle langue Accurate investigation of relation between grammar and frequency requires - a well-founded theory of lexical representation - a distributional analysis of language Multi-linguality provides - abstract, general level of linguistic description - more data Greater coverage and accuracy are possible by looking at several languages

Généralisation 2 : nouvelle classe Nouvelle Classe Verbes d’état psychologique Rôles thématiques Experiencer Stimulus Exemple The rich love money Experiencer Stimulus The rich love too Experiencer Traits d’apprentissage : TRANS, CAUS, ANIM PROG utilisation du progressif (statif/pas statif) carefully indique action volontaire (agent vs experiencer) Résultats 74.6% exactitude(baseline 57%) TRANS, CAUS, ANIM meilleurs traits Same three classes as before + Psych verbs were based on the admire class in Levin 93 Psych vs MoM,CoS CAUS: psych verbs do not undergo the causative alternation, so the CAUS feature should be lower. Psych vs CoS ANIM: their subjects (Experiencers) are more likely to be animate than CoS, so the ANIM feature should be higher. Psych (stative) vs C/T,MoM (non-stative): PROG a measure of progressive use, non-stativity (Bertinetto 86).

Discussion Relation entre fréquence et propriétés thématiques est valable pour la nouvelle classe Certains traits d’apprentissage (ANIM,TRANS) sont valables pour plusieurs classes DISCOVERY AND FUTURE DIRECTIONS This suggests that thematic roles may be decomposable into more primitive features (Dowty 91) which our syntactic indicators are tapping into. That is, the ability of features to discriminate new roles may be a function of how much those features reflect underlying commonalities across thematic roles.

Généralisation 3 : nouvelle langue Extension de la méthode mono-langue développé pour l’anglais à une nouvelle langue (Italien) - on profite des similarités entre langues (anglais, italien) - on étends la couverture de la méthode What unifies these two types of cross-linguistic generalisations is they both explore language universals, in different ways, but crucially relying on the same abstract notion of thematic relation. Thematic roles capture the underlying similarity of verbs cross-linguistically, the syntax/semantics mapping may exhibit well-attested cross-linguistic variation in the surface realization of the verbal arguments.

Extension monolingue (Merlo, Stevenson, Tsang et Allaria, 2002; Allaria, 2001) Nouvelle langue Italien Classes 20 Cos, 20 Obd, 19 Psy (*MoM) Traits: TRANS, CAUS, ANIM (for CoS et obD) PROG, PRES (Psy) We exploit the similarities in the cross-linguistic classification of verbs, to extend this work to a new language (Italian), and to new classes within that language, achieving an even better accuracy than the work on English. We selected two of the three classes originally studied for English---change of state and object drop (a more general set of verbs with the same argument structure as the creation/transformation verbs)---to show that the same classes could be distinguished within a new language, Italian. We also added the psych verbs, to study whether the method would extend to a new class as well. The psych verbs were chosen as the novel class because they are optionally intransitive and introduce new thematic roles---Experiencer and Stimulus---that had not been previously investigated.

Données et Méthode Corpus : PAROLE 22 millions mots (CNR, Pisa) extraction de patrons pour chaque verbe (CNR, Pisa) comptages manuelle (Allaria, Geneva) Comptages : pourcentages (à différence de comptages pour l’anglais, ils sont exacts) Méthode Algorithme : C5.0 Entraînement/Test: 10-fold cross-validation, répété 50 fois

Résultats 79% réduction du taux d’erreur pour nouveaux verbes Traits Exa% TRANS CAUS ANIM PRES (PROG) 85.1 TRANS CAUS ANIM PROG 85.4 TRANS (CAUS) ANIM 86.4 79% réduction du taux d’erreur pour nouveaux verbes Classification est faite avec les traits développés pour l’anglais (TRANS ANIM) Overall Results compare very favourably to English (recall there we had 54% error rate reduction) PRES GERUN don’t do much CAUS not useful if in combination with TRANS and ANIM (but TRANS CAUS quite better than baseline) ----------- CAUS ANIM 57%

Conclusions Méthode générale s’applique à une nouvelle langue Certains traits sont portables à travers les langues En pratique on peut utiliser la technique pour démarrer une classification dans une nouvelle langue DISCOVERY AND FUTURE DIRECTIONS This suggests that thematic roles may be decomposable into more primitive features (Dowty 91) which our syntactic indicators are tapping into. That is, the ability of features to discriminate new roles may be a function of how much those features reflect underlying commonalities across thematic roles. Random variables are incomplete indicators of thematic roles, thus they generalise to properties common to several thematic roles

Généralisation 4 : données multilingues Extension à l’utilisation de données multilingues pour classifier une langue Par exemple, Chinois et Anglais pour classifier verbes anglais On exploite les différences entre les langues - On améliore la précision de la classification What unifies these two types of cross-linguistic generalisations is they both explore language universals, in different ways, but crucially relying on the same abstract notion of thematic relation. Thematic roles capture the underlying similarity of verbs cross-linguistically, the syntax/semantics mapping may exhibit well-attested cross-linguistic variation in the surface realization of the verbal arguments.

Extension multilingue (Tsang, Stevenson et Merlo, 2002) Ce qui est implicite dans une langue peut être explicite dans une autre Exemple - Verbes psychologique en allemand ou italien ont souvent une forme réflexive pléonastique sich - Forme causative en chinois a une marque morphologique On utilise données des plusieurs langues pour en classer une Entraînement Chinois Anglais Test Anglais Our second strand of research exploits the differences across languages in the surface expression of meaning, to show that complementary information about English verbs can be extracted from their translations in a second language (Chinese or Italian), considerably improving the classification performance of the English verbs (Tsang et al submitted).

Classification monolingue avec données multilingues Classes des verbes anglais: 20 MoM, 20 CoS, 20 C/T Traits anglais: TRANS,PASS,VBN,CAUS,ANIM. Traduction chinoise des verbes (on garde toutes les traductions) Comptage de nouveaux traits adaptés au chinois - étiquette POS (sous-catégorisation et statif/actif) - particule passive - particule périphrastique causative ENGLISH Three English classes: MoM, CoS, C/T. All five of the original features: TRANS, PASS, VBN, CAUS, ANIM. Translations of these types of verbs in Chinese were analysed to determine features that potentially discriminate among the three classes. The verb tags and particles are overt expressions of semantic information that is not expressed as clearly in English. The verb tags assigned using the POS tagger from the Chinese Knowledge Information Processing Group (CKIP) incorporate both subcategorization and active/stative information. The particles are overt indicators of the passive construction (an approximate indicator of transitivity, as in English) and of the causative construction (a more reliable version of the English CAUS indicator).

Données et méthode Données anglaises du BNC (étiquetés et chunked), Données chinoises du Mandarin News (165 millions de caractères) Proportions de étiquette CKIP particule causative particule passive Algorithme: C5.0 Entraînement/Test : 10-fold cross-validation, répété 50 fois Features extracted from the BNC (tagged Brill 95 chunked Abney 96) Mnews: People's Daily and Xinhua newswire sections, 165M characters, from the Linguistic Data Consortium (POS-tagged using the CKIP tagger). Method From MNews, translations of the 60 English verbs in the appropriate semantic meaning were extracted. (Avg number of translations per English verb is 6.5.) All counts were collected automatically. Feature values are relative frequencies.

Résultats Meilleur résultat : combinaison de traits chinois et anglais Les traits chinois donne une meilleure performance que les traits anglais. Significance: p<.01, t-test with Welch correction, 80df A multi-lingual set of features outperforms either set of mono-lingual features (83.5%, error rate reduction of 75%). 2. The next best accuracy is attained by a single Chinese feature, the \CKIP\ verb tags. We conclude that it is extremely helpful to look to multi-lingual data to increase the potential of syntactic features in revealing semantic information. 3. The features that do best mono-lingually are also the best in combination. This trend generally holds.

Conclusions Les différences parmi les langue fournissent différents points de vue à l’algorithme et améliorent ainsi la performance. En pratique, cela élargit la quantité de données disponibles.

Généralisation 5 : espace général de traits Joanis et Stevenson (EACL 2003) Voir présentation séparée