La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)

Présentations similaires


Présentation au sujet: "Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)"— Transcription de la présentation:

1 Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp Tom Mitchell Machine Learning)

2 Représentation: probabiliste, symbolique, Entraînement: supervisé ou non-supervisé Tâches: reconnaissance de la parole; analyse syntaxique (parsing)/désambiguïsation; Classification textes; acquisition lexicale: attachement du PP, classes des mots; désambiguïsation du sens des mots; traduction automatique. Différentes méthodes empiriques

3 Définition On dit qu'un programme informatique apprend à partir dune expérience empirique E par rapport à une tâche T et par rapport à une mesure de performance P, si sa performance P à la tâche T saméliore à la suite de E. Exemple Tâche T: classer des verbes anglais dans des classes prédéfinies Mesure de performance P : % de verbes classés correctement par rapport à une classification définie par des experts (gold standard) Expérience dentraînement E: base de données de couples de verbes (et leurs propriétés) et classe correcte Apprentissage: définition

4 La tâche la plus étudiée en apprentissage automatique (machine learning) consiste à inférer une fonction classant des exemples représentés comme vecteurs de traits distinctifs dans une catégorie parmi un ensemble fini de catégories données. Apprentissage par classification

5 Soit un ensemble de verbes. Tâche: classification binaire: verbes de types de mouvement (courir, se promener) et verbes de changement détat (fondre, cuire). Traits: pour chaque forme du verbe dans un corpus, le verbe, est-il transitif? est-il passif? Son sujet, est-il animé? Vecteur: vecteur du pourcentage de fois où le verbe est transitif, passif et son sujet est animé sur le total deffectifs dans le corpus. Apprentissage par classification: exemple

6 ExempleTrans?Pass?Anim?Class courir 5%3%90%MoM marcher 55%5%77%MoM fondre 10%9% 20%CoS cuire 80% 69% 88%CoS Apprentissage par classification:exemple

7 Fonctions apprises possibles Si Pass? 25% alors MoM Si Trans? 25% alors MoM Si Trans? > 10% et Pass? < 10% alors MoM Apprentissage par classification

8 Arbre de décision Les arbres de décision sont des classifieurs (classeurs?) qui opèrent sur des instances représentées par des vecteurs de traits. Les nœuds testent les traits. Il y a une branche pour chaque valeur du trait. Les feuilles spécifient les catégories. Ils peuvent aussi être écrits comme de règles. Exercices Dessiner les (sous-)arbres de décision correspondant aux règles vues auparavant.

9 Apprentissage des arbre de décision Les instances sont représentées en tant que vecteurs de couples traits-valeurs. La fonction cible à des valeurs discrètes de sortie. Lalgorithme gère des masses de données avec efficacité, il gère des données bruitées, il gère des données auxquelles manquent certaines valeurs.

10 Algorithme de base dapprentissage des arbres de décision ArbreD(exemples,attributs) Si tous les exemples appartient à une catégorie alors retourner une feuille avec cette catégorie comme étiquette Sinon si attributs est vide alors retourner une feuille dont létiquette est la catégorie majoritaire dans exemples Sinon choisir un attribut A pour la racine: pour toutes les valeurs possibles vi de A soit exemplesi le sous-ensemble dont la valeur de A est vi ajouter une branche à la racine pour le test A = vi si exemplesi est vide alors créer une feuille dont létiquette est la catégorie majoritaire dans exemples sinon appeler récursivement ArbreD(exemplesi,attributs – {A})

11 Exercice Construire larbre de décision à partir des données suivantes. ExempleTrans?Pass?Anim?Class courir basbashautMoM marcher hautbashautMoM fondre bas bas basCoS cuire haut haut hautCoS

12 Exemple Exemple Trans? Pass? Anim? Classe courir bas bas hautMoM marcher haut bas hautMoM fondere bas bas basCoS cuocere haut haut hautCoS Anim? haut bas Courir/MoM Marcher/MoM Cuire/CoS Fondre/CoS Marcher/MoM Cuire/CoS Trans? haut bas Courir/MoM Cuire/CoS Marcher/MoM Pass? haut bas

13 Exemple Anim? haut bas Fondre/CoS Trans? haut bas Courir/MoM Cuire/CoS Marcher/MoM pass? haut bas

14 Choisir la racine En général, on se donne comme but de construire larbre de décision le plus petit possible (rasoir dOccam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles Marcher/MoM Cuire/CoS Courir/MoM Fondre/CoS Trans? haut bas Cuire/CoS Marcher/MoM Courir/MoM Fondre/CoS pass? haut bas Cuire/CoS Courir/MoM Marcher/MoM Fondre/CoS Anim? haut bas

15 Choisir la racine En général, on se donne comme but de construire larbre de décision le plus petit possible (rasoir dOccam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles. Le test parfait diviserait les données en sous- ensembles pures, appartenant tous à la même classe. Lentropie est la mesure indiquant limpureté dun ensemble dexemples par rapport à une classification Les mesures utilisées pour choisir lattribut racine sont basées sur lentropie

16 Entropie Lentropie est la mesure indiquant limpureté où le désordre dun ensemble dexemples par rapport à une classification Lentropie dun ensemble dexemples S par rapport à une classification Où pi est la proportion dexemples de catégorie i dans S

17 Exercice Etant donnée la formule de lentropie, calculer lentropie des deux classification ci-dessous ExempleClassA courir MoM marcher MoM fondre CoS cuire CoS ExempleClassB courir MoM marcher MoM voler MoM cuire CoS

18 Exercice - solution Entropie(ClassA) = -(.5 log2.5) -(.5 log2.5) = -(.5 –1) –(.5 –1) =1 Entropie(ClassB)= -(.25 log2.25) – (.75 log2.75) = -(.25 -2) –( ) =.811 Pour une classification donnée, la distribution uniforme est celle avec lentropie maximale ExempleClassA courir MoM marcher MoM fondre CoS cuire CoS ExempleClassB courir MoM marcher MoM voler MoM cuire CoS

19 Le gain dinformation dun attribut A est la réduction de lentropie à laquelle on peut sattendre si on fait une partition sur la base de cet attribut. Values(A)= ensemble des valeurs possibles de lattribut A S v = sous-ensemble de S pour lequel A a valeur v |S| = taille de S | S v |= taille de S v Gain dinformation (information gain)

20 Le gain dinformation est donc la réduction attendue de lentropie (lentropie des données, moins la moyenne proportionnelle de lentropie) qui reste après avoir fait la partition. Plus le gain est élevé, plus cet attribut nous fourni de linformation pour la classification des données. Pour la racine de larbre, on choisit donc lattribut qui maximise ce gain. Gain dinformation (information gain)

21 Exercice Calculer le gain dinformation de chaque attribut des données ci- dessous. ExempleTrans?Pass?Anim?Classe courirbas hautMoM marcherhautbashautMoM fondrebas CoS cuirehaut CoS

22 Exercicesolution Gain(S,Anim?)= 1 – 3/4 ( ) – 1/4 (0) = 1 –.69 =.31 Gain(S,Pass?)= 1 – 1/4 (0) – 3/4 ( ) = 1 –.69 =.31 Gain(S,Trans?) = 1 – 2/4 (.5+.5) – 2/4 (.5+.5) = 1 – 1 = 0

23 Gain dinformation et proportion de gain Le gain dinformation présente un désavantage. Il a tendance à préférer les attributs à beaucoup de valeurs différentes, et qui partagent les données en nombreux petits sous-ensembles pures La proportion de gain est une mesure alternative qui divise le gain dinformation par une mesure proportionnelle à la taille de la partition générée par les valeurs dun attribut (si il y a beaucoup de valeurs le dénominateur sera plus large)

24 Le biais inductif (inductive bias) Toute méthode utilisée par un système de classification pour choisir entre deux fonctions, toutes les deux compatibles avec les données dentraînement, sappelle biais inductif. Le biais inductif est de deux types le biais du langage – le langage représentant les fonctions dapprentissage définit un' espace dhypothèses limité le biais de la recherche – le langage est assez expressif pour exprimer toutes les fonctions possibles, mais lalgorithme de recherche implique une préférence pour certaines hypothèses plutôt que dautres Les arbres de décision impliquent un biais pour les arbres plus petits par rapport aux plus grands (biais de recherche)

25 La futilité de lapprentissage en absence de biais Un apprenant qui nutilise aucune assomption a priori concernant lidentité du concept cible ne possède aucune base rationnelle pour classer de nouvelles instances. Lapprentissage sans biais est impossible. Le biais inductif décrit la logique avec laquelle lapprenant généralise au delà des données dentraînement. Le biais inductif de lapprenant est lensemble dassomptions ultérieures suffisantes pour justifier linférence inductive en tant que déduction

26 Le rasoir de Occam Pluralitas non est ponenda sine necessitate Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins Mais alors, pourquoi ne pas préférer les hypothèses très spécifiques, qui sont aussi très peux nombreuses

27 Le rasoir de Occam Pluralitas non est ponenda sine necessitate - citation attribuée à William of Occam (vers 1320) Interprétation courante : préférer lhypothèse la plus simple qui décrit les données observées. Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins. Il y a donc moins de chance quune mauvaise hypothèse décrive parfaitement les données dentraînement par hasard. Autre principe apparenté : description de longueur minimale (minimum description length). Ces principes ne sont pas parfaits, ils sont difficiles à justifier théoriquement, mais la pratique a démontré quils sont utiles. Ils sont donc très souvent utilisés.

28 Systèmes dinduction darbres de décision C4.5, par Ross Quinlan. Gratuit à : C4.5-ofai, version de C4.5 modifiée par Johann Petrak. Gratuit à : C5.0, par Ross Quinlan. C5.0 est une version vastement améliorée de C4.5, mais nest pas gratuit. Démo gratuitmais limité à 400 exemplesà :

29 Classification des verbes Les verbes sont la source principale dinformation relationnelle dans la phrase Jane hit the ball GN Agent Theme Classifier est une forme dapprentissage indirect du lexique - organisation facile:les verbes partage des propriétés syntaxique et sémantiques - extension cohérente:lassociation dun verbe à une classe donnée permet dhériter toutes les propriétés de la classe

30 Exemple de classification des verbes Classes des verbes anglais selon Levin (1993) environs 200 classes pour 3000 verbes Par exemple Manner of Motion: race, jump, skip, moosey Sound Emission: buzz, ring, crack Change of State: burn, melt, pour Creation/Transformation: build, carve Psychological state: admire, love, hate, despise

31 Alternances des verbes Comment arrive-t-on à une telle classification? Hypothèse: les verbes avec une sémantique semblable expriment leurs arguments de façon semblable dans les cadres de sous-catégorisation permis. Ils présentent les mêmes alternances. Exemple si un verbe peut être transitifmelt butter jump horse et il peut être intransitif butter melts horse jumps et il peut donner lieu à un adjectif melted butter *jumped horse alors il est change of state

32 La méthode de Merlo et Stevenson (2001) Selon Levin, il y a un correspondance régulière entre la sémantique dun verbe et sa syntaxe: les verbes qui partagent la même sémantique partagent aussi la même syntaxe. On peut faire un raisonnement inverse et induire les classes sémantiques à partir de lusage syntaxique: les verbes qui ont la même syntaxe en surface–-comme dans lexemple précédentont les mêmes propriétés sémantiques. On apprend les classes des verbes sur la base de leurs propriétés dans un corpus.

33 Méthodologie Analyser les classes des verbes afin de déterminer leurs propriétés les plus discriminantes. Développer des indices qui se rapprochent des propriétés discriminantes des verbes et quon peut compter dans un corpus. Compter dans un corpus afin de construire un résumé numérique pour chaque verbe. Utiliser un algorithme dapprentissage automatique (par exemple lalgorithme dinduction des arbres des décision) pour construire un classificateur et mesurer sa performance.

34 Classes des verbes anglais Manner of MotionThe rider raced the horse past the barn Agent (Causal) The horse raced past the barn Agent Change of StateThe cook melted the butter Agent Theme (Causal) The butter melted Theme Creation/TransformationThe contractors built the house Agent Theme The contractors built all summer Agent

35 Résumé des propriétés thématiques IDEE PRINCIPALE Les différences thématiques sous-jacentes entre les classes de verbes se reflètent dans des différences dusage à la surface. Classes TransitifIntransitif SujetObjetSujet Manner of Motion (race)Agent (Causal)Agent Change of State (melt)Agent (Causal)Theme Create/Transform (build)AgentThemeAgent

36 Traits pour la classification automatique Trait Transitivité (usage de la construction transitive ) La transitivité par « causation » est plus complexe. Lobjet agent est très rare parmi les langues. Ordre de fréquence de la transitivité auquel on peut sattendre : MoM < CoS < C/T Classes Transitif Exemple SujetObjet MoMAgent (Causal)AgentThe jockey raced the horse CoSAgent (Causal)ThemeThe cook melted the butter C/TAgentThemeThe workers built the house

37 Relation entre fréquence et transitivité Transitivité par « causation » : MoM, CoS Complexité plus grande car deux événements (en français : « faire courir », « faire fondre ») Objet Agentif : MoM (transitif inergatif) Rare en Anglais: seulement MoM Rare dans la typologie des langues (* Italien, Français, Allemand, Portugais, Tchèque et Vietnamien) Difficile à traiter chez lhumain (Stevenson et Merlo, 97, Filip et al., CUNY 98)

38 Animacy Il est moins probable que les thèmes soient animés Ordre de fréquence de « animacy » auquel on peut sattendre : COS < {MoM,C/T} Classes Sujet du Exemple TransitifIntransitif MoM(Causal) AgentAgentThe jockey raced the horse The horse raced CoS(Causal) AgentThemeThe cook melted the butter The butter melted C/TAgent The workers built the house The workers built

39 Utilisation Causative Transitivité par « causation » : MoM, CoS Sujet causal, même rôle thématique entre sujet intr. et objet trans. Ordre de fréquence du chevauchement auquel on peut sattendre : MoM, C/T < CoS Classes Objet Sujet Transitif IntransitifExemple MoMAgent The jockey raced the horse The horse raced CoSTheme The cook melted the butter The butter melted C/TAgentThemeNo causative alternation

40 Résumé des fréquences auxquelles on sattend Transitivité : verbe est transitif MoM < CoS < C/T Causativité : usage causatif CoS > C/T Animacy : sujet est une entité animé CoS < {MoM, C/T}

41 Récolte des données Verbes manner of motion: jump, march change of state: open, explode Creation/transformation: carved, painted Forme du verbe: ``-ed' Corpus 65 millions mots étiquetés Brown + étiquetés WSJ corpus (LDC) 29 millions mots analysés WSJ (LDC corpus, parser Collins 97)

42 Récolte des données–-Méthode TRANS Token du verbe suivi immédiatement dun groupe nominal = transitif sinon intransitif. PASS Verbe principal (VBD) = forme active. Token avec étiquette VBN = active si auxiliaire précédent = have = passive si auxiliaire précédent = be. VBN Étiquette POS

43 Récolte des données–-Méthode CAUS Lobjet de la forme causative transitive est le même argument sémantique que le sujet de la forme intransitive. Étapes dapproximation Récolter les multi-ensembles des sujets et des objets pour chaque verbe Calculer le chevauchement des deux multi-ensembles Calculer la proportion entre le chevauchement et la somme de deux multi-ensembles ANIM Proportion de pronoms sujet sur le total des sujets pour chaque verbe

44 Analyse statistique des données Fréquences relatives moyennes Toutes significatives, sauf la différences entre CoS et ObD pour les traits PASS et VBN TRANSPASSVBNCAUSANIM MoM CoS ObD

45 Expériences de classification Entrée Vecteur: [ verbe,TRANS,PASS,VBN,CAUS,ANIM,class] Exemple: [ open,.69,.09,.21,.16,.36, CoS ] Méthode Apprenant: C5.0 (algorithme dinduction darbre de décision) Entraînement/Test: 10-fold cross-validation, répété 50 fois

46 Résultats Exactitude 69.8% (baseline 33.9, limite supérieure experts 86.5%) 54% réduction du taux derreur sur des verbes jamais vus TraitsExactitude % 1 TRANS PASS VBN CAUS ANIM TRANS PASS VBN CAUS ANIM TRANS PASS VBN CAUS ANIM TRANS PASS VBN CAUS ANIM TRANS PASS VBN CAUS ANIM TRANS PASS VBN CAUS ANIM 61.6

47 Résultats Tous les traits sont utiles, sauf le passif

48 Résultats classe par classe Les MoM sont les mieux identifiés TraitsTrait éliminé Exac- titude F MoM F CoS F C/T 1TRANS PASS VBN CAUS ANIM TRANS VBN CAUS ANIMPASS TRANS PASS VBN ANIMCAUS TRANS PASS CAUS ANIMVBN TRANS PASS VBN CAUSANIM PASS VBN CAUS ANIMTRANS

49 Résultats classe par classe MoMLevin Program floated, E O hurried, E E jumped, E E leaped, E E marched, E E paraded,E O raced, E E rushed, E E vaulted, E E wandered,E E galloped, E A glided, E E hiked, E E hopped, E E jogged, E E scooted, E E scurried, E E skipped, E E tiptoed, E E trotted, E O CoSLevin Program boiled,A A cracked,A O dissolved,AA exploded,A A flooded,A A fractured,A A hardened,A A melted, A E opened, A O solidified, A O collapsed,A E cooled,A A folded, A E widened,A A changed,A A cleared,A A divided,A A simmered,A E stabilized,A A C/TLevin Program carved,O O danced,O O kicked,O E knitted,O O painted,O O played,O E reaped,O O typed,O O washed,O O yelled,O E borrowed,O O inherited,O O organized,OA rented,OE sketched,OA cleaned,OO packed,OO studied,OA swallowed,OO called,OA

50 Résultats classe par classe TraitsMoM (E) P R CoS (A) P R C/T (O) P R TRANS PASS VBN CAUS ANIM 16/ / / / / /20.6 F =.73F =.67F =.63

51 Analyse des Erreurs Tous traits Classe donnée MoMCoSC/T Vraie Classe MoM12 CoS43 C/T53 Sans Animacy Classe donnée MoMCoSC/T Vraie classe MoM22 CoS56 C/T35 TRANS augmente la discrimination des trois classes ANIM augmente la discrimination des CoS VBN augmente la discrimination des C/T

52 Conclusions On peut apprendre trois classes de verbes anglais à laide de calculs tirés dun corpus avec une performance satisfaisante Questions: La méthode, sapplique-t-elle à dautres verbes? à dautres classes? à dautres langues?

53 Généralisation 1 : nouveaux verbes Nouveaux verbes - Mêmes classes de verbes, plus de verbes - Une classe similaire: Verbes démission de son (similaire à MoMs) DonnéesComptage du corpus BNC (100 M mots) ExactitudeSelon les groupes de verbes, de 58.8% à 80.4% Conclusion 1 - la généralisation de la méthode à de nouveaux verbes a une performance très variable

54 Généralisation 2 : nouvelle classe Nouvelle ClasseVerbes détat psychologique Rôles thématiquesExperiencer Stimulus Exemple The rich love money Experiencer Stimulus The rich love too Experiencer Traits dapprentissage : TRANS, CAUS, ANIM PROG utilisation du progressif (statif/pas statif) carefully indique action volontaire (agent vs experiencer) Résultats 74.6% exactitude(baseline 57%) TRANS, CAUS, ANIM meilleurs traits

55 Discussion Relation entre fréquence et propriétés thématiques est valable pour la nouvelle classe Certains traits dapprentissage (ANIM,TRANS) sont valables pour plusieurs classes

56 Généralisation 3 : nouvelle langue Extension de la méthode mono-langue développé pour langlais à une nouvelle langue (Italien) - on profite des similarités entre langues (anglais, italien) - on étends la couverture de la méthode

57 Extension monolingue (Merlo, Stevenson, Tsang et Allaria, 2002; Allaria, 2001) Nouvelle langueItalien Classes20 Cos, 20 Obd, 19 Psy (*MoM) Traits: TRANS, CAUS, ANIM (for CoS et obD) PROG, PRES (Psy)

58 Données et Méthode Corpus : PAROLE 22 millions mots (CNR, Pisa) extraction de patrons pour chaque verbe (CNR, Pisa) comptages manuelle (Allaria, Geneva) Comptages : pourcentages (à différence de comptages pour langlais, ils sont exacts) Méthode Algorithme : C5.0 Entraînement/Test: 10-fold cross-validation, répété 50 fois

59 Résultats 79% réduction du taux derreur pour nouveaux verbes Classification est faite avec les traits développés pour langlais (TRANS ANIM) TraitsExa% TRANS CAUS ANIM PRES (PROG)85.1 TRANS CAUS ANIM PROG85.4 TRANS (CAUS) ANIM86.4

60 Conclusions Méthode générale sapplique à une nouvelle langue Certains traits sont portables à travers les langues En pratique on peut utiliser la technique pour démarrer une classification dans une nouvelle langue

61 Généralisation 4 : données multilingues Extension à lutilisation de données multilingues pour classifier une langue Par exemple, Chinois et Anglais pour classifier verbes anglais - On exploite les différences entre les langues - On améliore la précision de la classification

62 Extension multilingue (Tsang, Stevenson et Merlo, 2002) Ce qui est implicite dans une langue peut être explicite dans une autre Exemple - Verbes psychologique en allemand ou italien ont souvent une forme réflexive pléonastique sich - Forme causative en chinois a une marque morphologique On utilise données des plusieurs langues pour en classer une EntraînementChinoisAnglais Test Anglais

63 Classification monolingue avec données multilingues Classes des verbes anglais: 20 MoM, 20 CoS, 20 C/T Traits anglais: TRANS,PASS,VBN,CAUS,ANIM. Traduction chinoise des verbes (on garde toutes les traductions) Comptage de nouveaux traits adaptés au chinois - étiquette POS (sous-catégorisation et statif/actif) - particule passive - particule périphrastique causative

64 Données et méthode Données anglaises du BNC (étiquetés et chunked), Données chinoises du Mandarin News (165 millions de caractères) Proportions de étiquette CKIP particule causative particule passive Algorithme: C5.0 Entraînement/Test : 10-fold cross-validation, répété 50 fois

65 Résultats Meilleur résultat : combinaison de traits chinois et anglais Les traits chinois donne une meilleure performance que les traits anglais.

66 Conclusions Les différences parmi les langue fournissent différents points de vue à lalgorithme et améliorent ainsi la performance. En pratique, cela élargit la quantité de données disponibles.


Télécharger ppt "Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)"

Présentations similaires


Annonces Google