Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)
Rappel Un des principaux défis en TAL consiste à fournir aux ordinateurs les connaissances linguistiques nécessaires pour effectuer avec succés des tâches langagières. Solution au problème de l’acquisition des connaissances langagières A la place d’un expert qui fournit à l’ordinateur des informations sur le langage, le programme apprend lui-même à partir des données textuelles.
Rappel Avantages des méthodes empiriques Acquisition Couverture Robustesse Extensibilité Evaluation
Différentes méthodes empiriques Rappresentation: probabiliste, symbolique, reseaux de neurones Entreinement: supervisé ou non-supervisé Tâches: reconnaissance de la parole; analyse syntaxique (parsing)/desambiguisation; acquisition lexicale: sous-catégorisation, structure argumentale, attachement du PP; desambiguisation du sense des mots; traduction automatique.
Apprentissage: définition On dit qu'un programme informatique apprend à partir d’une expérience empirique E par rapport à une tâche T et par rapport à une mésure de performance P, si sa performance P à la tâche T s’améliore à la suite de E. Exemple Tâche T: classer des verbes anglais dans des classes prédéfinies Mésure de performance P : % de verbes classés correctement par rapport à une classification définie par des experts (gold standard) Experiénce d’entreinement E: base de données de couples de verbes (et leurs proprietés) et classe correcte
Apprentissage par classification La tâche la plus étudiée en apprentissage automatique (machine learning) consiste à inferer une fonction classant des exemples representés comme vecteurs de traits distinctifs dans une catégorie parmi un ensemble fini de catégories données.
Apprentissage par classification: exemple Soit un ensemble de verbes. Tâche: classification binaire: verbes de types de mouvement (courir, sauter, se promener) et verbes de changement d’état (fondre, cuire). Traits: pour chaque forme du verbe dans un corpus, le verbe, est-il transitif? est-il passif? Son sujet, est-il animé? Vecteur: vecteur du pourcentage de fois où le verbe est transitif, passif et son sujet est animé sur le total d’effectifs dans le corpus.
Apprentissage par classification:exemple Exemple Trans? Pass? Anim? Class courir 5% 3% 90% MoM marcher 55% 5% 77% MoM fondre 10% 9% 20% CoS cuire 80% 69% 88% CoS
Apprentissage par classification Fonctions apprises possibles Si Pass? < 10% et Anim? >25% alors MoM Si Trans? <= 10% et Anim >25% alors MoM Si Trans? > 10% et Pass? < 10% alors MoM
Arbre de décision Les arbres de décision sont des classifieurs (classeurs?) qui opèrent sur des instances rapprésentées par des vecteurs de traits. Les nœuds testent les traits. Il y a une branche pour chaque valeur du trait. Les feuilles spécifient les catégories. Ils peuvent aussi être écrits comme de règles. Exercices Dessiner les (sous-)arbres de décision correspondant aux règles vues au paravant.
Apprentissage des arbre de décision Les instances sont rapprésentées en tant que vecteurs de couples traits-valeurs. La fonction cible à des valeurs discrètes de sortie. L’algorithme gère des masses de données avec efficacité, il gère des données bruitées, il gère des données auxquelles manquent certaines valeurs.
Algorithme de base d’apprentissage des arbres de décision ArbreD(exemples,attributs) Si tous les exemples appartient à une catégorie alors retourner une feuille avec cette catégorie comme étiquette Sinon si attributs est vide alors retourner une feuille dont l’étiquette est la catégorie majoritaire dans exemples Sinon choisir un attribut A pour la racine: pour toutes les valeurs possibles vi de A soit exemplesi le sous-ensemble dont la valeur de A est vi ajouter une branche à la racine pour le test A = vi si exemplesi est vide alors créer une feuille dont l’étiquette est la catégorie majoritaire dans exemples sinon appeler récursivement ArbreD(exemplesi,attributs – {A})
Exercice Construire l’arbre de décision à partir des données suivantes. Exemple Trans? Pass? Anim? Class courir bas bas haut MoM marcher haut bas haut MoM fondre bas bas bas CoS cuire haut haut haut CoS
Exemple Anim? haut bas Courir/MoM Fondre/CoS Marcher/MoM Cuire/CoS Exemple Trans? Pass? Anim? Classe courir bas bas haut MoM marcher haut bas haut MoM fondere bas bas bas CoS cuocere haut haut haut CoS Courir/MoM Marcher/MoM Cuire/CoS Fondre/CoS Marcher/MoM Cuire/CoS Trans? haut bas Courir/MoM Cuire/CoS Marcher/MoM Pass? haut bas
Exemple Anim? haut bas Trans? haut bas Fondre/CoS Cuire/CoS Marcher/MoM pass? haut bas Courir/MoM
Choisir la racine En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles Cuire/CoS Marcher/MoM Courir/MoM Fondre/CoS pass? haut bas Marcher/MoMCuire/CoS Courir/MoM Fondre/CoS Trans? haut bas Cuire/CoS Courir/MoM Marcher/MoM Anim? haut bas
Choisir la racine En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles. Le test parfait diviserait les données en sous-ensembles pures, appartenant tous à la mème classe. L’entropie est la mésure indiquant l’impurité d’un ensemble d’exemples par rapport à une classification Les mésures utilisées pour choisir l’attribut racine sont basées sur l’entropie
Entropie L’entropie est la mésure indiquant l’impureté où le désordre d’un ensemble d’exemples par rapport à une classification L’entropie d’un ensemble d’exemples S par rapport à une classification Où pi est la proportion d’exemples de catégorie i dans S
Exercice Exemple Trans? Pass? Anim? Class courir bas bas haut MoM Etant donnée la formule de l’entropie, calculer l’entropie de différents attributs de données ci-dessous. Exemple Trans? Pass? Anim? Class courir bas bas haut MoM marcher haut bas haut MoM fondre bas bas bas CoS cuire haut haut haut CoS
Exercice - solution Exemple Trans? Pass? Anim? Class courir bas bas haut MoM marcher haut bas haut MoM fondre bas bas bas CoS cuire haut haut haut CoS Entropie(Class) = -(.5 log2 .5) -(.5 log2 .5) = -(.5 –1) –(.5 –1) =1 Entropie(Trans?) = -(.5 log2 .5) -(.5 log2 .5) = -(.5 –1) –(.5 –1) =1 Entropie(Pass?) = -(.25 log2 .25) -(.75 log2 .75) = -(.25 –2) –(.75 –0.415) = .811 Entropie(Anim?) = -(.25 log2 .25) –(.75 log2 .75) = .811 Pour une classification donnée, la distribution uniforme est celle avec l’entropie maximale
Gain d’information (information gain) Le gain d’information d’un attribut A est la réduction de l’entropie à laquelle on peut s’attendre si on fait une partition sur la base de cet attribut. Values(A)= ensemble des valeurs possibles de l’attribut A Sv= sous-ensemble de S pour lequel A a valeur v |S| = taille de S | Sv|= taille de Sv
Gain d’information (information gain) Le gain d’information est donc la réduction attendue de l’entropie (l’entropie des données, moins la moyenne proportionnelle de l’entropie) qui reste après avoir fait la partition. Plus le gain est élevé, plus cet attribut nous fourni de l’information pour la classification des données. Pour la racine de l’arbre, on choisit donc l’attribut qui maximise ce gain. Pour une classification donnée, la distribution uniforme est celle avec l’entropie maximale. Un attribut avec une distribution non uniforme a donc un meilleur gain d’information.
Exercice Calculer le gain d’information de chaque attribut des données ci-dessous. Exemple Trans? Pass? Anim? Classe courir bas haut MoM marcher fondre CoS cuire
Exercice—solution Gain(S,Anim?) = 1 – 3/4 (.39+.53) – 1/4 (0) = 1 – .69 = .31 Gain(S,Pass?) = 1 – 1/4 (0) – 3/4 (.39+.53) = 1 – .69 = .31 Gain(S,Trans?) = 1 – 2/4 (.5+.5) – 2/4 (.5+.5) = 1 – 1 = 0
Gain d’information et proportion de gain Le gain d’information présente un désavantage. Il a tendance à préférer les attributs à beaucoup de valeurs différentes, et qui partagent les données en nombreux petits sous-ensembles pures La proportion de gain est une mésure alternative qui divise le gain d’information par une mésure proportionnelle à la taille de la partition générée par les valeurs d’un attribut (si il y a beaucoup de valeurs le dénominateur sera plus large)
Le biais inductif (inductive bias) Toute méthode utilisée par un système de classification pour choisir entre deux fonctions, toutes les deux compatibles avec les données d’entreinement, s’appele biais inductif. Le biais inductif est de deux types le biais du langage – le langage rappresentant les fonctions d’apprentissage definit un’espace d’hypothèses limité le biais de la recherche – le langage est assez expressif pour exprimer toutes les fonctions possibles, mais l’algorithme de recherche implique une préférence pour certaines hypothèses plutot que d’autres Les arbres de décision impliquent un biais pour les arbres plus petits par rapport aux plus grands (biais de recherche)
La futilité de l’apprentissage en absence de biais Un apprenant qui n’utilise aucune assumption a priori concernant l’identité du concept cible ne possède aucune base rationnelle pour classer de nouvelles instances. L’apprentissage sans biais est impossible. Le biais inductif décrit la logique avec laquelle l’apprenant généralise au délà des données d’entreinement. Le biais inductif de l’apprenant est l’ensemble d’assumptions ultérieures suffisantes pour justifier l’inférence inductive en tant que déduction
Le rasoir de Occam Pluralitas non est ponenda sine necessitate Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins Mais alors, pourquoi ne pas préférer les hypothèses très spécifiques, qui sont aussi très peux nombreuses
Le rasoir de Occam Pluralitas non est ponenda sine necessitate - citation attribuée à William of Occam (vers 1320) Interprétation courante : préférer l’hypothèse la plus simple qui décrit les données observées. Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins. Il y a donc moins de chance qu’une mauvaise hypothèse décrive parfaitement les données d’entraînement par hasard. Autre principe apparenté : description de longueur minimale (minimum description length). Ces principes ne sont pas parfaits, ils sont difficiles à justifier théoriquement, mais la pratique a démontré qu’ils sont utiles. Ils sont donc très souvent utilisés.
Systèmes d’induction d’arbres de décision C4.5, par Ross Quinlan. Gratuit à : http://www.cse.unsw.edu.au/~quinlan/ C4.5-ofai, version de C4.5 modifiée par Johann Petrak. Gratuit à : http://www.ai.univie.ac.at/~johann/c45ofai.html C5.0, par Ross Quinlan. C5.0 est une version vastement améliorée de C4.5, mais n’est pas gratuit. Démo gratuit—mais limité à 400 exemples—à : http://www.rulequest.com/
entropy http://www.hyperdictionary.com/index.html Computing Dictionary A measure of the disorder of a system. Systems tend to go from a state of order (low entropy) to a state of maximum disorder (high entropy). The entropy of a system is related to the amount of information it contains. A highly ordered system can be described using fewer bits of information than a disordered one. For example, a string containing one million "0"s can be described using run-length encoding as [("0", 1000000)] whereas a string of random symbols (e.g. bits, or characters) will be much harder, if not impossible, to compress in this way. Information is a measure of the reduction in uncertainty. This reduced uncertainty can be considered analogous to negative entropy - decreased disorder.