La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)

Présentations similaires


Présentation au sujet: "Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)"— Transcription de la présentation:

1 Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp Tom Mitchell Machine Learning)

2 Un des principaux défis en TAL consiste à fournir aux ordinateurs les connaissances linguistiques nécessaires pour effectuer avec succés des tâches langagières. Solution au problème de lacquisition des connaissances langagières A la place dun expert qui fournit à lordinateur des informations sur le langage, le programme apprend lui-même à partir des données textuelles. Rappel

3 Avantages des méthodes empiriques Acquisition Couverture Robustesse Extensibilité Evaluation Rappel

4 Rappresentation: probabiliste, symbolique, reseaux de neurones Entreinement: supervisé ou non-supervisé Tâches: reconnaissance de la parole; analyse syntaxique (parsing)/desambiguisation; acquisition lexicale: sous-catégorisation, structure argumentale, attachement du PP; desambiguisation du sense des mots; traduction automatique. Différentes méthodes empiriques

5 Définition On dit qu'un programme informatique apprend à partir dune expérience empirique E par rapport à une tâche T et par rapport à une mésure de performance P, si sa performance P à la tâche T saméliore à la suite de E. Exemple Tâche T: classer des verbes anglais dans des classes prédéfinies Mésure de performance P : % de verbes classés correctement par rapport à une classification définie par des experts (gold standard) Experiénce dentreinement E: base de données de couples de verbes (et leurs proprietés) et classe correcte Apprentissage: définition

6 La tâche la plus étudiée en apprentissage automatique (machine learning) consiste à inferer une fonction classant des exemples representés comme vecteurs de traits distinctifs dans une catégorie parmi un ensemble fini de catégories données. Apprentissage par classification

7 Soit un ensemble de verbes. Tâche: classification binaire: verbes de types de mouvement (courir, sauter, se promener) et verbes de changement détat (fondre, cuire). Traits: pour chaque forme du verbe dans un corpus, le verbe, est-il transitif? est-il passif? Son sujet, est-il animé? Vecteur: vecteur du pourcentage de fois où le verbe est transitif, passif et son sujet est animé sur le total deffectifs dans le corpus. Apprentissage par classification: exemple

8 ExempleTrans?Pass?Anim?Class courir 5%3%90%MoM marcher 55%5%77%MoM fondre 10%9% 20%CoS cuire 80% 69% 88%CoS Apprentissage par classification:exemple

9 Fonctions apprises possibles Si Pass? 25% alors MoM Si Trans? 25% alors MoM Si Trans? > 10% et Pass? < 10% alors MoM Apprentissage par classification

10 Arbre de décision Les arbres de décision sont des classifieurs (classeurs?) qui opèrent sur des instances rapprésentées par des vecteurs de traits. Les nœuds testent les traits. Il y a une branche pour chaque valeur du trait. Les feuilles spécifient les catégories. Ils peuvent aussi être écrits comme de règles. Exercices Dessiner les (sous-)arbres de décision correspondant aux règles vues au paravant.

11 Apprentissage des arbre de décision Les instances sont rapprésentées en tant que vecteurs de couples traits-valeurs. La fonction cible à des valeurs discrètes de sortie. Lalgorithme gère des masses de données avec efficacité, il gère des données bruitées, il gère des données auxquelles manquent certaines valeurs.

12 Algorithme de base dapprentissage des arbres de décision ArbreD(exemples,attributs) Si tous les exemples appartient à une catégorie alors retourner une feuille avec cette catégorie comme étiquette Sinon si attributs est vide alors retourner une feuille dont létiquette est la catégorie majoritaire dans exemples Sinon choisir un attribut A pour la racine: pour toutes les valeurs possibles vi de A soit exemplesi le sous-ensemble dont la valeur de A est vi ajouter une branche à la racine pour le test A = vi si exemplesi est vide alors créer une feuille dont létiquette est la catégorie majoritaire dans exemples sinon appeler récursivement ArbreD(exemplesi,attributs – {A})

13 Exercice Construire larbre de décision à partir des données suivantes. ExempleTrans?Pass?Anim?Class courir basbashautMoM marcher hautbashautMoM fondre bas bas basCoS cuire haut haut hautCoS

14 Exemple Exemple Trans? Pass? Anim? Classe courir bas bas hautMoM marcher haut bas hautMoM fondere bas bas basCoS cuocere haut haut hautCoS Anim? haut bas Courir/MoM Marcher/MoM Cuire/CoS Fondre/CoS Marcher/MoM Cuire/CoS Trans? haut bas Courir/MoM Cuire/CoS Marcher/MoM Pass? haut bas

15 Exemple Anim? haut bas Fondre/CoS Trans? haut bas Courir/MoM Cuire/CoS Marcher/MoM pass? haut bas

16 Choisir la racine En général, on se donne comme but de construire larbre de décision le plus petit possible (rasoir dOccam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles Marcher/MoM Cuire/CoS Courir/MoM Fondre/CoS Trans? haut bas Cuire/CoS Marcher/MoM Courir/MoM Fondre/CoS pass? haut bas Cuire/CoS Courir/MoM Marcher/MoM Anim? haut bas

17 Choisir la racine En général, on se donne comme but de construire larbre de décision le plus petit possible (rasoir dOccam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles. Le test parfait diviserait les données en sous- ensembles pures, appartenant tous à la mème classe. Lentropie est la mésure indiquant limpurité dun ensemble dexemples par rapport à une classification Les mésures utilisées pour choisir lattribut racine sont basées sur lentropie

18 Entropie Lentropie est la mésure indiquant limpureté où le désordre dun ensemble dexemples par rapport à une classification Lentropie dun ensemble dexemples S par rapport à une classification Où pi est la proportion dexemples de catégorie i dans S

19 Exercice Etant donnée la formule de lentropie, calculer lentropie de différents attributs de données ci- dessous. ExempleTrans?Pass?Anim?Class courir basbashautMoM marcher hautbashautMoM fondre bas bas basCoS cuire haut haut hautCoS

20 Exercice - solution Exemple Trans? Pass? Anim? Class courir basbashautMoM marcher hautbashautMoM fondre bas bas basCoS cuire haut haut hautCoS Entropie(Class) = -(.5 log2.5) -(.5 log2.5) = -(.5 –1) –(.5 –1) =1 Entropie(Trans?) = -(.5 log2.5) -(.5 log2.5) = -(.5 –1) –(.5 –1) =1 Entropie(Pass?) = -(.25 log2.25) -(.75 log2.75) = -(.25 –2) –(.75 –0.415) =.811 Entropie(Anim?) = -(.25 log2.25) –(.75 log2.75) =.811 Pour une classification donnée, la distribution uniforme est celle avec lentropie maximale

21 Le gain dinformation dun attribut A est la réduction de lentropie à laquelle on peut sattendre si on fait une partition sur la base de cet attribut. Values(A)= ensemble des valeurs possibles de lattribut A S v = sous-ensemble de S pour lequel A a valeur v |S| = taille de S | S v |= taille de S v Gain dinformation (information gain)

22 Le gain dinformation est donc la réduction attendue de lentropie (lentropie des données, moins la moyenne proportionnelle de lentropie) qui reste après avoir fait la partition. Plus le gain est élevé, plus cet attribut nous fourni de linformation pour la classification des données. Pour la racine de larbre, on choisit donc lattribut qui maximise ce gain. Pour une classification donnée, la distribution uniforme est celle avec lentropie maximale. Un attribut avec une distribution non uniforme a donc un meilleur gain dinformation. Gain dinformation (information gain)

23 Exercice Calculer le gain dinformation de chaque attribut des données ci- dessous. ExempleTrans?Pass?Anim?Classe courirbas hautMoM marcherhautbashautMoM fondrebas CoS cuirehaut CoS

24 Exercicesolution Gain(S,Anim?)= 1 – 3/4 ( ) – 1/4 (0) = 1 –.69 =.31 Gain(S,Pass?)= 1 – 1/4 (0) – 3/4 ( ) = 1 –.69 =.31 Gain(S,Trans?) = 1 – 2/4 (.5+.5) – 2/4 (.5+.5) = 1 – 1 = 0

25 Gain dinformation et proportion de gain Le gain dinformation présente un désavantage. Il a tendance à préférer les attributs à beaucoup de valeurs différentes, et qui partagent les données en nombreux petits sous-ensembles pures La proportion de gain est une mésure alternative qui divise le gain dinformation par une mésure proportionnelle à la taille de la partition générée par les valeurs dun attribut (si il y a beaucoup de valeurs le dénominateur sera plus large)

26 Le biais inductif (inductive bias) Toute méthode utilisée par un système de classification pour choisir entre deux fonctions, toutes les deux compatibles avec les données dentreinement, sappele biais inductif. Le biais inductif est de deux types le biais du langage – le langage rappresentant les fonctions dapprentissage definit unespace dhypothèses limité le biais de la recherche – le langage est assez expressif pour exprimer toutes les fonctions possibles, mais lalgorithme de recherche implique une préférence pour certaines hypothèses plutot que dautres Les arbres de décision impliquent un biais pour les arbres plus petits par rapport aux plus grands (biais de recherche)

27 La futilité de lapprentissage en absence de biais Un apprenant qui nutilise aucune assumption a priori concernant lidentité du concept cible ne possède aucune base rationnelle pour classer de nouvelles instances. Lapprentissage sans biais est impossible. Le biais inductif décrit la logique avec laquelle lapprenant généralise au délà des données dentreinement. Le biais inductif de lapprenant est lensemble dassumptions ultérieures suffisantes pour justifier linférence inductive en tant que déduction

28 Le rasoir de Occam Pluralitas non est ponenda sine necessitate Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins Mais alors, pourquoi ne pas préférer les hypothèses très spécifiques, qui sont aussi très peux nombreuses

29 Le rasoir de Occam Pluralitas non est ponenda sine necessitate - citation attribuée à William of Occam (vers 1320) Interprétation courante : préférer lhypothèse la plus simple qui décrit les données observées. Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins. Il y a donc moins de chance quune mauvaise hypothèse décrive parfaitement les données dentraînement par hasard. Autre principe apparenté : description de longueur minimale (minimum description length). Ces principes ne sont pas parfaits, ils sont difficiles à justifier théoriquement, mais la pratique a démontré quils sont utiles. Ils sont donc très souvent utilisés.

30 Systèmes dinduction darbres de décision C4.5, par Ross Quinlan. Gratuit à : C4.5-ofai, version de C4.5 modifiée par Johann Petrak. Gratuit à : C5.0, par Ross Quinlan. C5.0 est une version vastement améliorée de C4.5, mais nest pas gratuit. Démo gratuitmais limité à 400 exemplesà :

31 entropy Computing Dictionary A measure of the disorder of a system. Systems tend to go from a state of order (low entropy) to a state of maximum disorder (high entropy). The entropy of a system is related to the amount of information it contains. A highly ordered system can be described using fewer bits of information than a disordered one. For example, a string containing one million "0"s can be described using run-length encoding as [("0", )] whereas a string of random symbols (e.g. bits, or characters) will be much harder, if not impossible, to compress in this way.informationbitrun-length encoding Information is a measure of the reduction in uncertainty. This reduced uncertainty can be considered analogous to negative entropy - decreased disorder.


Télécharger ppt "Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)"

Présentations similaires


Annonces Google