Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)

Slides:



Advertisements
Présentations similaires
Théorie des graphes.
Advertisements

Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Action spécifique AS119 Les représentations bipolaires en raisonnement et décision Vers un test empirique de la plausibilité psychologique de la représentation.
Algorithmes et structures de données avancés
Classification et prédiction
Portée des variables VBA & Excel
Classification et prédiction
Apprentissage supervisé à partir de séquences
Apprentissage relationnel Apprentissage Data Mining ILP.
RECONNAISSANCE DE FORMES
Les TESTS STATISTIQUES
Yann Chevaleyre et Jean-Daniel Zucker
INTRODUCTION.
LI.A ça ressemble à ça… des fois…. Ou pas… Rappels et définition de lIA – Lidée quon sen fait – Jusquoù on va aujourdhui / dans le futur? – Petit Etat.
Pédagogie par Objectifs
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
DEA instrumentation et commande
Classification multiclasses
Apprendre à partir des observations
Chapitre 10 Proportionnalité.
OCaml – Les arbres L3 MI.
Les structures de données arborescentes
Arbre binaire de recherche
FDD et Arbres de Décision
La segmentation
Bases de données lexicales
Algorithmique et Programmation
DEA Perception et Traitement de l’Information
Introduction à la structuration des documents: les techniques M2: Gestion des connaissances.
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Les fichiers indexés (Les B-arbres)
Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp Tom Mitchell Machine Learning)
Les réseaux de neurones
Gestion de Fichiers Indexes basés sur les structures d’arbres binaires et indexes à niveaux multiples.
1 CSI3525: Concepts des Languages de Programmation Notes # 3: Description Syntaxique des Languages.
CSI 4506: Introduction à l’intelligence artificielle
Algorithmes d ’approximation
CLS algorithm Step 1: If all instances in C are positive, then create YES node and halt. If all instances in C are negative, create a NO node and halt.
Chapitre 3 Syntaxe et sémantique.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
CSI 4506: Introduction à l’Intelligence Artificielle
Interprétation automatique
Apprentissage par arbre de décision
Classification automatique de textes
Paradigmes des Langages de Programmation
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
INTRODUCTION.
Algorithmes et Programmation
Test d'hypothèse pour des proportions:
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Arbres binaires et tables de hachage
Fast and Furious Decision Tree Induction
I.A. Session 2009/2010 E.P.S.I. Bordeaux – C.S.I.I – 2 ème Année – Cours n°6.
D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.
Le langage Racket (Lisp)
S. Canu, laboratoire PSI, INSA de Rouen
Apprentissage « machine »
Arbres de décision flous
Sujets spéciaux en informatique I
Recherche de motifs par projections aléatoires
Acquisition and Learning A7633 C. Tardieu. Some definitions Mothertongue Native tongue Family tongue First language/Second language Source language/target.
GPA-779 Application des systèmes experts et des réseaux de neurones.
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Extreemly Random Trees + SubWindows HOURRI Soufiane NAIT ABDELLAH OUALI Ismail OUFQIR Anouar OUSSAFI Mohammed.
Raison d'être de la structure de fichiers : Les premiers travaux : Début des années 1960 : En 1963 : Près de 10 ans plus tard... (à peu près 1973) : Durant.
Chap. 3 Récursion et induction. Les définitions par récurrence consistent à construire des objets finis, à partir d'autres, selon certaines règles. Les.
Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur.
Transcription de la présentation:

Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)

Rappel Un des principaux défis en TAL consiste à fournir aux ordinateurs les connaissances linguistiques nécessaires pour effectuer avec succés des tâches langagières. Solution au problème de l’acquisition des connaissances langagières A la place d’un expert qui fournit à l’ordinateur des informations sur le langage, le programme apprend lui-même à partir des données textuelles.

Rappel Avantages des méthodes empiriques Acquisition Couverture Robustesse Extensibilité Evaluation

Différentes méthodes empiriques Rappresentation: probabiliste, symbolique, reseaux de neurones Entreinement: supervisé ou non-supervisé Tâches: reconnaissance de la parole; analyse syntaxique (parsing)/desambiguisation; acquisition lexicale: sous-catégorisation, structure argumentale, attachement du PP; desambiguisation du sense des mots; traduction automatique.

Apprentissage: définition On dit qu'un programme informatique apprend à partir d’une expérience empirique E par rapport à une tâche T et par rapport à une mésure de performance P, si sa performance P à la tâche T s’améliore à la suite de E. Exemple Tâche T: classer des verbes anglais dans des classes prédéfinies Mésure de performance P : % de verbes classés correctement par rapport à une classification définie par des experts (gold standard) Experiénce d’entreinement E: base de données de couples de verbes (et leurs proprietés) et classe correcte

Apprentissage par classification La tâche la plus étudiée en apprentissage automatique (machine learning) consiste à inferer une fonction classant des exemples representés comme vecteurs de traits distinctifs dans une catégorie parmi un ensemble fini de catégories données.

Apprentissage par classification: exemple Soit un ensemble de verbes. Tâche: classification binaire: verbes de types de mouvement (courir, sauter, se promener) et verbes de changement d’état (fondre, cuire). Traits: pour chaque forme du verbe dans un corpus, le verbe, est-il transitif? est-il passif? Son sujet, est-il animé? Vecteur: vecteur du pourcentage de fois où le verbe est transitif, passif et son sujet est animé sur le total d’effectifs dans le corpus.

Apprentissage par classification:exemple Exemple Trans? Pass? Anim? Class courir 5% 3% 90% MoM marcher 55% 5% 77% MoM fondre 10% 9% 20% CoS cuire 80% 69% 88% CoS

Apprentissage par classification Fonctions apprises possibles Si Pass? < 10% et Anim? >25% alors MoM Si Trans? <= 10% et Anim >25% alors MoM Si Trans? > 10% et Pass? < 10% alors MoM

Arbre de décision Les arbres de décision sont des classifieurs (classeurs?) qui opèrent sur des instances rapprésentées par des vecteurs de traits. Les nœuds testent les traits. Il y a une branche pour chaque valeur du trait. Les feuilles spécifient les catégories. Ils peuvent aussi être écrits comme de règles. Exercices Dessiner les (sous-)arbres de décision correspondant aux règles vues au paravant.

Apprentissage des arbre de décision Les instances sont rapprésentées en tant que vecteurs de couples traits-valeurs. La fonction cible à des valeurs discrètes de sortie. L’algorithme gère des masses de données avec efficacité, il gère des données bruitées, il gère des données auxquelles manquent certaines valeurs.

Algorithme de base d’apprentissage des arbres de décision ArbreD(exemples,attributs) Si tous les exemples appartient à une catégorie alors retourner une feuille avec cette catégorie comme étiquette Sinon si attributs est vide alors retourner une feuille dont l’étiquette est la catégorie majoritaire dans exemples Sinon choisir un attribut A pour la racine: pour toutes les valeurs possibles vi de A soit exemplesi le sous-ensemble dont la valeur de A est vi ajouter une branche à la racine pour le test A = vi si exemplesi est vide alors créer une feuille dont l’étiquette est la catégorie majoritaire dans exemples sinon appeler récursivement ArbreD(exemplesi,attributs – {A})

Exercice Construire l’arbre de décision à partir des données suivantes. Exemple Trans? Pass? Anim? Class courir bas bas haut MoM marcher haut bas haut MoM fondre bas bas bas CoS cuire haut haut haut CoS

Exemple Anim? haut bas Courir/MoM Fondre/CoS Marcher/MoM Cuire/CoS Exemple Trans? Pass? Anim? Classe courir bas bas haut MoM marcher haut bas haut MoM fondere bas bas bas CoS cuocere haut haut haut CoS Courir/MoM Marcher/MoM Cuire/CoS Fondre/CoS Marcher/MoM Cuire/CoS Trans? haut bas Courir/MoM Cuire/CoS Marcher/MoM Pass? haut bas

Exemple Anim? haut bas Trans? haut bas Fondre/CoS Cuire/CoS Marcher/MoM pass? haut bas Courir/MoM

Choisir la racine En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles Cuire/CoS Marcher/MoM Courir/MoM Fondre/CoS pass? haut bas Marcher/MoMCuire/CoS Courir/MoM Fondre/CoS Trans? haut bas Cuire/CoS Courir/MoM Marcher/MoM Anim? haut bas

Choisir la racine En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles. Le test parfait diviserait les données en sous-ensembles pures, appartenant tous à la mème classe. L’entropie est la mésure indiquant l’impurité d’un ensemble d’exemples par rapport à une classification Les mésures utilisées pour choisir l’attribut racine sont basées sur l’entropie

Entropie L’entropie est la mésure indiquant l’impureté où le désordre d’un ensemble d’exemples par rapport à une classification L’entropie d’un ensemble d’exemples S par rapport à une classification Où pi est la proportion d’exemples de catégorie i dans S

Exercice Exemple Trans? Pass? Anim? Class courir bas bas haut MoM Etant donnée la formule de l’entropie, calculer l’entropie de différents attributs de données ci-dessous. Exemple Trans? Pass? Anim? Class courir bas bas haut MoM marcher haut bas haut MoM fondre bas bas bas CoS cuire haut haut haut CoS

Exercice - solution Exemple Trans? Pass? Anim? Class courir bas bas haut MoM marcher haut bas haut MoM fondre bas bas bas CoS cuire haut haut haut CoS Entropie(Class) = -(.5 log2 .5) -(.5 log2 .5) = -(.5 –1) –(.5 –1) =1 Entropie(Trans?) = -(.5 log2 .5) -(.5 log2 .5) = -(.5 –1) –(.5 –1) =1 Entropie(Pass?) = -(.25 log2 .25) -(.75 log2 .75) = -(.25 –2) –(.75 –0.415) = .811 Entropie(Anim?) = -(.25 log2 .25) –(.75 log2 .75) = .811 Pour une classification donnée, la distribution uniforme est celle avec l’entropie maximale

Gain d’information (information gain) Le gain d’information d’un attribut A est la réduction de l’entropie à laquelle on peut s’attendre si on fait une partition sur la base de cet attribut. Values(A)= ensemble des valeurs possibles de l’attribut A Sv= sous-ensemble de S pour lequel A a valeur v |S| = taille de S | Sv|= taille de Sv

Gain d’information (information gain) Le gain d’information est donc la réduction attendue de l’entropie (l’entropie des données, moins la moyenne proportionnelle de l’entropie) qui reste après avoir fait la partition. Plus le gain est élevé, plus cet attribut nous fourni de l’information pour la classification des données. Pour la racine de l’arbre, on choisit donc l’attribut qui maximise ce gain. Pour une classification donnée, la distribution uniforme est celle avec l’entropie maximale. Un attribut avec une distribution non uniforme a donc un meilleur gain d’information.

Exercice Calculer le gain d’information de chaque attribut des données ci-dessous. Exemple Trans? Pass? Anim? Classe courir bas haut MoM marcher fondre CoS cuire

Exercice—solution Gain(S,Anim?) = 1 – 3/4 (.39+.53) – 1/4 (0) = 1 – .69 = .31 Gain(S,Pass?) = 1 – 1/4 (0) – 3/4 (.39+.53) = 1 – .69 = .31 Gain(S,Trans?) = 1 – 2/4 (.5+.5) – 2/4 (.5+.5) = 1 – 1 = 0

Gain d’information et proportion de gain Le gain d’information présente un désavantage. Il a tendance à préférer les attributs à beaucoup de valeurs différentes, et qui partagent les données en nombreux petits sous-ensembles pures La proportion de gain est une mésure alternative qui divise le gain d’information par une mésure proportionnelle à la taille de la partition générée par les valeurs d’un attribut (si il y a beaucoup de valeurs le dénominateur sera plus large)

Le biais inductif (inductive bias) Toute méthode utilisée par un système de classification pour choisir entre deux fonctions, toutes les deux compatibles avec les données d’entreinement, s’appele biais inductif. Le biais inductif est de deux types le biais du langage – le langage rappresentant les fonctions d’apprentissage definit un’espace d’hypothèses limité le biais de la recherche – le langage est assez expressif pour exprimer toutes les fonctions possibles, mais l’algorithme de recherche implique une préférence pour certaines hypothèses plutot que d’autres Les arbres de décision impliquent un biais pour les arbres plus petits par rapport aux plus grands (biais de recherche)

La futilité de l’apprentissage en absence de biais Un apprenant qui n’utilise aucune assumption a priori concernant l’identité du concept cible ne possède aucune base rationnelle pour classer de nouvelles instances. L’apprentissage sans biais est impossible. Le biais inductif décrit la logique avec laquelle l’apprenant généralise au délà des données d’entreinement. Le biais inductif de l’apprenant est l’ensemble d’assumptions ultérieures suffisantes pour justifier l’inférence inductive en tant que déduction

Le rasoir de Occam Pluralitas non est ponenda sine necessitate Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins Mais alors, pourquoi ne pas préférer les hypothèses très spécifiques, qui sont aussi très peux nombreuses

Le rasoir de Occam Pluralitas non est ponenda sine necessitate - citation attribuée à William of Occam (vers 1320) Interprétation courante : préférer l’hypothèse la plus simple qui décrit les données observées. Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins. Il y a donc moins de chance qu’une mauvaise hypothèse décrive parfaitement les données d’entraînement par hasard. Autre principe apparenté : description de longueur minimale (minimum description length). Ces principes ne sont pas parfaits, ils sont difficiles à justifier théoriquement, mais la pratique a démontré qu’ils sont utiles. Ils sont donc très souvent utilisés.

Systèmes d’induction d’arbres de décision C4.5, par Ross Quinlan. Gratuit à : http://www.cse.unsw.edu.au/~quinlan/ C4.5-ofai, version de C4.5 modifiée par Johann Petrak. Gratuit à : http://www.ai.univie.ac.at/~johann/c45ofai.html C5.0, par Ross Quinlan. C5.0 est une version vastement améliorée de C4.5, mais n’est pas gratuit. Démo gratuit—mais limité à 400 exemples—à : http://www.rulequest.com/

entropy http://www.hyperdictionary.com/index.html Computing Dictionary A measure of the disorder of a system. Systems tend to go from a state of order (low entropy) to a state of maximum disorder (high entropy). The entropy of a system is related to the amount of information it contains. A highly ordered system can be described using fewer bits of information than a disordered one. For example, a string containing one million "0"s can be described using run-length encoding as [("0", 1000000)] whereas a string of random symbols (e.g. bits, or characters) will be much harder, if not impossible, to compress in this way. Information is a measure of the reduction in uncertainty. This reduced uncertainty can be considered analogous to negative entropy - decreased disorder.