Apprendre à partir des observations

Slides:



Advertisements
Présentations similaires
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Advertisements

Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Algorithmes et structures de données avancés
Classification et prédiction
Classification et prédiction
Regroupement (clustering)
Apprentissage supervisé à partir de séquences
Regroupement (clustering)
Apprentissage relationnel Apprentissage Data Mining ILP.
RECONNAISSANCE DE FORMES
Classification supervisée Marine Campedel avril 2005.
LA SITUATION SIGNIFICATIVE D’INTEGRATION
Les tests d’hypothèses (I)
ANALYSE CONJOINTE 29/06/07- Analyse conjointe.
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Complexité et Classification
Système formel Nous avons introduit : signes de variables (x, y, z, …), de constantes (0, 1), d’opérations (+, ), de relations (=, ) Axiomes : ce sont.
Les tests d’hypothèses
Maria-João Rendas CNRS – I3S Novembre 2006
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
Modélisation des systèmes non linéaires par des SIFs
Christelle Scharff IFI Juin 2004
CREATION DE FEUILLE DE STYLE pour structuré le document XML
DEA instrumentation et commande
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Un neurone élémentaire
L'apprentissage de l'abstraction Faire acquérir des concepts Animation pédagogique 12 décembre 2012 LRO.
Initiation à la conception de systèmes d'information
Chapitre 2: Les régularités et les relations
Apprentissage et Fouilles de données Salma Najar 20 Mars 2008 FilterBoost: Regression et Classification On Large Datasets FilterBoost: Regression et Classification.
Méthode des k plus proches voisins
Régression linéaire simple
Bases de données lexicales
DEA Perception et Traitement de l’Information
La Classification
Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802
Les fichiers indexés (Les B-arbres)
Les réseaux de neurones
1 SQL: Requêtes, Programmation et Triggers Chapitre 5, Sections
1 SQL: Requêtes, Programmation et Triggers Chapitre 5, Sections
CSI 4506: Introduction à l’intelligence artificielle
Les Arbres de décision ou régression
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
CSI 4506: Introduction à l’Intelligence Artificielle
Apprentissage par arbre de décision
ASI 3 Méthodes numériques pour l’ingénieur
Réseaux bayésiens: Inférence
Régression linéaire multiple : hypothèses & interprétation
Paradigmes des Langages de Programmation
D.E ZEGOUR Ecole Supérieure d’Informatique
Specifications de Systemes Logiciels المواصفات الشكلية Software Specifications Chapitre 7.
Présentation du marché obligataire
D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.
S. Canu, laboratoire PSI, INSA de Rouen
Arbres de décision flous
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Recherche de motifs par projections aléatoires
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Les Extra-Trees+SW Réalisé par : Encadrante:
Extreemly Random Trees + SubWindows HOURRI Soufiane NAIT ABDELLAH OUALI Ismail OUFQIR Anouar OUSSAFI Mohammed.
APPRENTISSAGE ET COGNITION 1-CONCEPTS ET PRINCIPES DE BASE DE L'APPRENTISSAGE.
Statistiques: mesures de liaisons tests d’hypothèse
IFT 501 Recherche d'information et forage de données Chaptitre 4 : Classification concepts de base, arbres de décision et évalution des modèles Partie.
IFT 501 Recherche d'information et forage de données Chapitre 4 : Classification concepts de base, arbres de décision et évalution des modèles Partie 3.
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Transcription de la présentation:

Apprendre à partir des observations Chap. 18 Section 1 – 3

Plan Apprentissage Inductif Apprentissage par arbre de décision

Apprendre La capacité d’apprendre est essentielle pour des environnements inconnus, i.e., quand le concepteur manque de l’omniscience L’apprentissage est utile comme méthode de construction de système, i.e., exposer l’agent à la réalité plutôt que d’essayer d’écrire tout L’apprentissage modifie les mécanismes d’agent pour prendre des décisions afin d’améliorer la performance

Apprentissage inductif Forme la plus simple: apprendre une fonction des exemples f est la fonction cible Un exemple est une paire (x, f(x)) Problème: trouver une hypothèse h telle que h ≈ f Étant donné un ensemble d’entraînement d’exemples (C’est un modèle très simplifié par rapport à l’apprentissage réel: Ignore les connaissances a priori Suppose que les exemples sont donnés)

Méthode d’apprentissage inductif Construire/ajuster h afin de conformer à l’ensemble d’entraînement (h est consistante si elle est conforme à toutes les données) E.g., fiter une courbe:

Inductive learning method Construire/ajuster h afin de conformer à l’ensemble d’entraînement (h est consistante si elle est conforme à toutes les données) E.g., fiter une courbe:

Inductive learning method Construire/ajuster h afin de conformer à l’ensemble d’entraînement (h est consistante si elle est conforme à toutes les données) E.g., fiter une courbe:

Inductive learning method Construire/ajuster h afin de conformer à l’ensemble d’entraînement (h est consistante si elle est conforme à toutes les données) E.g., fiter une courbe:

Inductive learning method Construire/ajuster h afin de conformer à l’ensemble d’entraînement (h est consistante si elle est conforme à toutes les données) E.g., fiter une courbe:

Apprendre des arbres de décision Problème: décider si on doit attendre pour une table à un restaurant, basé sur les attributs suivants Alternate: Est-ce qu’il y a des restaurants alternatifs proches? Bar: Est-ce qu’il y a un bar confortable pour attendre? Fri/Sat: Est-ce qu’on est vendredi ou samedi? Hungry: Avons nous faim? Patrons: nombre de personnes dans le restaurant (None, Some, Full) Price: zone de prix ($, $$, $$$) Raining: est-ce qu’il pleut dehors? Reservation: Avons nous une réservation? Type: Type de restaurant (French, Italian, Thai, Burger) WaitEstimate: Temps d’attente estimé (0-10, 10-30, 30-60, >60)

Représentations basées sur des attributs Exemples décrits par des valeurs d’attribut (booléen, discret, continu) E.g., pour l’attente d’une table: Classification des exemples (des décisions) en positif (T) ou négatif (F)

Arbre de décision Une représentation possible des hypothèses E.g., un arbre pour décider si on attend:

Capacité d’expression Un arbre de décision peut exprimer toute expression des attributs en entrée E.g., pour des fonctions booléennes, ligne de table de vérité → chemin vers feuille: On peut “stocker” tous les exemples, en créant un chemin pour chaque exemple. Mais cette représentation n’est pas compact et ne généralise pas. Préfère trouver un arbre plus compact

Espace d’hypothèses Combien d’arbres distincts avec n variables booléenne? = nombre de fonctions booléennes = nombre de tables de vérités distinctes avec 2n lignes = 22n E.g., avec 6 attributs booléens, il y a 18,446,744,073,709,551,616 arbres

Espace d’hypothèses Combien d’arbres distincts avec n variables booléenne? = nombre de fonctions booléennes = nombre de tables de vérités distinctes avec 2n lignes = 22n E.g., avec 6 attributs booléens, il y a 18,446,744,073,709,551,616 arbres Combien d’hypothèses purement conjunctives (e.g., Hungry  Rain)? Chaque attribut peut être dedans (positive), dedans (negative), or dehors  3n hypothèses conjonctives distinctes Espace d’hypothèses plus expressif Augmenter la chance que la fonction cible soit exprimée Augmenter le nombre d’hypothèses consistantes à l’ensemble d’entraînement  Peut faire des prédictions moins bonnes

Apprendre un arbre de décision But: trouver un arbre de décision petit, et consistant avec tous les exemples d’entraînement Idée: choisir (récursivement) l’attribut ”le plus significatif" comme racine de (sous) arbre

Choisir un attribut Idée: un bon attribut peut diviser les exemples en sous ensembles plus consistants, idéalement seulement des “positives” et seulement des “négatives” Patrons? est-il un meilleur choix?

Utilier la théorie d’information Contenu d’information (entropie): I(P(v1), … , P(vn)) = Σi=1 -P(vi) log2 P(vi) Pour un ensemble d’entraînement contenant p exemples positifs et n exemples négatifs: E.g. I(1/2, 1/2) = -1/2 log1/2 -1/2 log1/2 = 1 (bit) I(2/8, 3/8, 3/8) = -2/8 log2/8 - 3/8 log3/8 - 3/8 log3/8

Gain d’information Un attribut choisi A divise l’ensemble d’entraînement E en sous ensembles E1, … , Ev selon leur valeur de A, où A av valeurs distinctes. Gain d’information (IG) ou réduction d’entropie due à l’attribut en question: Choisir l’attribut dont le IG est le plus grand

Gain d’information Pour un ensemble d’entraînement, p = n = 6, I(6/12, 6/12) = 1 bit Considérer les attributs Patrons et Type (et les autres aussi): Patrons a le plus grand IG parmi tous les attributs. Il est donc choisi comme la racine (par l’algorithme DTL)

Exemple contd. Arbre de décision appris des 12 exemples: Beaucoup plus simple que des arbres réels Une hypothèse plus complexe n’est pas vraiment justifié par le petit nombre de données

Mesure de performance Comment peut-on savoir si h ≈ f ? Utiliser des théorèmes de théories d’apprentissage computationnelles/statistiques Essayer h sur un autre ensemble de test Courbe d’apprentisage = % cas corrects dans l’ensemble de test en fonction de taille d’entraînement

Mesure de performance La courbe dépend de Réalisable (peut exprimer la fonction cible) ou non Non réalisabilité peut être due aux attributs manquants ou à la classe d’hypothèse restreinte (e.g. fonction linéaire avec seuil) Expresions redondantes (surcharge d’attributs non pertinents)

Sommaire Apprendre pour les environnements inconnus, concepteurs “paresseux” Pour apprentissage supervisé. Le but est de trouver une hypothèse simple consistante approximativement aux exemples d’entraînement Arbre de décision: utiliser le gain d’information Performance d’apprentissage = précision de prédiction mesurée sur un ensemble de test