La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprendre à partir des observations Chap. 18 Section 1 – 3.

Présentations similaires


Présentation au sujet: "Apprendre à partir des observations Chap. 18 Section 1 – 3."— Transcription de la présentation:

1 Apprendre à partir des observations Chap. 18 Section 1 – 3

2 Plan Apprentissage Inductif Apprentissage par arbre de décision

3 Apprendre La capacité dapprendre est essentielle pour des environnements inconnus, –i.e., quand le concepteur manque de lomniscience Lapprentissage est utile comme méthode de construction de système, –i.e., exposer lagent à la réalité plutôt que dessayer décrire tout Lapprentissage modifie les mécanismes dagent pour prendre des décisions afin daméliorer la performance

4 Apprentissage inductif Forme la plus simple: apprendre une fonction des exemples f est la fonction cible Un exemple est une paire (x, f(x)) Problème: trouver une hypothèse h telle que h f Étant donné un ensemble dentraînement dexemples (Cest un modèle très simplifié par rapport à lapprentissage réel: –Ignore les connaissances a priori –Suppose que les exemples sont donnés)

5 Méthode dapprentissage inductif Construire/ajuster h afin de conformer à lensemble dentraînement (h est consistante si elle est conforme à toutes les données) E.g., fiter une courbe:

6 Inductive learning method Construire/ajuster h afin de conformer à lensemble dentraînement (h est consistante si elle est conforme à toutes les données) E.g., fiter une courbe:

7 Inductive learning method Construire/ajuster h afin de conformer à lensemble dentraînement (h est consistante si elle est conforme à toutes les données) E.g., fiter une courbe:

8 Inductive learning method Construire/ajuster h afin de conformer à lensemble dentraînement (h est consistante si elle est conforme à toutes les données) E.g., fiter une courbe:

9 Inductive learning method Construire/ajuster h afin de conformer à lensemble dentraînement (h est consistante si elle est conforme à toutes les données) E.g., fiter une courbe:

10 Apprendre des arbres de décision Problème: décider si on doit attendre pour une table à un restaurant, basé sur les attributs suivants 1.Alternate: Est-ce quil y a des restaurants alternatifs proches? 2.Bar: Est-ce quil y a un bar confortable pour attendre? 3.Fri/Sat: Est-ce quon est vendredi ou samedi? 4.Hungry: Avons nous faim? 5.Patrons: nombre de personnes dans le restaurant (None, Some, Full) 6.Price: zone de prix ($, $$, $$$) 7.Raining: est-ce quil pleut dehors? 8.Reservation: Avons nous une réservation? 9.Type: Type de restaurant (French, Italian, Thai, Burger) 10. WaitEstimate: Temps dattente estimé (0-10, 10-30, 30-60, >60)

11 Représentations basées sur des attributs Exemples décrits par des valeurs dattribut (booléen, discret, continu) E.g., pour lattente dune table: Classification des exemples (des décisions) en positif (T) ou négatif (F)

12 Arbre de décision Une représentation possible des hypothèses E.g., un arbre pour décider si on attend:

13 Capacité dexpression Un arbre de décision peut exprimer toute expression des attributs en entrée E.g., pour des fonctions booléennes, ligne de table de vérité chemin vers feuille: On peut stocker tous les exemples, en créant un chemin pour chaque exemple. Mais cette représentation nest pas compact et ne généralise pas. Préfère trouver un arbre plus compact

14 Espace dhypothèses Combien darbres distincts avec n variables booléenne? = nombre de fonctions booléennes = nombre de tables de vérités distinctes avec 2 n lignes = 2 2 n E.g., avec 6 attributs booléens, il y a 18,446,744,073,709,551,616 arbres

15 Espace dhypothèses Combien darbres distincts avec n variables booléenne? = nombre de fonctions booléennes = nombre de tables de vérités distinctes avec 2 n lignes = 2 2 n E.g., avec 6 attributs booléens, il y a 18,446,744,073,709,551,616 arbres Combien dhypothèses purement conjunctives (e.g., Hungry Rain)? Chaque attribut peut être dedans (positive), dedans (negative), or dehors 3 n hypothèses conjonctives distinctes Espace dhypothèses plus expressif –Augmenter la chance que la fonction cible soit exprimée –Augmenter le nombre dhypothèses consistantes à lensemble dentraînement Peut faire des prédictions moins bonnes

16 Apprendre un arbre de décision But: trouver un arbre de décision petit, et consistant avec tous les exemples dentraînement Idée: choisir (récursivement) lattribut le plus significatif" comme racine de (sous) arbre

17 Choisir un attribut Idée: un bon attribut peut diviser les exemples en sous ensembles plus consistants, idéalement seulement despositives et seulement des négatives Patrons? est-il un meilleur choix?

18 Utilier la théorie dinformation Contenu dinformation (entropie): I(P(v 1 ), …, P(v n )) = Σ i=1 -P(v i ) log 2 P(v i ) Pour un ensemble dentraînement contenant p exemples positifs et n exemples négatifs: E.g. I(1/2, 1/2) = -1/2 log1/2 -1/2 log1/2 = 1 (bit) I(2/8, 3/8, 3/8) = -2/8 log2/8 - 3/8 log3/8 - 3/8 log3/8

19 Gain dinformation Un attribut choisi A divise lensemble dentraînement E en sous ensembles E 1, …, E v selon leur valeur de A, où A a v valeurs distinctes. Gain dinformation (IG) ou réduction dentropie due à lattribut en question: Choisir lattribut dont le IG est le plus grand

20 Gain dinformation Pour un ensemble dentraînement, p = n = 6, I(6/12, 6/12) = 1 bit Considérer les attributs Patrons et Type (et les autres aussi): Patrons a le plus grand IG parmi tous les attributs. Il est donc choisi comme la racine (par lalgorithme DTL)

21 Exemple contd. Arbre de décision appris des 12 exemples: Beaucoup plus simple que des arbres réels –Une hypothèse plus complexe nest pas vraiment justifié par le petit nombre de données

22 Mesure de performance Comment peut-on savoir si h f ? 1.Utiliser des théorèmes de théories dapprentissage computationnelles/statistiques 2.Essayer h sur un autre ensemble de test Courbe dapprentisage = % cas corrects dans lensemble de test en fonction de taille dentraînement

23 Mesure de performance La courbe dépend de –Réalisable (peut exprimer la fonction cible) ou non Non réalisabilité peut être due aux attributs manquants ou à la classe dhypothèse restreinte (e.g. fonction linéaire avec seuil) –Expresions redondantes (surcharge dattributs non pertinents)

24 Sommaire Apprendre pour les environnements inconnus, concepteurs paresseux Pour apprentissage supervisé. Le but est de trouver une hypothèse simple consistante approximativement aux exemples dentraînement Arbre de décision: utiliser le gain dinformation Performance dapprentissage = précision de prédiction mesurée sur un ensemble de test


Télécharger ppt "Apprendre à partir des observations Chap. 18 Section 1 – 3."

Présentations similaires


Annonces Google