La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage par arbre de décision. 2 Objectifs / Applications Apprendre une classification Classification animale, végétale Pouvoir répondre à un questionnaire.

Présentations similaires


Présentation au sujet: "Apprentissage par arbre de décision. 2 Objectifs / Applications Apprendre une classification Classification animale, végétale Pouvoir répondre à un questionnaire."— Transcription de la présentation:

1 Apprentissage par arbre de décision

2 2 Objectifs / Applications Apprendre une classification Classification animale, végétale Pouvoir répondre à un questionnaire Pouvoir résoudre un problème à laide de Questions/Réponses Apprentissage de règles pour annoter des protéines Etc.

3 3 Un exemple : Détection de la grippe Apparition soudaine de fièvre élevée Le patient est fatigué Rhinorrhée (nez qui coule) Toux Douleurs à la gorge Enrouement, douleurs dorsales, des membres et céphalées G rippe

4 4 Représentation sous forme darbre fièvre touxfatigue Maux de gorge grippe Nez qui coule Courbatures et maux de tête angine

5 5 Méthode Apprendre une suite de Questions/Réponses la plus « efficace » possible Isoler les classes Organiser les questions/réponses sous la forme dun arbre

6 6 Autre exemple : la ballade du chien Attributs –quel temps fait-il ? {pluvieux, ensoleillé, couvert} –Température extérieure : attribut numérique –Voisin parti avec son chat : attribut booléen Décision à prendre –Sortir ou non le chien

7 7 Arbre de décision Je sors le chien Je reste chez moi Température ? Quel temps fait-il ? Voisin absent ? pluvieuxEnsoleillé couvert non oui > 10 degré 10 degré

8 8 Construction de larbre Problème : Apprendre un arbre de décision à partir dune base dexemples étiquetés Objectif : Être efficace en généralisation (être capable de classer correctement un nouvel exemple)

9 9 Recherche exhaustive dans lensemble des arbres possibles Impossible : –exponentiel en fonction de nombre d attributs : d nombre moyen de valeurs par attributs : a

10 10 Construction « intelligente » des arbres de décision Démarrer avec un arbre vide et construire larbre de manière inductive et descendante Critères darrêt : échantillon pur plus dattributs a tester

11 11 Algorithme Procédure : construire-arbre(X) Si tous les points de X appartiennent à la même classe alors créer une feuille portant le nom de cette classe sinon choisir le meilleur attribut pour créer un nœud Le test associé à ce nœud sépare X en deux parties : X g et X d construire-arbre (X g ) construire-arbre (X d ) finsi

12 12 Positionnement du problème Ensemble d apprentissage : S Un exemple : ( x,w ) décrit par d attributs : {x i, i=1,…,d} w une classe C ={w 1,…,w C }

13 13 Quelques probabilités… soit un nœud contenant n exemples, répartis en C classes w j comportant chacune n j exemples Soit a un attribut binaire divisant chaque sous-ensemble n j en deux parties contenant respectivement l j exemples pour test sur a=VRAI et r j exemples pour test sur a=FAUX l j /n P(a=VRAI, w = w j ), r j /n P(a=FAUX, w = w j ) l/n P(a=VRAI), r/n P(a=FAUX) n j /n P( w = w j )

14 14 Mesure pour choisir lattribut Théorie de l information Information mutuelle (entropie croisée) Si w et a sont deux variables avec D w et D a leurs ensembles finis de valeurs possibles L entropie croisée de w et a est égale à

15 15 Entropie Entropie dune variable aléatoire w Entropie de w conditionnée par a Résultat classique :

16 16 Mesure retenue pour le test Estimation des probabilités Attribut retenu (celui qui minimise lentropie) Entropie minimale si « échantillon pur » avec :et

17 17 Un exemple de construction Problème : étant donné une situation, prédire si un enfant peut aller ou non jouer avec son voisin Base d exemples décisions prises les 8 jours précédents le problème (4 attributs binaires et une classe)

18 18 Base dexemples

19 19 Calcul de H(w|DF), H(w|BH), H(w|TB) et H(w|GP) H(w|BH) = 0.93, H(w|TB) = 0.8 et H(w|GP) = 1 Recherche de la racine de larbre

20 20 Arbre de décision... Temps = beau ? vrai faux

21 21 Arbre de décision appris Temps = beau ? Goûter pris ? Maman de bonne humeur ? Vrai Devoirs finis ? VraiFaux vrai faux

22 22 Élagage de larbre Pré-élagage créer une feuille si une classe y est majoritairement représentée (seuil a priori) utilisation de critères locaux Post-élagage utilisation dun ensemble indépendant de lensemble dapprentissage mesurer lerreur commise sur cet ensemble

23 23 Post-élagage Soit T max larbre obtenu à partir de lensemble dapprentissage Construire une suite darbres {T max, T 1, T 2, …, T n } en partant des feuilles et en remontant vers la racine en transformant un nœud en feuille à chaque étape. Comparer le coût du nouvel arbre à celui du précédent et arrêter lélagage si le coût est supérieur

24 24 Estimation du coût dun arbre Prise en considération de –erreur commise par larbre –complexité de larbre Nombre dexemples de lensemble dapprentissage mal classés par le nœud v de T k dans larbre élagué à v Nombre dexemples de lensemble dapprentissage mal classés par le nœud v de T k dans larbre non élagué Nombre de feuilles de T k Nombre de feuilles du sous-arbre de Tk situé sous le nœud v

25 25 Algorithme délagage Procédure : élaguer(T max ) k 0 T k T max tant que T k a plus d un nœud faire pour chaque nœud v de T k faire calculer le critère w(T k,v) sur l ensemble d apprentissage finPour choisi le nœud v m pour lequel le critère est maximum T k+1 se déduit de T k en y remplaçant v m par une feuille k k+1 fin TantQue Sur lensemble des arbres {Tmax, T1, …, Tk, …, Tn} choisir celui qui a la plus petite erreur en classification sur lensemble de validation

26 26 Un exemple délagage X2X2 X1X1 * O O O O O O O O O * * * * * * * * a b d c

27 27 Larbre de décision T max X 1 > a ? X 2 > c ? X 2 > d ? X 2 > b ? * * *O O Faux Vrai Faux Vrai v1v1 v2v2 v4v4 v3v3

28 28 Larbre de décision T max X 1 > a ? X 2 > c ? X 2 > d ? X 2 > b ? * * *O O Faux Vrai Faux Vrai v1v1 v2v2 v4v4 v3v3

29 29 Larbre de décision T 1 X 1 > a ? X 2 > b ? * *O Faux Vrai Faux Vrai v1v1 v3v3

30 30 Larbre de décision T 2 X 1 > a ? * O Faux Vrai Choisir, à partir dun ensemble de validation, le meilleur arbre parmi T max, T 1 et T 2. Cest à dire celui minimisant lerreur de classification

31 31 Choix de larbre Choisir, à partir dun ensemble de validation, le meilleur arbre parmi T max, T 1 et T 2, cest à dire celui minimisant lerreur de classification X 1 > a ? *O FauxVrai X 1 > a ? X 2 > b ? * *O Faux Vrai FauxVrai X 2 > b ? * O FauxVrai X 1 > a ? X 2 > c ? X 2 > d ? * *O FauxVrai Faux Vrai T max T1T1 T2T2

32 32 Récapitulatif Méthode de référence en apprentissage supervisé Méthode très répandue, rapide et disponible (http://www.cse.unsw.edu.au/~quinlan)http://www.cse.unsw.edu.au/ Méthode relativement sensible au bruit


Télécharger ppt "Apprentissage par arbre de décision. 2 Objectifs / Applications Apprendre une classification Classification animale, végétale Pouvoir répondre à un questionnaire."

Présentations similaires


Annonces Google