Arbres de décision.

Arbres de décision

Arbres de décision Exemple: CART: Classification & Regression Trees
Classification de la grandeur d’une personne T= grand, t=moyen à grand, M= moyen, m= petit à grand, S= petit But: prédire la grandeur d’une personne à partir d’une série de questions. CART: Classification & Regression Trees

Exemple: Arbre de décision
Instance attribut Jour Ciel Température Humidité Vent Jouer J1 Soleil Chaud Élevé Faible Non J2 Fort J3 Couvert Oui J4 Pluie Moyen J5 Frais Normal J6 J7 J8 J9 J10 J11 J12 J13 J14

Arbre de décision Ciel Humidité Vent
Exemple : Est-ce que les conditions sont favorables pour jouer au tennis? Ciel Une instance contient les attributs suivants: Ciel, Humidité,vent,température Classification : Non, ce n’est pas une bonne journée pour le tennis. Ensoleillé Pluie Couvert Humidité Vent Oui Élevée Basse Fort Faible Non Oui Non Oui Classifier l’instance suivante: <Ciel = Ensoleillé,Température = chaud, Humidité = élevé,Vent = fort>

Arbre de décision Un arbre de décision est représenté par une séquence de conditions. JouerTennis = Les chemins de la racine vers les feuilles représente une conjonction (et logique) L’arbre lui-même représente une disjonction (ou logique) de ces conjonctions. (Ciel = ensoleillé et Humidité = normal) ou (Ciel = couvert) (Ciel = pluie et Vent = faible)

Arbre de décision: Apprentissage
Principe: Étant donné un ensemble d’instances I Trouver l’attribut qui est le meilleur discriminant sur l’ensemble d’entraînement. Cet attribut sera utilisé comme test pour le nœud. Un nœud enfant est créé pour chacune des valeurs possibles de l’attribut. Les exemples d’entraînement sont ensuite assignés à leurs nœuds correspondants On reprend le processus pour chacun des nœuds. I1 = (a1,a2,…,an) où ai représente un attribut de l’instance

Arbre de décision: Entropie
Quel attribut est le meilleur discriminant? Calcul de l’entropie: Calcul du gain d’information Où Valeurs(A) est l’ensemble des valeurs v possibles pour l’attribut A et Sv = {s ÎS | A(s) = v} L’entropie détermine l’impureté de l’ensemble S. P+ représente la proportion d’exemples positif et P- la proportion d’exemples négatifs. Entropie(S) = 0 : Tous les éléments appartiennent à la même classe. Entropie(S) = 1 : L’ensemble S contient un nombre égal de classification Vraie et Fausse. Exemple : S est un ensemble incluant 9 exemples positifs et 5 exemples négatifs. Entropie([9+,5-]) = -9/14 log 9/14 – 5/14 log 5/14 = 0.940 La formule générale contient un log en base 2 parce que l’entropie est une mesure de la longueur du codage en bits. Exemple Gain: Supposons que S est un ensemble d’entraînement décrit par différents attributs dont la force du vent qui peut être soit fort ou faible. S = [9+,5-] Sfaible = [6+,2-] Sfort = [3+,3-] Gain(S,Vent) = Entropie(S) – 8/14 * Entropie(Sfaible) – 6/14 * Entropie(Sfort ) = 0.048

Algorithme d’entraînement
ID3( Exemples, AttributCible, Attributs ) Créer un nouveau nœud Si tous les exemples sont positifs, le nœud est une feuille positive Si tous les exemples sont négatifs, le nœud est une feuille négative Si attribut est vide, le nœud prend la valeur la plus commune des exemples Sinon A <- l’attribut classifie le mieux l’ensemble d’entraînement question[noeud] <- A pour chaque v ÎA Ajouter une branche à nœud pour la valeur v Exemplesv = {e Î exemples | A[e] = v} Si Exemplesv est vide nœud devient une feuille avec la valeur la plus commune de AttributCible dans Exemples. sinon ID3(Exemplesv,AttributCible,Attributs – {A} retourner noeud

Gain(S,Ciel) = 0.246 Gain(S,Humidité) = 0.151 Gain(S,Vent) = 0.048 Gain(S,Température) = 0.029 {J1,J2,…,J14} Ciel Ensoleillé Pluie Couvert {J1,J2,J8,J9,J11} {J3,J7,J12,J13} {J4,J5,J6,J10,J14} ? Oui ?

Gain(Ssoleil,Humidité) = 0.970 Gain(Ssoleil,Vent) = .019 Gain(Ssoleil,Température) = 0.570 {J1,J2,…,J14} Ciel Ensoleillé Pluie Couvert {J1,J2,J8,J9,J11} {J3,J7,J12,J13} {J4,J5,J6,J10,J14} Humidité Oui ? Élevée Basse {J1,J2,J8} {J9,J11} Non Oui

{J1,J2,…,J14} Ciel Ensoleillé Pluie Couvert {J1,J2,J8,J9,J11} {J3,J7,J12,J13} {J4,J5,J6,J10,J14} Humidité Oui Vent Élevée Basse Fort Faible {J1,J2,J8} {J9,J11} {J6,J14} {J4,J5,J10} Oui Non Oui Non

Arbre de décision Un autre exemple: Un exemple pratique:
Decision Tree Learning Applet Un exemple pratique: Reconnaissance de la parole: classification des triphones

Élagage Contrôler la complexité du nombre des branches et des feuilles pour réaliser un arbre de décision. Minimiser la taille de l’arbre. Trouver le nombre optimale k0 de nœuds. Une méthode régularisation ou de sélection des modèles

Technique d’élagage Deux techniques d’élagage Pré-élagage.
Post-élagage.

Pré-élagage Arrêter de diviser un nœud quand la pureté des points qui domine est non parfaite mais suffisante. Arrêter quand il y a une classe majoritaire dans le nœud. Utiliser un seuil pour détecter une classe dominantes. Inconvénients: Arrêter la construction de l’arbre peut donner un arbre sous optimal.

Post élagage Finir la construction de l’arbre.
Simplifier l’arbre en remontant des feuilles vers la racine pour trouver ou élaguer. Utiliser des critères de qualité qui mesure un compromis l’erreur obtenue et la complexité de l’arbre. Utiliser un ensemble de validation pour mesurer l’erreur à chaque neouds.

Arbres de décision.

Présentations similaires

Présentation au sujet: "Arbres de décision."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Arbres de décision.

Présentations similaires

Présentation au sujet: "Arbres de décision."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back