La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Les Arbres de décision ou régression. 2 Contexte Supposons que nous désirons comprendre ou expliquer le profil des gens qui achète un ordinateur. Pour.

Présentations similaires


Présentation au sujet: "1 Les Arbres de décision ou régression. 2 Contexte Supposons que nous désirons comprendre ou expliquer le profil des gens qui achète un ordinateur. Pour."— Transcription de la présentation:

1 1 Les Arbres de décision ou régression

2 2 Contexte Supposons que nous désirons comprendre ou expliquer le profil des gens qui achète un ordinateur. Pour ce faire, nous considérons les variables suivantes: Âge, revenu, étudiant ou non,cote de crédit Quel raisonnement ou démarche fait-on naturellement pour établir ce profil?

3 3 Les arbres de décision Les arbres de décision sont utilisés pour la prédiction ou lexplication dune variable cible (Y)(target variable, variable dépendante) à partir dun ensemble de variable explicatives (X) (input variables, variables indépendantes) Le principe des arbres de décision est de diviser lensemble des données dapprentissage successivement en sous-groupes, selon les valeurs prises par les variables explicatives qui à chaque étape discrimine le mieux la variable cible.

4 4 Le résultat est un ensemble de règles simples qui permettent de réaliser des prévisions, de segmenter la population ou didentifier quelles sont les variables qui discriminent le plus la variable cible.

5 5 Exemple

6 6 Exemple dun arbre de décision Achat:Non=5 Oui=9 Age:31-40 Non=0 Oui=4 Age:>40 Non=2 Oui=3 Age<=30 Non=3 Oui=2

7 7 Achat: Non=5 Oui=9 Age:31-40 Non=0 Oui=4 Age:>40 Non=2 Oui=3 Age<=30 Non=3 Oui=2 Étudiant=non Non=3 Oui=0 Étudiant=oui Non=0 Oui=2

8 8 Achat: Non=5 Oui=9 Age:31-40 Non=0 Oui=4 Age:>40 Non=2 Oui=3 Age<=30 Non=3 Oui=2 Étudiant=non Non=3 Oui=0 Étudiant=oui Non=0 Oui=2 Crédit=bon Non=0 Oui=3 Crédit=exc. Non=2 Oui=0

9 9 Algorithmes et logiciels les plus répandus pour construire les arbres de décision: CHAID Chi-Square Automatic Interaction Detection (1975) CART Classification And Regression Trees (Breiman et al., 1984) Knowledge seeker

10 10 Algorithme 1)Pour chaque nœud de larbre: Pour chacune des variables explicatives X, jumelage des modalités à partir du test du chi-carré. Après le jumelage des modalités pour chaque X, Sélection de la variable X la plus fortement lié avec la variable cible Y, c.-à-d. p-value du test du chi-carré le plus petit. 2)Pour chaque nœud fils suivant, reprise des étapes a) et b) 3)Le processus sarrête lorsque à tous les nœuds de larbre, les tests du chi-deux entre les variables X et Y sont tous non significatifs c.-à-d. p-value >

11 11 Conditions darrêt de la croissance de larbre Développement de larbre complet: toutes les observations dans le nœud appartiennent à la même classe de la variable cible; il ny a plus de variables explicatives X à considérer pour poursuivre la croissance de larbre; trop peu dobservations dans le nœud pour poursuivre.

12 12 Lélagage (pruning) Larbre complet est le meilleur, en terme de taux derreur, pour prédire la variable cible, pour lensemble des données dapprentissage! Quen est-il pour un nouvel ensemble de données? Larbre complet nest probablement pas la meilleure solution! Évaluer les sous-arbres: Utiliser un échantillon de validation. Utiliser la validation croisé.

13 13 Avantages des arbres de décision Règles simples et facilement interprétables. Traitement des valeurs manquantes. Aucun modèle et aucun présupposé à satisfaire.

14 14 Désavantages Peu performants lorsquil y a beaucoup de classes. Taux derreurs élevés lorsquil y a des régions non rectangulaires Peu faire de loverfit si on ne contrôle pas le nombre minimum dobservation par nœuds.

15 15 Construire un arbre à partir dexcel Nous pouvons générer un arbre manuellement à partir dexcel: On utiliser la fonction pivot tables pour obtenir nous comptes On utilise les utilitaire graphiques dexcel. Exemple.


Télécharger ppt "1 Les Arbres de décision ou régression. 2 Contexte Supposons que nous désirons comprendre ou expliquer le profil des gens qui achète un ordinateur. Pour."

Présentations similaires


Annonces Google