Les Arbres de décision ou régression
Contexte Supposons que nous désirons comprendre ou expliquer le profil des gens qui achète un ordinateur. Pour ce faire, nous considérons les variables suivantes: Âge, revenu, étudiant ou non,cote de crédit Quel raisonnement ou démarche fait-on naturellement pour établir ce profil?
Les arbres de décision Les arbres de décision sont utilisés pour la prédiction ou l’explication d’une variable cible (Y)(target variable, variable dépendante) à partir d’un ensemble de variable explicatives (X) (input variables, variables indépendantes) Le principe des arbres de décision est de diviser l’ensemble des données d’apprentissage successivement en sous-groupes, selon les valeurs prises par les variables explicatives qui à chaque étape discrimine le mieux la variable cible.
Le résultat est un ensemble de règles simples qui permettent de réaliser des prévisions, de segmenter la population ou d’identifier qu’elles sont les variables qui discriminent le plus la variable cible.
Exemple
Exemple d’un arbre de décision Achat:Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Age:>40 Non=2 Oui=3
Achat: Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Étudiant=non Non=3 Oui=0 Étudiant=oui Non=0 Oui=2
Achat: Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Crédit=bon Non=0 Oui=3 Crédit=exc. Non=2 Oui=0 Étudiant=non Non=3 Oui=0 Étudiant=oui Non=0 Oui=2
Algorithmes et logiciels les plus répandus pour construire les arbres de décision: CHAID Chi-Square Automatic Interaction Detection (1975) CART Classification And Regression Trees (Breiman et al., 1984) Knowledge seeker
Algorithme Pour chaque nœud de l’arbre: Pour chacune des variables explicatives X, jumelage des modalités à partir du test du chi-carré. Après le jumelage des modalités pour chaque X, Sélection de la variable X la plus fortement lié avec la variable cible Y, c.-à-d. p-value du test du chi-carré le plus petit. Pour chaque nœud fils suivant, reprise des étapes a) et b) Le processus s’arrête lorsque à tous les nœuds de l’arbre, les tests du chi-deux entre les variables X et Y sont tous non significatifs c.-à-d. p-value >
Conditions d’arrêt de la croissance de l’arbre Développement de l’arbre complet: toutes les observations dans le nœud appartiennent à la même classe de la variable cible; il n’y a plus de variables explicatives X à considérer pour poursuivre la croissance de l’arbre; trop peu d’observations dans le nœud pour poursuivre.
L’élagage (pruning) L’arbre complet est le meilleur, en terme de taux d’erreur, pour prédire la variable cible, pour l’ensemble des données d’apprentissage! Qu’en est-il pour un nouvel ensemble de données? L’arbre complet n’est probablement pas la meilleure solution! Évaluer les sous-arbres: Utiliser un échantillon de validation. Utiliser la validation croisé.
Avantages des arbres de décision Règles simples et facilement interprétables. Traitement des valeurs manquantes. Aucun modèle et aucun présupposé à satisfaire.
Désavantages Peu performants lorsqu’il y a beaucoup de classes. Taux d’erreurs élevés lorsqu’il y a des régions non rectangulaires Peu faire de l‘overfit’ si on ne contrôle pas le nombre minimum d’observation par nœuds.
Construire un arbre à partir d’excel Nous pouvons générer un arbre manuellement à partir d’excel: On utiliser la fonction ‘pivot tables’ pour obtenir nous comptes On utilise les utilitaire graphiques d’excel. Exemple.