Technologies de l’intelligence d’affaires Séance 11 Les Arbres de décision
Références: Tree Node du Help de EM Berry et Linoff, chapitre 12 Han et Kamber, chapitre 7, section 7.3.
Les arbres de décision Les arbres de décision sont utilisés pour la prédiction ou l’explication d’une variable cible (target variable, variable dépendante) à partir d’un ensemble de variables explicatives (input variables, variables indépendantes) Le principe des arbres de décision est de diviser l’ensemble des données d’apprentissage successivement en sous-groupes, selon les valeurs prises par les variables explicatives qui à chaque étape discrimine le mieux la variable cible.
Le résultat est un ensemble de règles simples qui permettent de réaliser des prévisions, de segmenter la population ou d’identifier qu’elles sont les variables qui discriminent le plus la variable cible.
Exemple
Exemple d’un arbre de décision Achat:Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Age:>40 Non=2 Oui=3
Achat: Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Étudiant=non Non=3 Oui=0 Étudiant=oui Non=0 Oui=2
Achat: Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Crédit=bon Non=0 Oui=3 Crédit=exc. Non=2 Oui=0 Étudiant=non Non=3 Oui=0 Étudiant=oui Non=0 Oui=2
Algorithmes les plus répandus pour construire les arbres de décision: CHAID Chi-Square Automatic Interaction Detection (1975) CART Classification And Regression Trees (Breiman et al., 1984) ID3, C4.5 et C5.0 (Quinlan, 1986 et 1993)
CHAID La variable cible (target) est nominale ou ordinale. Si elle est continue, elle doit être recodée en classes. La variable cible correspond par définition au sommet de l’arbre (nœud racine). Les variables explicatives (input) continues doivent être recodées en classes.
Algorithme CHAID Pour chaque nœud de l’arbre: Pour chacune des variables explicatives X, jumelage des modalités à partir du test du chi-carré. Après le jumelage des modalités pour chaque X, Sélection de la variable X la plus fortement lié avec la variable cible Y, c.-à-d. p-value du test du chi-carré le plus petit. Pour chaque nœud fils suivant, reprise des étapes a) et b) Le processus s’arrête lorsque à tous les nœuds de l’arbre, les tests du chi-deux entre les variables X et Y sont tous non significatifs c.-à-d. p-value >
Algorithme CHAID Exemple: voir fichier CHAID.pdf
CART La variable cible peut être nominale, ordinale ou continue. Les variables explicatives peuvent être nominales ou continues. Les variables explicatives ordinales sont traitées comme continues. Tous les embranchements sont binaires (binary splits).
CART Le choix de la variable explicative pour un embranchement à partir d’un nœud se fait en considérant tous les embranchements binaires possibles pour toutes les variables explicatives, étant donné les données dans le fichier d’apprentissage. Exemple: 215 cas X 19 variables = maximum de 4085 embranchements possibles.
Comment choisir la «meilleure» variable explicative pour un embranchement? On utilise un indice de diversité. Un indice de diversité élevé indique une distribution uniforme des classes, tandis qu’un indice bas signifie que les membres d’une seule classe prédominent. La « meilleure » variable explicative est celle qui provoque la plus grande baisse de diversité dans les données, ou le plus grand gain informationnel (measure of worth).
Indices de diversité Supposons que la variable cible a K classes. Gain informationnel = I(nœud) -
Conditions d’arrêt de la croissance de l’arbre Développement de l’arbre complet: toutes les observations dans le nœud appartiennent à la même classe de la variable cible; il n’y a plus de variables explicatives X à considérer pour poursuivre la croissance de l’arbre; trop peu d’observations dans le nœud pour poursuivre.
Mesurer le taux d’erreur À la fin du processus de croissance de l’arbre, chaque cas du fichier d’apprentissage est alloué à une feuille. Pour chaque feuille (et nœud) de l’arbre, on assigne une classe, celle avec la proportion la plus élevée d’observations dans la feuille. Le taux d’erreur dans une feuille est égale à (1 – proportion d’observations bien classés). Le taux d’erreur de l’arbre de décision entier est la somme pondérée des taux d’erreurs des feuilles.
L’élagage (pruning) L’arbre complet est le meilleur, en terme de taux d’erreur, pour prédire la variable cible, pour l’ensemble des données d’apprentissage! Qu’en est-il pour un nouvel ensemble de données? L’arbre complet n’est probablement pas la meilleure solution! Évaluer les sous-arbres: Utiliser un échantillon de validation. Utiliser la validation croisé.
C5.0, C4.5, ID3 Très semblable à CART. Utilise Entropie comme indice de diversité. Les embranchements ne sont pas contraints à être binaire. L’élagage est basé sur les données d’apprentissage.
Avantages des arbres de décision Règles simples et facilement interprétables. Traitement des valeurs manquantes. Aucun modèle et aucun présupposé à satisfaire.
Désavantages Peu performants lorsqu’il y a beaucoup de classes. Taux d’erreurs élevés lorsqu’il y a des régions non rectangulaires