Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parAlphonse Bonin Modifié depuis plus de 6 années
1
Technologies de l’intelligence d’affaires Séance 12
Les Arbres de décision avec SAS Entreprise Miner Référence: « Tree Node » du « Help » de SAS EM
2
Types de variables acceptés par SAS EM
Variable cible (target) peut être: nominale, binaire, ordinale ou continue. Variables explicatives (input) peuvent être:
3
Partition des données SAS suppose qu’il y a une très grande quantité d’observations disponibles pour faire du data mining. Dans cette situation, l’ approche privilégiée pour construire, évaluer et sélectionner le modèle est de diviser l’ensemble de données en trois parties: Apprentissage (train) : pour construire le modèle; Validation : estimer les erreurs de prédiction ou classification afin de choisir le modèle; Test : évaluer la performance (estimation généralisée de l’erreur du modèle final sélectionné.
4
Critères de sélection des embranchements (splitting criterions)
Variable cible continue Test F Réduction de la variance ( ) Variable cible ordinale Entropie Gini Variable cible binaire ou nominale Chi-deux
5
Analyse de variance à un facteur … les sources de variabilité
Déviation totale se décompose en: déviation intra groupes: (à l’intérieur du nœud i ) déviation inter groupes: (entre les branches) Ainsi:
6
Tableau d ’ANOVA L’idée principale de l’analyse de la variance est de
décomposer la variabilité totale en différentes sources de variation. Généralement, on présente cette décomposition dans un tableau qu’on appelle Tableau d’ANOVA. Source de variation Sommes des carrées Degrés de libertés Carrés moyens Groupes (SSgr) k-1 MSgr=SSgr/(k-1) Erreur (SSE) N-k MSE=SSE/(N-k) Totale N-1
7
Nombre d’observations dans un nœud pour évaluer et sélectionner les embranchements
Par défaut, SAS utilise un échantillon aléatoire de 5000 observations (ou le nombre total d’observations dans le nœud si < 5000) pour chercher et déterminer un embranchement. Un nouvel échantillon de 5000 observations est utilisé pour chaque nœud dans la croissance de l’arbre. Il est possible de changer la taille de Le maximum possible est de L’échantillon est le plus équilibré possible par rapport à la distribution de la variable cible dans le nœud (ex si n=1000 pour cible 1 et n=10000 pour cible 2, alors les 1000 observations de la cible 1 seront dans l’échantillon et 4000 pour la cible 2) .
8
Méthodes d’évaluation des modèles
Si un fichier de validation est disponible, il sera alors utilisé pour l’évaluation et la sélection du modèle. Pour une variable cible binaire ou nominale, l’évaluation et la sélection du modèle peuvent être basées sur: Proportion des observations classées correctement. Profit moyen maximum ou perte moyenne minimum (si une matrice de décision est définie pour la variable cible -> target profile) Proportion bien classée, profit ou perte dans le premier 10, 25 ou 50%. Arbre avec le plus petit indice de Gini.
9
Élagage ou sélection des sous-arbres
À partir de l’arbre complet, SAS évalue tous les sous-arbres possibles et retient pour chaque nombre de feuilles possibles le meilleur sous-arbre basé sur la méthode d’évaluation choisie (Best assessment value). Par défaut, SAS choisit le sous-arbre ayant la plus grande valeur de performance pour les données de validation et le plus petit nombre de feuilles.
10
Traitement des valeurs manquantes dans SAS EM
Si la valeur de la variable cible est manquante, l’observation est ignorée dans les analyses (apprentissage, validation et test). Les valeurs manquantes pour une variable explicative (input) sont traitées comme une catégorie séparée (ou une même valeur inconnue si la variable est continue).
11
Exemple Une entreprise de services financiers offre à ses clients, qui ont un prêt hypothécaire avec elle, la possibilité d’avoir une marge de crédit. Dans le passé, plusieurs de ses clients ont obtenu et utilisé la marge de crédit et un bon pourcentage d’entre eux (environ 20%) ont eu des défauts de paiement. En utilisant des données géographiques, démographiques et financières, l’entreprise veut construire un modèle de prévision pour identifier les clients qui ont une forte probabilité d’être en défaut de paiement.
12
Exemple (voir fichier SAMPSIO.HEMQ)
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.