Technologies de l’intelligence d’affaires Séance 14 Les réseaux de neurones avec SAS Entreprise Miner
Référence: « Help » de SAS EM Neural Network Node: Reference Neural Network Node: Usage Predictive Modeling Target Profiler Assessment Node
Partition des données: Apprentissage - Validation - Test Bishop (1995, p. 372): "Since our goal is to find the network having the best performance on new data, the simplest approach to the comparison of different networks is to evaluate the error function using data which is independent of that used for training. Various networks are trained by minimization of an appropriate error function defined with respect to a training data set. The performance of the networks is then compared by evaluating the error function using an independent validation set, and the network having the smallest error with respect to the validation set is selected. This approach is called the hold out method. Since this procedure can itself lead to some overfitting to the validation set, the performance of the selected network should be confirmed by measuring its performance on a third independent set of data called a test set."
Traitement des valeurs manquantes dans SAS EM Si la valeur de la variable cible ou d’une variable explicative (input) est manquante, l’observation est ignorée dans la modélisation des réseaux de neurones et la validation. Donc, pour comparer la performance des réseaux de neurones avec celle des arbres de décision, il faut remplacer les valeurs manquantes des variables explicatives par des valeurs imputées. Pour ce faire, utiliser le nœud « Replacement » dans SAS EM.
Transformations des données Transformations: la transformation des variables explicatives n’est pas aussi importante pour les réseaux de neurones que pour les modèles de régression linéaire ou logistique. Elles peuvent par contre aider à la généralisation et à la rapidité d’entraînement des réseaux. La transformation de la variable cible est aussi importante pour les réseaux de neurones que pour les modèles de régression (ex. changement de l’importance relative des erreurs).
Données aberrantes (outliers) Il faut porter une attention particulière aux données aberrantes car elles peuvent grandement influencer l’estimation des paramètres du modèles et donc les valeurs prédites.
Standardisation des variables La standardisation des variables explicatives continues est importante pour: améliorer la rapidité d’entraînement des réseaux; réduire le risque d’être pris dans le voisinage d’un minimum local. Par défaut SAS utilise la méthode « standard deviation » c-à-d soustrait la moyenne et divise par l’écart type.
Autres considérations pour le choix et l’évaluation des modèles « Prior Propabilities » « Target Profiler »
Exemple Une entreprise de services financiers offre à ses clients, qui ont un prêt hypothécaire avec elle, la possibilité d’avoir une marge de crédit. Dans le passé, plusieurs de ses clients ont obtenu et utilisé la marge de crédit et un bon pourcentage d’entre eux (environ 20%) ont eu des défauts de paiement. En utilisant des données géographiques, démographiques et financières, l’entreprise veut construire un modèle de prévision pour identifier les clients qui ont une forte probabilité d’être en défaut de paiement.
Exemple (voir fichier SAMPSIO.HEMQ)