Sujet : Étude de Data Mining en utilisant SAS:EM UNIVERSITE CATHOLIQUE DE LOUVAIN Année académique 2009 – 2010 STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Spinel Jean-Denis Mitskos Christina
Plan Objectif et méthodologie Les différents nodes Les différends modèles Résultats obtenu
Objectif: Target Modèles prédictifs Variables Pertinentes
Méthodologie :
Node : Input Data !!: Surentrainement Entrainement, Validation, Test Note: Cross-Validation ?
Node : Transform Variable
Node : Replacement Si binaire 0 Si !Finance Moyenne Sinon Tree Inputation
Node: Variable Selection Sans: Avec:
Node : Filter Outlier Sans: Avec
ModèleS Arbres de Décisions Régressions Logistiques Réseau de Neurone
Exemple : le Neural Network
Comparaison des modèle Tree Régression NN
Variables Significatives
Oversampling Tree Régression NN
Conclusion Meilleur modèle = NN Oversampling < Donnée brute ? Doute
Bibliographie TUFFERY (S.), Data Mining et statistique décisionnel, Paris, Technip, 2007, 366 p. http://www.stat.ucl.ac.be/cours/stat2350/SAS_EM_4_3.pdf http://www.stat.ucl.ac.be/cours/stat2350/SAS_EM_case_study_approach.pdf http://eric.univ-lyon2.fr/publications/files/TheseSimonMarcellin.pdf