Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc Boullé Françoise Fessant,Fabrice Clérot Université Sidi Mohamed ben Abdellah Faculté des Sciences et Techniques Fès France Télécom R&D, avenue Pierre Marzin, Lannion
Introduction Le modèle CRISP-DM Automatisation de la phase de préparation de données La phase de déploiement Experimentation Conclusion et perspective 2
3 Comment exploiter au maximum, les informations dans un entrepôt de données ?
4 C’est une méthode mise à l’ épreuve sur le terrain permettant d’orienter les travaux du data-mining, ainsi de créer un modèle adapté à nos besoins. De quoi il s’agit ?
5 Compréhension métier : Déterminer les objectives commerciaux. Evaluater de la situation. Déterminer les objectives du Data Mining. Produire d'un plan du projet. Compréhension des données : Collecte des données initiales Description des données Exploration des données Vérification de la qualité des données Préparation des données : Sélection des données Nettoyage des données Construction de nouvelles données Modélisation des données : Sélection des techniques de modélisation. Génération d'une conception de test. Création des modèles. Evaluation de modèles. Evaluation des données : Evaluation de résultats Processus de révision Détermination des étapes suivantes Déploiement : Planification du déploiemnt Planification de surveillance et maintenance Production de rapport final Exécution d'une révision de projet final
6 Les logiciels utilisés pour l’analyse statistiques: SAS : ( Statistical Analysis System ) SPSS : ( Statistical Package for the Social Sciences ) Le nombre de variables explicatives est limité. La mise à plat de données relationnelles
7 Destiné à compléter les solutions analytiques avancées de SAP, « Predictive Analysis », un plan de travail pour la définition, l'exécution et la visualisation de l'analyse prédictive. C’est un fournisseur leader de la technologie d'analyse prédictive pour les utilisateurs et les analystes line-of-business. Technologie KXEN :
8 Les données permettant de construire les variables explicatives sont stockées dans une base de données relationnelle simple, le data folder.Les variables explicatives sont construites et sélectionnées automatiquement en fonction de l'étude menée. Le modèle de données du data folder permet d'assurer une normalisation des différentes sources de données qui seront toujours présentées sous la forme d'un schéma en étoile. Architecture de traitement :
9 La table principale est la table client
10 Sélection des représentations : L’approche enveloppe L’approche filtre L’approche MODL(Minimum Optimized Description Length) ( Kohavi et John, 1997 )
11 L’approche MODL : Une méthode robuste et rapide utilisée pour sélectionner la meilleur représentation
12 Cas de variable numérique : Cas de variable catégorielle :
13 Exemples : Largeur de sépale : (cas numérique) Discrétisation MODL de la variable largeur de sépale en trois intervalles pour la classification de la base Iris en trois classes.
14 Exemples : Couleur : (cas catégoriel) Groupement de valeurs MODL de la variable couleur de chapeau pour la classification de la base Mushroom en deux classes
15 Sélection des parangons: La table des parangons contient les individus représentatifs des variables explicatives utilisées par le modèle.
16 Algorithme : Deterministic Reservoir Sampling (Akcan et al 2006) : 1.Le réservoir est initialisé par les K premières instances rencontrées. 2.Pour p allant de K à P : une instance est choisie dans une fenêtre de recherche de taille M de manière à minimiser C(p) le critère de qualité de l'échantillon. la fenêtre est ensuite décalée de L instances de manière à obtenir un échantillon de taille P lorsque la table complète de taille N sera parcourue, avec L = (N-M)/P.
17 Analyse des données de de clients du groupe France Télécom sur un passé récent entre janvier et juin 2005, avec et sans cette technologie afin de mesurer la fiabilité de notre approche
18 Courbe de gain des différents modèles pour la résiliation ADSL
19