Knowledge discovery in Databases (KDD) Extraction des connaissances à partir des données (ECD)
Plan de travail Introduction Le processus de KDD Le concept de Data Mining Les tâches de Data Mining Les données utilisées en Data Mining Le processus de Data Mining Les techniques de Data Mining Les logiciels de Data Mining Étude de cas Conclusion
Introduction Les technologies de KDD et de Data Mining permettent de trouver dans des grandes BDDs des conaissances.
1. Le processus du KDD 1.1. Définition de KDD 1.2. Les étapes d’un processus de KDD
Les étapes de processus du KDD
2. Le concept de Data Mining 2.1. Définition 2.2. Les utilisations actuelles de Data Mining
3. Les tâches de Data Mining 3.1. La classification 3.2. L’estimation 3.3. La prédiction 3.4. Le regroupement par similitude 3.5. L’analyse des clusters 3.6. La description
4. Les données utilisées en Data Mining 4.1. Les données numériques 4.2. Les données textuelles
Tableau de données I X X1 X2 ……. XJ ……..XP 1 2 i n . ………… xij. ………...
4. Les données utilisées en Data Mining 4.1. Les données numériques 4.2. Les données textuelles
5. Le processus de Data Mining 5.1. phase 1: Poser le problème 5.2. phase 2: la recherche des données 5.3. phase 3: la sélection des données 5.4. phase 4: le nettoyage des données 5.5. phase 5: les actions sur les variables 5.6. phase 6: la recherche du modèle 5.7. phase 7: l’évaluation du résultat 5.8. phase 8: l’intégration de la connaissance
La validation par le test Base d’exemples totale 70% 30% Base d’apprentissage Base de test modèle
5. Le processus de Data Mining 5.1. phase 1: Poser le problème 5.2. phase 2: la recherche des données 5.3. phase 3: la sélection des données 5.4. phase 4: le nettoyage des données 5.5. phase 5: les actions sur les variables 5.6. phase 6: la recherche du modèle 5.7. phase 7: l’évaluation du résultat 5.8. phase 8: l’intégration de la connaissance
6. Les techniques de Data Mining 6.1. L’apprentissage supervisé 6.2. L’apprentissage non supervisé
6.1. L’apprentissage supervisé 6.1.1. La régression 6.1.2. Les arbres de décision 6.1.3. Les algorithmes génétiques 6.1.4. Les réseaux de neurones
Réseau de neurone
6.2. L’apprentissage non supervisé(clustering) 6.2.1. Les algorithmes de partitionnement 6.2.2. Les algorithmes hiérarchiques
6.2.1. Les algorithmes de partitionnement Méthode de K-means: Construire K classes non vides; Répéter Calculer le centre de chaque classe; Assigner chaque élément à la classe dont le centre est le plus proche; Jusqu’à la partition soit stable.
6.2.2. Les algorithmes hiérarchiques Méthode agglomérative : Identifier les deux points les plus proches et les combinées en une classe; Considérer les classes comme des points; Identifier et combiner les deux points les plus proches; Si plus d’une classe subsiste revenir à 2.
Matrice de positionnement des logiciels simples Les gammes de puissances complexes techniques de modélisation Intelligent miner SAS Décision séries Mineset 4thought Clementine Prédict K.seeker SPSS Alice Data mind Scenarie Utilisateurs compétence requise Experts
Étude de cas Objet: Identification de profils de clients et organisation d’une compagne de marketing direct.
Conclusion