Télécharger la présentation
1
Knowledge discovery in Databases (KDD)
Extraction des connaissances à partir des données (ECD)
2
Plan de travail Introduction Le processus de KDD
Le concept de Data Mining Les tâches de Data Mining Les données utilisées en Data Mining Le processus de Data Mining Les techniques de Data Mining Les logiciels de Data Mining Étude de cas Conclusion
3
Introduction Les technologies de KDD et de Data Mining permettent de trouver dans des grandes BDDs des conaissances.
4
1. Le processus du KDD 1.1. Définition de KDD
1.2. Les étapes d’un processus de KDD
5
Les étapes de processus du KDD
6
2. Le concept de Data Mining
2.1. Définition 2.2. Les utilisations actuelles de Data Mining
7
3. Les tâches de Data Mining
3.1. La classification 3.2. L’estimation 3.3. La prédiction 3.4. Le regroupement par similitude 3.5. L’analyse des clusters 3.6. La description
8
4. Les données utilisées en Data Mining
4.1. Les données numériques 4.2. Les données textuelles
9
Tableau de données I X X1 X2 ……. XJ ……..XP 1 2 i n . ………… xij. ………...
10
4. Les données utilisées en Data Mining
4.1. Les données numériques 4.2. Les données textuelles
11
5. Le processus de Data Mining
5.1. phase 1: Poser le problème 5.2. phase 2: la recherche des données 5.3. phase 3: la sélection des données 5.4. phase 4: le nettoyage des données 5.5. phase 5: les actions sur les variables 5.6. phase 6: la recherche du modèle 5.7. phase 7: l’évaluation du résultat 5.8. phase 8: l’intégration de la connaissance
12
La validation par le test
Base d’exemples totale 70% % Base d’apprentissage Base de test modèle
13
5. Le processus de Data Mining
5.1. phase 1: Poser le problème 5.2. phase 2: la recherche des données 5.3. phase 3: la sélection des données 5.4. phase 4: le nettoyage des données 5.5. phase 5: les actions sur les variables 5.6. phase 6: la recherche du modèle 5.7. phase 7: l’évaluation du résultat 5.8. phase 8: l’intégration de la connaissance
14
6. Les techniques de Data Mining
6.1. L’apprentissage supervisé 6.2. L’apprentissage non supervisé
15
6.1. L’apprentissage supervisé
La régression Les arbres de décision Les algorithmes génétiques Les réseaux de neurones
16
Réseau de neurone
17
6.2. L’apprentissage non supervisé(clustering)
Les algorithmes de partitionnement Les algorithmes hiérarchiques
18
6.2.1. Les algorithmes de partitionnement
Méthode de K-means: Construire K classes non vides; Répéter Calculer le centre de chaque classe; Assigner chaque élément à la classe dont le centre est le plus proche; Jusqu’à la partition soit stable.
19
6.2.2. Les algorithmes hiérarchiques
Méthode agglomérative : Identifier les deux points les plus proches et les combinées en une classe; Considérer les classes comme des points; Identifier et combiner les deux points les plus proches; Si plus d’une classe subsiste revenir à 2.
20
Matrice de positionnement des logiciels
simples Les gammes de puissances complexes techniques de modélisation Intelligent miner SAS Décision séries Mineset 4thought Clementine Prédict K.seeker SPSS Alice Data mind Scenarie Utilisateurs compétence requise Experts
21
Étude de cas Objet: Identification de profils de clients et organisation d’une compagne de marketing direct.
22
Conclusion
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.