ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004
Les 5 phases de mise à jour (ETL) 1. Vérification de la source 2. Altération de la source 3. Échange 4. Détermination de la cible de chargement 5. Aggrégation
Processus standard ETL (1) Source:
Processus standard ETL (2) Source:
Processus standard ETL (3) Source:
Processus standard ETL (4) Source:
Processus standard ETL (5) Source:
Processus standard ETL (6) Source:
Processus standard ETL (7) Source:
Processus standard ETL (8) Source:
Quest-ce que le Data Mining? Lextraction automatique dinformations prédictives cachées à partir de larges bases de données. « Data Mining as the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns from data »(Fayyad et al.(2000)) 11
Le forage de données fonctionne principalement avec… Arbres de décisions « Nearest Neighbor Classification » Réseaux neutres Règles dinduction K-means et analyses de groupement Adapté de :
Plus spécifiquement avec … Neural networks are highly evolved systems that provide predictive modeling. These systems are very complex, and it takes time to train the system to perform human-like thinking. Induction is a data mining technique that induces rules inherent within the data. The rules are used to understand the relationships that exist. Statistics is the basis of all data mining techniques and requires individuals highly skilled in mathematics to build and interpret the results. Visualization displays the data in a graphical or three-dimensional map, thereby allowing the user to identify trends, patterns and relationships. 13 Source:
Les principales applications La personnalisation de sites Web La détection de fraude (carte de crédit) Lanalyse de texte (sas lie detector) « Market basket analysis » (bières et couches)
Les différents types danalyses Analyses statistiques Découverte de données/informations [knowledge discovery] Analyses et algorithmes à partir de la reconnaissance de pattern, réseau neutre. Applications spécialisées
Exemple dun logiciel Clementine de SPSS Source:
Exemple dun logiciel Source:
Exemple dun logiciel Source:
Exemple dun logiciel Source:
Exemple dun logiciel Source:
Exemple dun logiciel Source:
Exemple dun logiciel Source:
Bibliographie Livre Berson A., Smith S., Thearling K..Building Data Mining applications for CRM, Montréal, McGraw-Hill, 1999, 509 p. White paper Jenning, M. (2001), Strategies for Custom Data Warehouse ETL Processing. (document consulté en ligne le 26 octobre 2004), [en ligne], Sites Web