La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004.

Présentations similaires


Présentation au sujet: "ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004."— Transcription de la présentation:

1 ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004

2 Les 5 phases de mise à jour (ETL) 1. Vérification de la source 2. Altération de la source 3. Échange 4. Détermination de la cible de chargement 5. Aggrégation

3 Processus standard ETL (1) Source: www.cognos.com

4 Processus standard ETL (2) Source: www.cognos.com

5 Processus standard ETL (3) Source: www.cognos.com

6 Processus standard ETL (4) Source: www.cognos.com

7 Processus standard ETL (5) Source: www.cognos.com

8 Processus standard ETL (6) Source: www.cognos.com

9 Processus standard ETL (7) Source: www.cognos.com

10 Processus standard ETL (8) Source: www.cognos.com

11 Quest-ce que le Data Mining? Lextraction automatique dinformations prédictives cachées à partir de larges bases de données. « Data Mining as the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns from data »(Fayyad et al.(2000)) 11

12 Le forage de données fonctionne principalement avec… Arbres de décisions « Nearest Neighbor Classification » Réseaux neutres Règles dinduction K-means et analyses de groupement Adapté de : http://www.thearling.com/dmintro/dmintro_frame.htm

13 Plus spécifiquement avec … Neural networks are highly evolved systems that provide predictive modeling. These systems are very complex, and it takes time to train the system to perform human-like thinking. Induction is a data mining technique that induces rules inherent within the data. The rules are used to understand the relationships that exist. Statistics is the basis of all data mining techniques and requires individuals highly skilled in mathematics to build and interpret the results. Visualization displays the data in a graphical or three-dimensional map, thereby allowing the user to identify trends, patterns and relationships. 13 Source: www.dmreview.com

14 Les principales applications La personnalisation de sites Web La détection de fraude (carte de crédit) Lanalyse de texte (sas lie detector) « Market basket analysis » (bières et couches)

15 Les différents types danalyses Analyses statistiques Découverte de données/informations [knowledge discovery] Analyses et algorithmes à partir de la reconnaissance de pattern, réseau neutre. Applications spécialisées

16 Exemple dun logiciel Clementine de SPSS Source: www.SPSS.com

17 Exemple dun logiciel Source: www.SPSS.com

18 Exemple dun logiciel Source: www.SPSS.com

19 Exemple dun logiciel Source: www.SPSS.com

20 Exemple dun logiciel Source: www.SPSS.com

21 Exemple dun logiciel Source: www.SPSS.com

22 Exemple dun logiciel Source: www.SPSS.com

23 Bibliographie Livre Berson A., Smith S., Thearling K..Building Data Mining applications for CRM, Montréal, McGraw-Hill, 1999, 509 p. White paper Jenning, M. (2001), Strategies for Custom Data Warehouse ETL Processing. (document consulté en ligne le 26 octobre 2004), [en ligne], www.dmreview.com/article_sub.cfm?articleId=3603 Sites Web www.spss.com www.sas.com www.cognos.com www.thearling.com/dmintro/dmintro_frame.htm www.buzzle.com/editorials/text9-11-2004-59166.asp www.dmreview.com/article_sub.cfm?articleId=2582


Télécharger ppt "ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004."

Présentations similaires


Annonces Google