DATA WAREHOUSE - DATA MINING Motivations et architecture Le multidimensionnel Le data mining La recherche de règles associatives Conclusion
1. OLTP versus OLAP 3 1
Explosion de l ’OLAP Facteurs économiques & technologiques 5 10 15 5 10 15 1994 1995 1996 1997 1998 1999 Milliards de $ Années 3
Motivations des entreprises Besoin des entreprises accéder à toutes les données de l’entreprise regrouper les informations disséminées dans les bases analyser et prendre des décisions rapidement (OLAP) Exemples d'applications concernées Bancaire : suivi des clients, gestion de portefeuilles mailing ciblés pour le marketing Grande distribution : marketing, maintenance, ... produits à succès, modes, habitudes d’achat préférences par secteurs géographiques Télécommunications : pannes, fraudes, mobiles, ... classification des clients, détection fraudes, fuites de clients, etc. Médecine, Pharmacie, Bourse, Production, … 2
L'approche entrepôt de données Datawarehouse Ensemble de données historisées variant dans le temps, organisé par sujets, consolidé dans une base de données unique, géré dans un environnement de stockage particulier, aidant à la prise de décision dans l’entreprise. Trois fonctions essentiels : collecte de données de bases existantes et chargement gestion des données dans l’entrepôt analyse de données pour la prise de décision 8
Architecture type Datawarehouse Présentation Analyse Client décisionnel Exploration Client décisionnel BD Entrepôt Médiateur Transformation, Fusion Extraction, Filtrage Moniteur/Adapteur Moniteur/Adapteur Source Moniteur/Adapteur BD Source Données opérationnelles BD source Données externes BD légataires 11
Datamart (Magasin de données) sous-ensemble de données extrait du datawarehouse et ciblé sur un sujet unique Bases multidimensionnelles Data Warehouse Bases de production Data Marts SGBD relationnel Outils d’alimentation Outils d ’extraction Bases relationnelles Bases externes
Bilan Entrepôt Le datawarehouse regroupe, historise, résume les données de l ’entreprise Le concepteur définit schéma exportés et intégrés des choix fondamentaux ! Ciblage essentiel ! Le datamart c’est plus ciblé et plus petit. Questions ? Peut-on ajouter des données au niveau de l ’entrepôt ?
2. Modélisation multidimensionnelle Dimensions: Temps Géographie Produits Clients Canaux de ventes..... Indicateurs: Nombre d’unités vendues CA Coût Marge..... 16
Le data cube et les dimensions Axe d'analyse: La géographie (Pays - région - ville) Variables analysées: Nb unités, CA, marge... Axe d'analyse: Les produits (classe, produit) Axes d'analyse: dimensions Variables analysées: indicateurs Axe d'analyse: Le temps (Année, trimestre, mois, semaine) 6 20
La granularité des dimensions Années Temps Jours Mois Trimestres Géographie Villes Régions Pays Produits Numéros Types Gammes Marques
La navigation multidimensionnelle Projection en 2 dimensions Coupe d ’un cube Produits Produits pour une région donnée CA CA Région Temps en semaines Réduction selon 1 dimension France Sud Marseille Nice Lyon Est Ouest Zoom selon une dimension Produits CA Temps en mois 13 30
Les vues d'un cube Partant d'un cube 3D, il est possible d'agréger selon une dimension tournante On obtient un treillis de vues (calculable en SQL) NumPro, NumFou, Date NumPro, Date NumPro, NumFou NumFou, Date NumPro NumFou Date
ROLAP versus MROLAP SGBD ROLAP SGBD MROLAP SQL+Cube SQL+Cube SQL Opérateurs décisionnels Cache Cube Analyseur Optimiseur SQL Analyseur Optimiseur Opérateurs décisionnels Opérateurs relationnels Opérateurs relationnels Cache SGBD Cache SGBD SGBD ROLAP SGBD MROLAP
Bilan OLAP La modélisation multidimensionnelle est adaptée à l ’analyse de données Le datacube est au centre du processus décisionnel transformation et visualisation 3D une algèbre du cube : Slice, Dice, Rollup, Drilldown Questions ? Combien de datacubes à partir de N variables ?
3. Qu ’est-ce-que le data mining ? ensembles de techniques d'exploration de données afin d'en tirer des connaissances (la substantifique moelle) sous forme de modèles présentées à l ’utilisateur averti pour examen Connaissances analyses (distribution du trafic en fonction de l ’heure) scores (fidélité d ’un client), classes (mauvais payeurs) règles (si facture > 10000 alors départ à 70%) Données entrepôt Connaissances Data mining Découverte de modèles Compréhension Prédiction 32
Domaines d'utilisation De plus en plus de domaines explosion des données historisées puissance des machines support Quelques domaines réputés Analyse de risque (Assurance) Marketing Grande distribution Médecine, Pharmacie Analyse financière Gestion de stocks Maintenance Contrôle de qualité
Mécanismes de base Déduction : base des systèmes experts schéma logique permettant de déduire un théorème à partir d'axiomes le résultat est sûr, mais la méthode nécessite la connaissance de règles Induction : base du data mining méthode permettant de tirer des conclusions à partir d'une série de faits généralisation un peu abusive indicateurs de confiance permettant la pondération 34
Découverte de modèles Description ou prédiction Confiance Entrées Apprentissage sur la base Utilisation pour prédire le futur Exemple : régression linéaire Y = a X + B Confiance Entrées Sortie
Méthode SEMMA (SAS) Sampling = Échantillonner Exploration = Explorer tirer un échantillon significatif pour extraire les modèles Exploration = Explorer devenir familier avec les données (patterns) Manipulation = Manipuler ajouter des informations, coder, grouper des attributs Modelling = Modéliser construire des modèles (statistiques, réseaux de neuronnes, arbres de décisions, règles associatives, …) Assessment = Valider comprendre, valider, expliquer, répondre aux questions
Principales Techniques Analyse statistique régression linéaire régression logistique réseaux baysiens Découverte de modèles fonctionnels fonctions probabilistes réseaux de neurones Segmentation K-moyennes Raisonnement à base de cas Classification arbres de décision réseaux d'agents
Règles associatives La découverte de règles découverte de relations plus fines entre données du style si X alors Y si Achat(Vin) alors Achat(Boursin) (10%, 15%) su Achat(Pain) & Achat(Fromage) alors Achat(Vin) (70%, 80%) Support : probabilité absolue P(XY) |XY|/ |BD| = % de transactions vérifiant la règle Confiance : probabilité conditionnelle P(Y/X) |XY|/|X| = % de transactions vérifiant l'implication = sup(XY) / sup(X) Comment extraire les règles intéressantes ? exemple : Supp.> 0.1 et Conf.> 0.7 comment optimiser les calculs d'indicateurs sur des VLDB?
Recherche des règles intéressantes Nécessité de calculer les supports de tous les produits => 1-ensemble fréquent de tous les ensembles suceptibles d ’être fréquents La confiance se déduit du support conf (X-->Y) = suup(X) / sup(XY) Un ensemble de taille k est appelé un k-ensemble. Un ensemble de support plus grand que minsup est fréquent. Tout k-ensemble fréquent est composé de (k-1)-ensembles fréquents en effet, un ensemble ne peut être fréquent si ses sous-ensembles ne le sont pas
Comment évaluer efficacement ? Réduire le nombre de passes (I/O) Réduire le temps CPU Nombreux algorithmes Apriori [Agrawal & Imielinski & Swami] Apriori-tid [Agrawal & Srikant] Partition[Savasete & Omseinski & Navatgr] Dynamic Counting [Brin & Ullman & Tsur] Bitmap [Gardarin & Pucheral & Fei] ...
Des règles plus générales Les règles multi-attributs : associent des valeurs d'attributs distincts telephone : Source = "New-York" => Cible ="Paris" (5%,30%) Les règles à attributs numériques : règles de la forme A[x,y] => C ou A est un attribut numérique et C une condition : il faut trouver x et y. exemple Age [x,y] => Salaire > 300 KF (5%,30%) x? y? Les règles négatives et/ou disjonctives : Expr(Ci) => Expr(Cj) avec ET, OU, NOT Les règles avec généralisation associée à une taxonomie
Les règles cycliques Les règles cycliques : Les patterns séquentiels : règles vérifiées périodiquement ex : tout les matins, café => sucre, gâteaux X=>Ycycle (l,o) signifie que X=>Y tous les l unités de temps en commençant au temps o. Les patterns séquentiels : séquence d’items similaire aux règles associatives mais l’ordre est important exemple : achat de chaussures, puis de pantalons, puis de chemises
5. Conclusion De nombreuses techniques d'exploration Les problèmes : La plupart ne passe pas à l'échelle limitées à quelques milliers d ’objets échantillonner puis valider Un bon outil doit proposer plusieurs techniques ! Les problèmes : Comment explorer de volumineuses bases de données ? L’index bitmap est intéressant pour les règles associatives Trouver d ’autres structures d ’indexation Maintenance incrémental des règles ? Exploration de types de données complexes ? Parallélisation des algorithmes ?
Quelques produits DataMind de Datamind SA Knowledge Seeker d'Angoss classification, modèles fonctionnels (agents), statistiques Knowledge Seeker d'Angoss statistiques, classification, arbres de décision SPSS Chaid et Neural Connection de SPSS statistiques, classification, réseaux de neurones MineSet de Silicon Graphics classification, visualisation de règles SAS de SAS Statistiques, arbres de décision, réseaux de neurones Intelligent Miner d'IBM, Clementine de Integral Solutions... 38
Les Data Trucs Database Datawarehouse Datamart Data mining Datacube entrepôt des données historisées de l'entreprise Datamart magasin de données ciblé sur un ou plusieurs sujets Data mining exploration des données afin de découvrir des connaissances Datacube cube de présentation d'unités selon 3 dimensions Datawebhouse entrepôt des données collectées sur le web 42
Le semi-treillis des ensembles Génération des règles Il suffit de retrouver les plus grands ensembles de support > MinSup puis d'en extraire les règles de confiance > MinConf ayant une condition maximale S'il n'y en a pas on descend le semi-treillis des ensembles fréquents et on itère. Possibilité de s'intéresser à un item particulier et d'explorer ses ancètres sur demande : ex : A=>{AB,AC}=>{ABC} 0,3% ABC AB AC BC BD A B C D 0,4% 0,6% 0,5% 0,7% 1% 2% 2% 1% Le semi-treillis des ensembles fréquents