Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en ligne (EDA 2007) Futuroscope-Poitiers, juin 2007 Ony Rakotoarivelo et Fadila Bentayeb Laboratoire ERIC - Université Lyon 2
opérateur d’évolution Motivation schéma évolutif Hiérarchies dynamiques Extension des possibilités d’analyse Découverte de tendances schéma classique opérateur d’évolution basé sur la fouille de données Hiérarchies statiques Possibilités d’analyse limitée Tendances inexplorées
Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives
Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives
Les deux courants d’évolution de schéma Mise à jour de modèles Blaschka et al. DaWak 1999 Hurtado et al. ICDE 1999 Hurtado et al. DOLAP 1999 Pourrabas et al. DOLAP 1999 Favre et al. ICEIS 2007 Entrepôts de données temporels Bliujute et al. Technical report 1998 Vaisman et al. VLDB 2000 Morzy et al. ICEIS 2003 Morzy et al. DOLAP 2004
Evolution par mise à jour de modèles Dimension = graphe acyclique direct Sommet = niveau d’analyse Arête = lien d’agrégation Mise à jour Modification de la structure du graphe Conservation des propriétés de départ All Niveau3 Niveau2 Niveau1 Niveau n Evolution non historisée
Modèles d’entrepôts temporels Schéma en étoile temporel Bliujute et al. Technical report 1998 Idée: Labéliser chaque instance d’un niveau d’analyse par un intervalle de temps TOLAP: Temporal OLAP Vaisman et al. VLDB 2000 Idée: Labéliser chaque lien d’agrégation par un intervalle de temps Versionnement Morzy et al. ICEIS 2003, DOLAP 2004 Idée: Effectuer les modifications sur une nouvelle version de l’entrepôt Labéliser chaque version par un intervalle de temps
Positionnement de notre approche par rapport à l’existant Produit catégorie famille all Notre approche Opérateur Évolution Modèle temporel Blaschka et al. X Hurtado et al. Pourrabas et al. Vaisman et al. Bliujute et al. Morzy et al. Favre et al. Notre approche Classe produit P1 P2 P3 p4 Classe1 Classe2 Produit ? NOTRE SOLUTION Classification automatique
Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives
Idée générale de l’approche Approche modulaire basée sur deux opérateurs Opérateur de classification Opérateur d’évolution de schéma Évolution de schéma classification automatique connaissances Quelle méthode de classification utiliser ?
Choix d’une méthode de classification Objectif de la classification Regrouper les individus similaires et séparer les individus dissemblables Les principales méthodes CAH: génère une hiérarchie de partitions Cartes de Kohonen: effectue une classification visuelle affichant la typologie d’une population sur une carte K-means: génère une partition à partir des centres de classe Critères de choix Format des classes: partition Complexité algorithmique: faible k-means Comment établir un lien d’agrégation avec les k-means ?
Établissement du lien d’agrégation Générer la partition classifiant les instances du niveau de départ All Famille Catég. produit Classe produit Jupe Robe Pantalon Short Classe 1 Classe 2 « Produit » « Classe produit » Un sous-ensemble dans la partition = une modalité du nouveau niveau jupe robe short pantalon Instances du niveau « produit » Comment choisir les variables de classification ?
Choix des variables de classification Option 1: utiliser les attributs du niveau source Ex: classifier les produits selon leur prix Famille famille « produit » classe1 classe2 « Classe prix » Catégorie Categ. Classe prix Classe Desc. Jupe Robe Pantalon Short Produit prix Classe vente Classe Desc. Option 2: combiner les attributs du niveau source avec les indicateurs Ex: classifier les produits par rapport aux ventes VENTES Produit Magasin Mois Qté vendue Montant « produit » Classe’1 Classe’2 « Classe vente » Jupe Robe Pantalon Short
Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives
Approche d’implémentation: fouille de données en ligne Choix technique Intégration des k-means au sein du SGBD Oracle Avantages Pas de limitation sur la taille de la base d’apprentissage (niveau source) Accès direct aux données via SQL Combinaison efficace k-means / OLAP Étapes de l’implémentation Programmation en PL/SQL des k-means Programmation en PL/SQL de l’opérateur d’évolution de schéma qui permet de créer les nouveaux niveaux d’analyse
Entrepôt de données de test Tests Entrepôt de données de test http://www.emode.com Table des faits: 89 200 enregistrements Table de dimension « Produit »: 213 produits regroupés en 12 familles de produits Scénarii de test Scénario 1: regrouper les produits par prix Scénario 2: regrouper les produits sur les indicateurs (quantité vendue et chiffre d’affaire).
Résultats Individu atypique
Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives
Conclusion et perspectives Définition d’un opérateur d’évolution de schéma en utilisant les k-means Combinaison OLAP et classification automatique Intégration des k-means dans le SGBD Oracle Perspectives Exploitation des règles d’association Intégration de connaissances utilisateurs Détection d’individus atypiques Opérateurs de suppression et de modification