La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.

Présentations similaires


Présentation au sujet: "Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en."— Transcription de la présentation:

1 Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en ligne (EDA 2007) Futuroscope-Poitiers, juin 2007 Ony Rakotoarivelo et Fadila Bentayeb Laboratoire ERIC - Université Lyon 2

2 2 Motivation schéma classique Hiérarchies statiques  Possibilités d’analyse limitée  Tendances inexplorées opérateur d’évolution basé sur la fouille de données schéma évolutif Hiérarchies dynamiques Extension des possibilités d’analyse Découverte de tendances

3 3 Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives

4 4 Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives

5 5 Les deux courants d’évolution de schéma Mise à jour de modèles Blaschka et al. DaWak 1999 Hurtado et al. ICDE 1999 Hurtado et al. DOLAP 1999 Pourrabas et al. DOLAP 1999 Favre et al. ICEIS 2007 Entrepôts de données temporels Bliujute et al. Technical report 1998 Vaisman et al. VLDB 2000 Morzy et al. ICEIS 2003 Morzy et al. DOLAP 2004

6 6 Evolution par mise à jour de modèles Dimension = graphe acyclique direct Sommet = niveau d’analyse Arête = lien d’agrégation Mise à jour Modification de la structure du graphe Conservation des propriétés de départ  Evolution non historisée All Niveau3 Niveau2 Niveau1 Niveau n

7 7 Modèles d’entrepôts temporels Schéma en étoile temporel Bliujute et al. Technical report 1998 Idée: Labéliser chaque instance d’un niveau d’analyse par un intervalle de temps TOLAP: Temporal OLAP Vaisman et al. VLDB 2000 Idée: Labéliser chaque lien d’agrégation par un intervalle de temps Versionnement Morzy et al. ICEIS 2003, DOLAP 2004 Idée: Effectuer les modifications sur une nouvelle version de l’entrepôt Labéliser chaque version par un intervalle de temps

8 8 Positionnement de notre approche par rapport à l’existant Opérateur Évolution Modèle temporel Blaschka et al.X Hurtado et al.X Pourrabas et al.X Vaisman et al.X Bliujute et al.X Morzy et al.X Favre et al.X Notre approche X Produit catégorie famille all Notre approche NOTRE SOLUTION Classification automatique Classe produit P1 P2 P3 p4 Classe1 Classe2 Produit Classe produit ?

9 9 Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives

10 10 Idée générale de l’approche Approche modulaire basée sur deux opérateurs Opérateur de classification Opérateur d’évolution de schéma connaissances Évolution de schéma classification automatique Quelle méthode de classification utiliser ?

11 11 Choix d’une méthode de classification Objectif de la classification Regrouper les individus similaires et séparer les individus dissemblables Les principales méthodes CAH: génère une hiérarchie de partitions Cartes de Kohonen: effectue une classification visuelle affichant la typologie d’une population sur une carte K-means: génère une partition à partir des centres de classe Critères de choix Format des classes: partition Complexité algorithmique: faible k-means Comment établir un lien d’agrégation avec les k-means ?

12 12 Établissement du lien d’agrégation All Famille Catég. produit Classe produit jupe robe short pantalon Générer la partition classifiant les instances du niveau de départ Jupe Robe Pantalon Short Classe 1 Classe 2 « Produit » « Classe produit » Un sous-ensemble dans la partition = une modalité du nouveau niveau Comment choisir les variables de classification ? Instances du niveau « produit »

13 13 Choix des variables de classification VENTES Produit Magasin Mois Qté vendue Montant Famille famille Catégorie Categ. Produit prix Option 1: utiliser les attributs du niveau source Ex: classifier les produits selon leur prix Jupe Robe Pantalon Short « produit » Option 2: combiner les attributs du niveau source avec les indicateurs Ex: classifier les produits par rapport aux ventes Jupe Robe Pantalon Short « produit » classe1 classe2 « Classe prix » Classe’1 Classe’2 « Classe vente » Classe vente Classe Desc. Classe prix Classe Desc.

14 14 Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives

15 15 Approche d’implémentation: fouille de données en ligne Choix technique Intégration des k-means au sein du SGBD Oracle Avantages Pas de limitation sur la taille de la base d’apprentissage (niveau source) Accès direct aux données via SQL Combinaison efficace k-means / OLAP Étapes de l’implémentation Programmation en PL/SQL des k-means Programmation en PL/SQL de l’opérateur d’évolution de schéma qui permet de créer les nouveaux niveaux d’analyse

16 16 Tests Entrepôt de données de test Table des faits: enregistrements Table de dimension « Produit »: 213 produits regroupés en 12 familles de produits Scénarii de test Scénario 1: regrouper les produits par prix Scénario 2: regrouper les produits sur les indicateurs (quantité vendue et chiffre d’affaire).

17 17 Résultats Individu atypique

18 18 Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives

19 19 Conclusion et perspectives Conclusion Définition d’un opérateur d’évolution de schéma en utilisant les k-means Combinaison OLAP et classification automatique Intégration des k-means dans le SGBD Oracle Perspectives Exploitation des règles d’association Intégration de connaissances utilisateurs Détection d’individus atypiques Opérateurs de suppression et de modification


Télécharger ppt "Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en."

Présentations similaires


Annonces Google