Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.

Slides:



Advertisements
Présentations similaires
Produit Gammes Nomenclatures Modules Techniques Prix de Revient Prix de Vente Modules Techniques Client Marges Mise en route Temps Unitaire Prix (Ex:
Advertisements

1 1 Projet doption Réalité Virtuelle Simulation dun habitat domotisé Florent Renault Xiaoyu Gao Mercredi 27 mai 2009.
Soutenance du stage de DEA.
Treuil IRD Abdelwahed FSSM-Marrakech
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Applications de GdX Coordinateur thématique : Christophe Cérin
Regroupement (clustering)
Regroupement (clustering)
RECONNAISSANCE DE FORMES
1 / 18 ePhotoBOOK – Un album photo interactif IHM01 – 2007/2008 ePhotoBOOK Un album photo interactif Olivier BENSE Mathieu FABRE Julien GRAND-MOURCEL Hugo.
Delphine FOSSAT CAP GEMINI ERNST&YOUNG division ITMI
JXDVDTEK – Une DVDthèque en Java et XML
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
Thème « Modélisation comportementale des Systèmes critiques »
Journée de Travail Groupe “Bermudes”
Ordonnancement des mouvements de deux robots
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Safae LAQRICHI, Didier Gourc, François Marmier {safae
Analyse des proximités, des préférences et typologie
Copyright © 2004, SAS Institute Inc. All rights reserved. Processus Stockés SAS une perspective analytique Sylvain Tremblay SAS Canada 25 avril 2006.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Référentiel des constructions universitaires
Sélection automatique d’index et de vues matérialisées
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
Un système de médiation basé sur les ontologies
Initiation au système d’information et aux bases de données
Initiation au système d’information et aux bases de données
Contrôles d'accès aux données
Eléments d ’algèbre relationnelle
Plugin B pour JEdit Matthias Meusburger Antoine Acquaviva
Principes de persistance dans les applications orienté objet
Initiation aux bases de données et à la programmation événementielle
Projet de Compilation Manuel VACELET, Jean Pierre CAURIER, Gaël COLLE,
Méthode des k plus proches voisins
Introduction - Modèle Discret – Modèle Continu - Algorithmes - Conclusion
SCIENCES DE L ’INGENIEUR
Équations Différentielles
1 Du pixel à lobjet : méthodes stochastiques X. Descombes Projet Ariana Orféo, 14 juin 2005.
Courbes de Bézier.
Universté de la Manouba
Article présentée par : Étudiante en 2ème année mastère F.S.T. Tunisie
Riadh Ben Messaoud Kamel Aouiche Cécile Favre
Cours de Base de Données & Langage SQL
Modèle d’entrepôt de données à base de règles
Les outils du data management
La gestion par activités (ABM)
Projet de Master première année 2007 / 2008
Méthode de modélisation multidimensionnelle
Découverte de correspondances entre ontologies distribuées
MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS
1 Choix d’une méthode de programmation participative pour l’élaboration du Plan régional de santé publique dans le Nord - Pas-de-Calais E. VERITE, C. LAHOUTE,
1 Modèle pédagogique d’un système d’apprentissage (SA)
Classification automatique
30 Janvier 2002 Club SEE 63 "Systèmes Informatiques de Confiance" 1 Vérification de spécification de logiciel critique Jean-Louis Boulanger RATPEST/ITF/AQL.
Nouvelles technologies de système de fichiers dans Microsoft Windows 2000 Salim Shaker Ingénieur de support technique Support technique serveur Microsoft.
Deux sujets traités La segmentation d’images
Séminaire 10 Juin 2008 Pervasive Learning Network : P-LearNet Institut TELECOM.
Consommations d’antibiotiques.… en questions Quelles données ? Quelles données ? –Origine ? –Modalités de recueil ? Quels résultats ? Quels résultats.
Supports de formation au SQ Unifié
EG01 - Ergonomie 1 Le portail de recherche cartographique Soutenance finale Vincent GUYONGM02 Nordin MIMOUNIGM05.
La technologie en 6ème Quelles compétences à acquérir ?
GOUVERNANCE ET DEMARCHE QUALITE
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Modèles Mathématiques et représentation discrètes pour la description des images couleur Luc Brun.
Ventes - Comptabilité clients
Réunion GafoDonnées: Equipe SIG/IRIT 24/25 janvier 2002
Intégration des Tableaux Multidimensionnels en Pig pour
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Cours 11 Entrepôts de données
Transcription de la présentation:

Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en ligne (EDA 2007) Futuroscope-Poitiers, juin 2007 Ony Rakotoarivelo et Fadila Bentayeb Laboratoire ERIC - Université Lyon 2

opérateur d’évolution Motivation schéma évolutif Hiérarchies dynamiques  Extension des possibilités d’analyse  Découverte de tendances schéma classique opérateur d’évolution basé sur la fouille de données Hiérarchies statiques  Possibilités d’analyse limitée  Tendances inexplorées

Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives

Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives

Les deux courants d’évolution de schéma Mise à jour de modèles Blaschka et al. DaWak 1999 Hurtado et al. ICDE 1999 Hurtado et al. DOLAP 1999 Pourrabas et al. DOLAP 1999 Favre et al. ICEIS 2007 Entrepôts de données temporels Bliujute et al. Technical report 1998 Vaisman et al. VLDB 2000 Morzy et al. ICEIS 2003 Morzy et al. DOLAP 2004

Evolution par mise à jour de modèles Dimension = graphe acyclique direct Sommet = niveau d’analyse Arête = lien d’agrégation Mise à jour Modification de la structure du graphe Conservation des propriétés de départ All Niveau3 Niveau2 Niveau1 Niveau n  Evolution non historisée

Modèles d’entrepôts temporels Schéma en étoile temporel Bliujute et al. Technical report 1998 Idée: Labéliser chaque instance d’un niveau d’analyse par un intervalle de temps TOLAP: Temporal OLAP Vaisman et al. VLDB 2000 Idée: Labéliser chaque lien d’agrégation par un intervalle de temps Versionnement Morzy et al. ICEIS 2003, DOLAP 2004 Idée: Effectuer les modifications sur une nouvelle version de l’entrepôt Labéliser chaque version par un intervalle de temps

Positionnement de notre approche par rapport à l’existant Produit catégorie famille all Notre approche Opérateur Évolution Modèle temporel Blaschka et al. X Hurtado et al. Pourrabas et al. Vaisman et al. Bliujute et al. Morzy et al. Favre et al. Notre approche Classe produit P1 P2 P3 p4 Classe1 Classe2 Produit ? NOTRE SOLUTION Classification automatique

Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives

Idée générale de l’approche Approche modulaire basée sur deux opérateurs Opérateur de classification Opérateur d’évolution de schéma Évolution de schéma classification automatique connaissances Quelle méthode de classification utiliser ?

Choix d’une méthode de classification Objectif de la classification Regrouper les individus similaires et séparer les individus dissemblables Les principales méthodes CAH: génère une hiérarchie de partitions Cartes de Kohonen: effectue une classification visuelle affichant la typologie d’une population sur une carte K-means: génère une partition à partir des centres de classe Critères de choix Format des classes: partition Complexité algorithmique: faible k-means Comment établir un lien d’agrégation avec les k-means ?

Établissement du lien d’agrégation Générer la partition classifiant les instances du niveau de départ All Famille Catég. produit Classe produit Jupe Robe Pantalon Short Classe 1 Classe 2 « Produit » « Classe produit » Un sous-ensemble dans la partition = une modalité du nouveau niveau jupe robe short pantalon Instances du niveau « produit » Comment choisir les variables de classification ?

Choix des variables de classification Option 1: utiliser les attributs du niveau source Ex: classifier les produits selon leur prix Famille famille « produit » classe1 classe2 « Classe prix » Catégorie Categ. Classe prix Classe Desc. Jupe Robe Pantalon Short Produit prix Classe vente Classe Desc. Option 2: combiner les attributs du niveau source avec les indicateurs Ex: classifier les produits par rapport aux ventes VENTES Produit Magasin Mois Qté vendue Montant « produit » Classe’1 Classe’2 « Classe vente » Jupe Robe Pantalon Short

Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives

Approche d’implémentation: fouille de données en ligne Choix technique Intégration des k-means au sein du SGBD Oracle Avantages Pas de limitation sur la taille de la base d’apprentissage (niveau source) Accès direct aux données via SQL Combinaison efficace k-means / OLAP Étapes de l’implémentation Programmation en PL/SQL des k-means Programmation en PL/SQL de l’opérateur d’évolution de schéma qui permet de créer les nouveaux niveaux d’analyse

Entrepôt de données de test Tests Entrepôt de données de test http://www.emode.com Table des faits: 89 200 enregistrements Table de dimension « Produit »: 213 produits regroupés en 12 familles de produits Scénarii de test Scénario 1: regrouper les produits par prix Scénario 2: regrouper les produits sur les indicateurs (quantité vendue et chiffre d’affaire).

Résultats Individu atypique

Plan État de l’art Approche Mise en oeuvre Conclusion et perspectives

Conclusion et perspectives Définition d’un opérateur d’évolution de schéma en utilisant les k-means Combinaison OLAP et classification automatique Intégration des k-means dans le SGBD Oracle Perspectives Exploitation des règles d’association Intégration de connaissances utilisateurs Détection d’individus atypiques Opérateurs de suppression et de modification