R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France) Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
Table des matières Présentation rapide du modèle SaintEtiQ pour le résumé de données Application à une base de données réelle: marketing bancaire Méthode d’exploitation des résumés pour la prise de décisions 2
Vue générale du modèle 3
Connaissances du domaine Permet à l’utilisateur de définir un langage pour la description de ses données A chaque attribut est affecté une partition linguistique floue Exemple: Partition linguistique pour l’attribut revenu 4
Apprentissage Incrémental Clustering conceptuel incrémental Optimisation locale : Mesure de la qualité de la partition (typicité et contraste) utilisée pour choisir le meilleur opérateur d’apprentissage Mise à jour de la description du contenu intensionnel du résumé 5
Opérateurs d’apprentissage Tuple Candidat z3 z2 z1 z0 z0 z0 affectation z1 z2 z3 création z3 z2 z1 z0 z4 6
Opérateurs d’apprentissage z3 z2 z1 z0 z3 z4 z0 z2 z1 fusion z2 z1 z0 z12 z11 éclatement z2 z12 z11 z0 7
Contenu intensionnel La description du contenu intensionnel des résumés est, pour chaque attribut, un ensemble flou de descripteurs linguistiques avec leurs supports relatifs Exemple : revenu = <raisonnable/0.9, modeste/0.7> Un processus de généralisation est possible en se basant sur les connaissances de domaine Exemple : <misérable/0.9, modeste/0.7> <faible/0.8> 8
Application réelle Présentation du jeux de données: Données marketing du groupe CIC 33700 enregistrements 70 attributs (10 utilisés pour le résumé) 3 à 8 labels définis sur chaque attribut comme connaissance de domaine 9
Comportement dynamique
Hiérarchie finale Temps total d’exécution: 21 minutes Tuples candidats traités : 55 724 depuis les 33700 tuples originaux Nombre de feuilles : 14 766 Pour un total de 1,036,800 modalités possibles Dépendant des connaissances de domaine 11
Vue d’ensemble des 8 premiers niveaux de la hiérarchie de résumés Hiérarchie finale Vue d’ensemble des 8 premiers niveaux de la hiérarchie de résumés 12
Largeurs moyenne et maximum par niveau de la hiérarchie finale Dépendant des paramètres (stratégie) 13
Méthode d’aide à la décision Vue d’ensemble de la méthode: SQL Résultats de la requête Hiérarchie de résumés Liste de résumés Niveau le plus informatif 14
Information d’un niveau Probabilité d’un tuple résultat d’être trouvé dans un résumé z: Entropie de la distribution de probabilité : 15
Méthode d’aide à la décision Requête d’exemple Q: select CutomerID from DATA where Nombre_de_Libre_Choix_souscrits > 0 Q retourne 242 identifiant Information (1-Hl) par niveau de la hiérarchie: 16
Méthode d’aide à la décision liste des résumés de niveau 6 : 512 résumés au niveau 6 60 résumés résultat de la requête 402 tuples candidats 2 résumés suffisent à couvrir plus de 50% des tuples candidats de la requête 17
Méthode d’aide à la décision Contenu intensionnel du résumé R.2.4.2.0.1.0 18
Méthode d’aide à la décision Interface utilisateur du système SaintEtiQ 19
Conclusion Nous avons présenté : Développements : Modèle SaintEtiQ pour la génération de résumés Une expérimentation sur des données marketing réelles Une méthode pour l’exploitation des résumés dans une démarche d’aide à la décision Mise à jour en ligne des résumés Optimisation de certaines requêtes flexibles par l’utilisation des résumés Développements : 20