La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

Présentations similaires


Présentation au sujet: "R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)"— Transcription de la présentation:

1 R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
Résumé de base de données: Application à des données marketing bancaires R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)

2 Table des matières Présentation rapide du modèle SaintEtiQ pour le résumé de données Application à une base de données réelle: marketing bancaire Méthode d’exploitation des résumés pour la prise de décisions 2

3 Vue générale du modèle 3

4 Connaissances du domaine
Permet à l’utilisateur de définir un langage pour la description de ses données A chaque attribut est affecté une partition linguistique floue Exemple: Partition linguistique pour l’attribut revenu 4

5 Apprentissage Incrémental
Clustering conceptuel incrémental Optimisation locale : Mesure de la qualité de la partition (typicité et contraste) utilisée pour choisir le meilleur opérateur d’apprentissage Mise à jour de la description du contenu intensionnel du résumé 5

6 Opérateurs d’apprentissage
Tuple Candidat z3 z2 z1 z0 z0 z0 affectation z1 z2 z3 création z3 z2 z1 z0 z4 6

7 Opérateurs d’apprentissage
z3 z2 z1 z0 z3 z4 z0 z2 z1 fusion z2 z1 z0 z12 z11 éclatement z2 z12 z11 z0 7

8 Contenu intensionnel La description du contenu intensionnel des résumés est, pour chaque attribut, un ensemble flou de descripteurs linguistiques avec leurs supports relatifs Exemple : revenu = <raisonnable/0.9, modeste/0.7> Un processus de généralisation est possible en se basant sur les connaissances de domaine Exemple : <misérable/0.9, modeste/0.7> <faible/0.8> 8

9 Application réelle Présentation du jeux de données:
Données marketing du groupe CIC 33700 enregistrements 70 attributs (10 utilisés pour le résumé) 3 à 8 labels définis sur chaque attribut comme connaissance de domaine 9

10 Comportement dynamique

11 Hiérarchie finale Temps total d’exécution: 21 minutes
Tuples candidats traités : depuis les tuples originaux Nombre de feuilles : Pour un total de 1,036,800 modalités possibles Dépendant des connaissances de domaine 11

12 Vue d’ensemble des 8 premiers niveaux de la hiérarchie de résumés
Hiérarchie finale Vue d’ensemble des 8 premiers niveaux de la hiérarchie de résumés 12

13 Largeurs moyenne et maximum par niveau de la hiérarchie finale
Dépendant des paramètres (stratégie) 13

14 Méthode d’aide à la décision
Vue d’ensemble de la méthode: SQL Résultats de la requête Hiérarchie de résumés Liste de résumés Niveau le plus informatif 14

15 Information d’un niveau
Probabilité d’un tuple résultat d’être trouvé dans un résumé z: Entropie de la distribution de probabilité : 15

16 Méthode d’aide à la décision
Requête d’exemple Q: select CutomerID from DATA where Nombre_de_Libre_Choix_souscrits > 0 Q retourne 242 identifiant Information (1-Hl) par niveau de la hiérarchie: 16

17 Méthode d’aide à la décision
liste des résumés de niveau 6 : 512 résumés au niveau 6 60 résumés résultat de la requête 402 tuples candidats 2 résumés suffisent à couvrir plus de 50% des tuples candidats de la requête 17

18 Méthode d’aide à la décision
Contenu intensionnel du résumé R 18

19 Méthode d’aide à la décision
Interface utilisateur du système SaintEtiQ 19

20 Conclusion Nous avons présenté : Développements :
Modèle SaintEtiQ pour la génération de résumés Une expérimentation sur des données marketing réelles Une méthode pour l’exploitation des résumés dans une démarche d’aide à la décision Mise à jour en ligne des résumés Optimisation de certaines requêtes flexibles par l’utilisation des résumés Développements : 20


Télécharger ppt "R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)"

Présentations similaires


Annonces Google