La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Personnalisation de l information : une approche de gestion de profils et de reformulation de requêtes Soutenance de thèse de Doctorat Dimitre Kostadinov.

Présentations similaires


Présentation au sujet: "Personnalisation de l information : une approche de gestion de profils et de reformulation de requêtes Soutenance de thèse de Doctorat Dimitre Kostadinov."— Transcription de la présentation:

1 Personnalisation de l information : une approche de gestion de profils et de reformulation de requêtes Soutenance de thèse de Doctorat Dimitre Kostadinov UNIVERSITE DE VERSAILLES SAINT-QUENTIN-EN-YVELINES Versailles, le 19 Décembre 2007 ACCES PERSONNALISE A DES MASSES DE DONNEES

2 Dimitre Kostadinov 19/12/20072 Système dAccès aux Données Accès classique à un système dinformation multi sources Accès à un ensemble de sources de données distribuées, hétérogènes et autonomes Comment résoudre le problème de la surcharge dinformation ? Est-ce que les données sont récentes ? Est- ce je peux lire les fichiers avec mon ordinateur ? SELECT * FROM Publication WHERE sujet = JAVA

3 Dimitre Kostadinov 19/12/20073 Système dAccès aux Données Accès personnalisé à un système dinformation multi sources Accès à un ensemble de sources de données distribuées, hétérogènes et autonomes SELECT * FROM Publication WHERE sujet = JAVA JAVA: langage de programmation Fra î cheur < 1 mois Formats fichiers {PDF, PS}

4 Dimitre Kostadinov 19/12/20074 Cadre du travail: Projet APMD Objectifs du projet APMD ( ) –modélisation et évolution des profils, –exécution adaptative de requêtes, –influence de la qualité sur la personnalisation, –évaluation et la validation des approches proposées dans le projet. Partenaires –PRiSM (Versailles) –CLIPS-IMAG (Grenoble) –IRISA (Lannion) –IRIT (Toulouse) –LINA (Nantes) –LIRIS (Lyon) Prolongé par une collaboration avec Alcatel-Lucent …

5 Dimitre Kostadinov 19/12/20075 Plan Contexte Contributions –Modélisation de lutilisateur (définition de la notion de profil) –Exploitation du profil dans la reformulation de requêtes Evaluations Conclusions et perspectives

6 Partie 1 Modélisation de lutilisateur

7 Dimitre Kostadinov 19/12/20077 Modèle utilisateur ? Centré sur plusieurs notions dont les définitions sont floues –Profil –Contexte –Préférences Chaque application possède –Son propre modèle utilisateur –Sa propre approche daccès personnalisé Référence (s)Modèle utiliséProposition (Chomicki 02)formules de préférencesOpérateur Best (Borzsonyi et al. 01)clause SkylineOpérateur Skyline (Kießling 02)opérateurs supportant des préférences Preference SQL (Ciro et al. 04)mots clés pondéréssimilarité entre profil et documents (Sorensen et al. 95)séquences de termesFiltrage des articles de Usenet News (Cherniack et al. 03)fonctions d'utilitéCaches personnalisés (Koutrika et al. 04b), (Acqua et al. 02), (Gaasterland et al. 94) préférences à la clause de Hornenrichissement requêtes (Koutrika et al. 04, 05)ensemble de prédicats pondérésEnrichissement de requêtes (Cranor et al. 03) (P3P) 3 catégories dattributs : démographiques, professionnelles, de comportement Sécurité des données (Amato et al. 99)4 catégories de connaissances: données personnelles, données collectées, données de livraison, données de comportement Accès à une librairie digitale

8 Dimitre Kostadinov 19/12/20078 Notion de préférence Préférence –expressions permettant de hiérarchiser les concepts auxquels on sintéresse Typologie des préférences PréférenceSimplePréférenceComposée Binaire Unitaire IndépendantePrioritaire compose 1..n 0..n Préférence Ensembliste

9 Dimitre Kostadinov 19/12/20079 Exemples Préférences simples –Unitaire : poids Film.genre=action 0.8 –binaire : >> action >> drame –Ensembliste : LOWEST LOWEST(prix) Préférences Composées –indépendante (action >> drame) (anglais >> français) –prioritaire & (action >> drame) & (anglais >> français)

10 Dimitre Kostadinov 19/12/ Dichotomie profil/contexte Profil –ensemble dinformations décrivant les centres dintérêt de lutilisateur, plus un ensemble de préférences Contexte –description de lenvironnement dinteraction entre lutilisateur et le système Profil Contexte Contextualisation

11 Dimitre Kostadinov 19/12/ Meta modèle du profil utilisateur Dimension IDdimension nom Profil IDprofil propriétaire SousDimension IDsousDimension nom Attribut IDattribut nom typeValeur structureValeur ValeurAttribut IDvaleur valeur 1..n 0..n 1..n DonnéesLivraison DomaineIntérêt Qualité DonnéesPersonnelles Sécurité < TypeDe

12 Dimitre Kostadinov 19/12/ DomaineIntérêt Ontologie GrapheConceptuel 1..n VecteurMotsCles 1..n LienSém 1..n n Historique Concept FormulesDisj ListeExemples Action entre Axiome 1..n ConjPrédicats Prédicat 1..n ValeurAttribut opérateur n Contenu concerne n Domaine dintérêt Exemple 1..n 0..n n

13 Dimitre Kostadinov 19/12/ Exemples Exemple 1 : mots clés Profil de Paul Dim: Domaine dIntérêt (film, action, drame, Bruce Willis, anglais) Exemple 2 : ontologie Profil de Paul Dim: Domaine dIntérêt Film Genre actiondrame Casting Bruce Willis Langue anglais Exemple 3 : prédicats Profil de Paul Dim: Domaine dIntérêt Film.genre=action Film.genre=drame Acteur.nom=Bruce Willis Film.langue=anglais Exemple 4 : historique Profil de Paul Dim: Domaine dIntérêt FilmAction Armageddonvu annonce, téléchargé Titanicrecommandé à un ami Shrekvu annonce

14 Dimitre Kostadinov 19/12/ Contexte DimensionContexte TemporelleSpatiale MatérielLogiciel 1..n MobileFixe DateMoment LocalitéCoordonné Equipement 0..1 Méta modèle de contexte TypeDe > < TypeDe Rapport technique [Abbar et al. 07]

15 Dimitre Kostadinov 19/12/ Exemples Contexte Maison Temporelle moment Equipement taille écran système bande passante Contexte Bureau Temporelle date Spatiale coordonnée GPS Equipement taille écran bande passante

16 Dimitre Kostadinov 19/12/ Liens entre les méta modèles Préférence de Contexte Préférence de Profil Elément Contexte Préférence Elément Profil ContextualiséSelon > DéfiniSur > TypeDe > ContextualiséSelon > Contexte 0..n1..n 0..n < TypeDe DéfiniSur > < DéfiniSur

17 Dimitre Kostadinov 19/12/ Exemple Profil de Paul Données personnelles téléphone = si contexte Maison si contexte Bureau Contexte Maison Temporelle moment Equipement taille écran système bande passante Contexte Bureau Temporelle date Spatiale coordonnée GPS Equipement taille écran bande passante si contexte Maison {Film.genre=dessin animé Film.genre=comédie Film.langue=français } si contexte Bureau Domaine dIntérêt {Film.genre=action Film.genre=drame Acteur.nom=Bruce Willis Film.langue=anglais }

18 Dimitre Kostadinov 19/12/ Plateforme de gestion des méta données Implémente –Les méta modèles –Les opérations sur les méta modèles Composants –Gestionnaire de profils –Gestionnaire de contextes –Gestionnaire de préférences

19 Dimitre Kostadinov 19/12/ – Validation – Intégration – Adaptation Bilan Clarification des notions de profil et de contexte –approche multidimensionnelle Support à la définition des notions de profil et contexte –manuel ou automatique Ensemble dopérations de manipulation –instanciation –appariement –Importation

20 Partie 2 Exploitation du profil utilisateur pour la reformulation de requêtes

21 Dimitre Kostadinov 19/12/ Objectif Proposer une méthode de reformulation de requêtes qui tient compte de –la distribution de linformation –profil utilisateur SOURCE 1SOURCE 2SOURCE 3 SOURCE n LIENS SEMANTIQUES SCHEMA VIRTUEL Réécritures enrichies {Q 1, Q 2, …, Q m } Pu Q Reformulation

22 Dimitre Kostadinov 19/12/ Hypothèses de base Profil –ensemble de prédicats pondérés Requêtes –conjonctives du type SPJ Définition des sources –vues sur le schéma virtuel (LAV) Problèmes terminologiques résolus

23 Dimitre Kostadinov 19/12/ Problématique Reformulation des requêtes utilisant le profil –quelle partie du profil est pertinente à ajouter à une requête ? métrique de couverture – quelle partie du schéma virtuel est nécessaire pour couvrir le profil sélectionné ? recherche dun sous-ensemble de relations virtuelles et des chemins de jointures les reliant –quelles sources de données sont les plus appropriées pour la réécriture des requêtes ? matching des attributs, identification de prédicats conflictuels, redondants Définition de benchmarks dévaluation –à la compilation –à lexécution

24 Dimitre Kostadinov 19/12/ Insuffisance des techniques de base Réécriture (Halevy et al. 96), (Duschka et al. 97), (Halevy et al. 01), … –prend en compte laspect multi source (réécriture à travers des vues) –mais ne tient pas compte du profil utilisateur Enrichissement (Koutrika et al. 04, 05) –prend en compte le profil utilisateur (ajout de prédicats dans la requête) –mais ne tient pas compte des mappings multi sources (pas de réécriture) Les 2 techniques sont complémentaires

25 Dimitre Kostadinov 19/12/ Enrichissement Pu Qu Réécriture Qu {Schémas Sources} {Qu} Schéma Virtuel Première approche : composition des techniques de base Enrichissement-réécriture R ( E ) Réécriture-enrichissement E ( R ) Enrichissement PuQu Réécriture {Qu} {Schémas Sources}

26 Dimitre Kostadinov 19/12/ Limites des approches séquentielles Approche R ( E )Approche E ( R ) Avantages + prend en compte tous les prédicats du profil non conflictuels avec ceux de la requête + tient compte des définitions des sources pour la sélection des prédicats du profil utilise uniquement des prédicats pertinents Inconvénients - peut utiliser des prédicats qui a) ne peuvent pas être réécrits b) sont déjà satisfaits pas lensemble des définitions des sources - impossibilité dexprimer certains prédicats du profil sur les sources choisies

27 Dimitre Kostadinov 19/12/ Deuxième approche : réécriture de requêtes guidée par le profil Idées directrices –confronter le profil utilisateur et le schéma virtuel sous ensemble de prédicats sous-schéma virtuel –sélectionner les relations virtuelles sur la base de préférence (taux de prédicats pertinents) étendre la requête avec les relations choisies –faire une réécriture personnalisée ne produire que les réécritures enrichissables

28 Dimitre Kostadinov 19/12/ Principe général Expansion de la requête profil utilisateur requête utilisateur Schéma Virtuel Enrichissement final sources pertinentes réécritures Schémas des sources de données requête utilisateur reformulée requête étendue Identification des sources pertinentes Combinaison des sources pertinentes

29 Dimitre Kostadinov 19/12/ Etape 1: Expansion de la requête Principe général Profil Schéma virtuel R1 R3 R2 R4 R6 R5 Qu Match R1 R3 R2 R4 R3 R2 Ordonnancement Ajout à Q Qu

30 Dimitre Kostadinov 19/12/ Problématique de lexpansion de la requête Identification des relations sémantiquement liées à la requête Recherche des chemins de jointure entre la requête et les relations virtuelles Choix des chemins de jointure Minimisation du nombre de nouvelles relations

31 Dimitre Kostadinov 19/12/ Principe dexpansion 1. Actualisation des poids des prédicats 2. Choix des relations virtuelles 3. Ajout des relations virtuelles à la requête

32 Dimitre Kostadinov 19/12/ Principe dexpansion 1. Actualisation des poids des prédicats –Prise en compte de la distance entre les relations de la requête et les autres relations virtuelles Fonction de la distance entre la requête et la relation sur laquelle est exprimé le prédicat 2. Choix des relations virtuelles 3. Ajout des relations virtuelles à la requête Hypothèse : = 0.8 R3.a=x 0.5 nw = = R5 R6 R7 R8 R1R2 R3 R4 Qu

33 Dimitre Kostadinov 19/12/ Principe dexpansion 1. Actualisation des poids des prédicats 2. Choix des relations virtuelles –somme des pertinences des relations choisies > (seuil de la portée pertinente) –pertinence dune relation = couverture pondérée du profil utilisateur par les prédicats exprimés sur la relation 3. Ajout des relations virtuelles à la requête R5 R6 R7 R8 5% 32% 40% 20% R1R2 R3 R4 3% Objectif : Satisfaire au moins 90% du profil utilisateur ( = 0.9) Il faut étendre Qu avec {R3, R4 }R3,R4 Qu R4R3R6R5R1 92% 0% 40% 32%20%5%3%

34 Dimitre Kostadinov 19/12/ Il faut étendre Qu avec {R3, R4 }R3,R4 1ere itération : Plus courts chemins : R1-R6-R3 R2-R7-R3 R2-R8-R4 5% 0% 2e itération: Plus courts chemins : R3-R4 Ajout de R3 Ajout de R4 Principe dexpansion 1. Actualisation des poids des prédicats 2. Choix des relations virtuelles 3. Ajout des relations virtuelles à la requête –Minimiser le nombre de nouvelles relations (Steiner Tree Problem (Hwang et al. 1992)) –Utiliser une heuristique (Minimum Cost Paths Heuristic (Takahashi et al. 1980)) R5 R6 R7 R8 5% 32% 40% 20% R1R2 R3 R4 3% Qu

35 Dimitre Kostadinov 19/12/ Etape 2: identification des sources pertinentes Expansion de la requête profil utilisateur requête utilisateur Schéma Virtuel Enrichissement final sources pertinentes réécritures Schémas des sources de données requête utilisateur reformulée requête étendue Identification des sources pertinentes Combination des sources pertinentes

36 Dimitre Kostadinov 19/12/ Objectif Trouver les sources permettant de calculer les résultats de la requête –sources contributives pour la réécriture de la requête Choisir les sources les plus pertinentes –enrichissables par les prédicats du profil utilisateur

37 Dimitre Kostadinov 19/12/ Problèmes à résoudre Trouver les sources contributives –contenant des données de même nature que celles recherchées par la requête –satisfaisant les prédicats de la requête Sélections Jointures Elagage des sources non pertinentes –introduction dune métrique de pénalité

38 Dimitre Kostadinov 19/12/ Principe de lidentification des sources pertinentes Recherche des sources contributives pour la réécriture de la requête construction dun ensemble de descripteurs de sources (MCDs) (type MiniCon Halevy et al. 2001) Filtrage des sources –pénalité dune source (MCD) > seuil de pénalité Couverture pondérée du profil par les prédicats exclus par la source –Conflictuels avec la définition de la sources –Inexprimables sur la source

39 Dimitre Kostadinov 19/12/ Qu(idV, prix, lieu_depart, moyen, comfort) :- voyage(idV, prix, lieu_depart, lieu_arrivee, nbre_jours, idT, idH), transport(idT, moyen, type_trajet, comfort), hotel(idH, nbre_etoiles, nom, region, lieu_depart, idR) lieu_arrivee='Madrid. (1) (2) (3) Exemple didentification des sources pertinentes Pénalité(ParisVacances) = CP(Pu, {a, b}) = 0.43 ParisVacances(idV, prix, lieu_depart, lieu_arrivee, idT):- VOYAGE(idV, prix, nbre_jours, lieu_depart, lieu_arrivée, idT, idH), lieu_depart = Paris. Profil utilisateur Pu { VOYAGE.nbre_jours>7 1.0 (a) VOYAGE.lieu_depart=Toulouse 0.8 (b) TRANSPORT.moyen='avion 0.5 (c) HOTEL.nbre_etoiles>3 0.4 (d) TRANSPORT.comfort>2 0.4 (e) VOYAGE.lieu_depart = Paris0.2 (f) HOTEL.region=centre ville 0.2 (g) RESTO.catégorie=gastronomique 0.1 (h) } Source contributive pour la relation VOYAGE ?

40 Dimitre Kostadinov 19/12/ Etape 3: Combinaison des descripteurs Expansion de la requête profil utilisateur requête utilisateur Schéma Virtuel Enrichissement final sources pertinentes réécritures Schémas des sources de données requête utilisateur reformulée requête étendue Identification des sources pertinentes Combination des sources pertinentes

41 Dimitre Kostadinov 19/12/ Problématique de la combinaison de sources Problème combinatoire Compatibilité des sources (MCDs) Pertinence des réécritures par rapport au contenu du profil utilisateur

42 Dimitre Kostadinov 19/12/ IDSourceContributive pour aHOTELSDUMONDE Hotel bPARISVACANCES Voyage,Hotel cLYONVACANCES Voyage dLYONVACANCES Hotel eSNCF Transport fTRANSPORTAERIEN Transport gVOYAGERPARTOUTTransport abac adaeafag Seuil de pénalité = 0.5 acegbdf Relations de la requête étendue : { VOYAGE, TRANSPORT, HOTEL } bcbd bebfbg cgcfcedfdg efegfg de acfacg Redondantes : ab, ad, bc, bd, ef, eg, fg Pénalité > seuil : be, cd, ce Réécritures : bf, bg, acf, acg cd Solution proposée Utiliser un algorithme par niveaux (Apriori (Agrawal et al. 94)) –Élaguer les combinaisons de MCDs ayant une grande pénalité –La pénalité est monotone

43 Dimitre Kostadinov 19/12/ Etapes de lalgorithme Expansion de la requête profil utilisateur requête utilisateur Schéma Virtuel Enrichissement final sources pertinentes réécritures Schémas des sources de données requête utilisateur reformulée requête étendue Identification des sources pertinentes Combination des sources pertinentes

44 Dimitre Kostadinov 19/12/ Enrichissement final Objectif –Ajouter les prédicats du profil aux réécritures candidates Etape préparé par les étapes précédentes –Connaissance des prédicats exclus déduction des prédicats à utiliser –Connaissance des définitions des sources Identification des prédicats déjà satisfaits par les sources Principe –Ajout de la conjonction des prédicats du profil à la requête

45 Dimitre Kostadinov 19/12/ Exemple denrichissement final RW(idV, prix, lieu_depart, moyen, comfort):-, nbre_etoiles>3, comfort>2 Profil utilisateur { VOYAGE.nbre_jours>7 1.0 (a) VOYAGE.lieu_depart=Toulouse 0.8 (b) TRANSPORT.moyen='avion 0.5 (c) HOTEL.nbre_etoiles>3 0.4 (d) TRANSPORT.comfort>2 0.4 (e) VOYAGE.lieu_depart = Paris0.2 (f) HOTEL.region=centre ville 0.2 (g) RESTO.catégorie=gastronomique 0.1 (h) } HOTEL.nbre_etoiles>3 0.4 (d) TRANSPORT.comfort>2 0.4 (e) Conflictuels avec Qu Pas considérés lors de lexpansion Exclus par les sources (pénalité) Déjà satisfaits par les sources A ajouter TransportAerien(idT, comfort), moyen = avion lieu_arrivee='Madrid, nbre_jours=4 ParisVacances(idV, prix, lieu_depart, lieu_arrivee, nbre_jours, moyen, nom, nbre_etoiles, idT), lieu_depart = Paris

46 Dimitre Kostadinov 19/12/ Plan Contexte Contributions –Modélisation de lutilisateur (définition de la notion de profil) –Exploitation du profil dans la reformulation de requêtes Evaluations Conclusions et perspectives

47 Dimitre Kostadinov 19/12/ Evaluation des approches de reformulation de requêtes Proposition dun benchmark –Construction dune plateforme de données (Peralta 2007) –Dérivation dun benchmark à partir de la plateforme Définition de métriques dévaluation –Niveau compilation des requêtes –Niveau exécution des requêtes

48 Dimitre Kostadinov 19/12/ Plateforme des tests Principe de construction Caractéristiques Données IMDb Données MovieLens Extraction Nettoyage et réconciliation des données BD int é gr é e Génération de requêtes et de profils Profils Requêtes Bons r é sultats Schéma cible Nombre de tables dans la BD intégrée52 Nombre de films3 881 Nombre dévaluations de films Nombre dutilisateurs6 040 Nombre de requêtes générées6 041 Nombre de profils générés référentiel de résultats pertinents pour chaque couple (profil, requête)

49 Dimitre Kostadinov 19/12/ Etapes de construction du benchmark Caractéristiques Benchmark des tests Simulation du système distribué Choix des requêtes et des profils Choix des paramètres Profils Requêtes Bons r é sultats BD int é gr é e Schéma cible Schéma virtuel Requêtes de médiation Sources Profils et Requêtes retenus Schéma virtuel49 relations Sources52 dont 23 contiennent des prédicats de sélection Échantillon de requêtes13 requêtes Échantillon de profils15 profils Valeur du seuil de pénalitéDe 0 à 0.5 pour portée pertinente = 0.5 Valeur de la portée pertinenteDe 0.1 à 0.7 pour seuil de pénalité = 0.3 Système distribué

50 Dimitre Kostadinov 19/12/ Métriques dévaluation Niveau compilation –Couverture des prédicats du profil Couverture pondérée –Temps de réponse de la reformulation Niveau exécution –Rappel nombre de résultats pertinents obtenus / nombre total de résultats pertinents –Précision nombre de résultats pertinents obtenus / nombre total de résultats obtenus

51 Dimitre Kostadinov 19/12/ Résultats des tests au niveau compilation Couverture du profil utilisateur Temps de réponse R/PR/P R(E)R(E) E(R)E(R)

52 Dimitre Kostadinov 19/12/ Intervalle de Rappel en % R/PR/PR(E)R(E) E(R)E(R) [50, 60)2,3% [60, 70)10,4% [70, 80)11,6%0,4% [80, 90)56,8%0,4% [90, 100)8,5%52,5%5,0% 10010,4%46,7%95,0% Gain de précision par rapport à MiniCon R/PR/PR(E)R(E) E(R)E(R) [8, 10)2,3% [6, 8)7,3% [4, 6)11,2% [2, 4)25,1% [0, 2)22,8%29,0%6,9% 00,8%34,0%88,0% (0,-2]20,8%37,1%5,0% (-2, -4]7,3% (-4, -6]2,3% Résultats des tests au niveau exécution Rappel Précision ApprochePourcentage de cas où elle a obtenu la meilleure précision R/PR/P 69,5 % R(E)R(E) 21,2 % E(R)E(R) 19,3 % MiniCon19,7 %

53 Dimitre Kostadinov 19/12/ Position par rapport aux travaux similaires Enrichissement de requêtes (Koutrika et al. 04, 05) –calcul de préférences implicites (expansion) –travail au niveau des prédicats –pas de distribution de linformation Réécriture de requêtes –algorithme MiniCon (Halevy et al. 01) recherche de toutes les réécritures candidates possibles pas dexpansion de la requête pas de prise en compte du profil utilisateur –choix des sources à base de critères de qualité (Naumann et al. 98) filtrage de sources à base de facteurs de qualité pas dexpansion de la requête –calcul des top K chemins de navigation entre sources (Vidal et al. 06) chaque source est assimilée à un concept PB : trouver un chemin dune source à une autre

54 Dimitre Kostadinov 19/12/ Plan Contexte Contributions –Modélisation de lutilisateur (définition de la notion de profil) –Exploitation du profil dans la reformulation de requêtes Evaluations Conclusions et perspectives

55 Dimitre Kostadinov 19/12/ Conclusion Modélisation des connaissances décrivant lutilisateur –Méta modèles de profil, contexte et préférences –Gestionnaire des méta modèles Exploitation du profil utilisateur pour la reformulation de requêtes –Définition et analyse de deux approches séquentielles –Algorithme de réécriture guidé par le profil utilisateur Evaluation des approches de reformulation de requêtes –Niveau compilation –Niveau exécution

56 Dimitre Kostadinov 19/12/ Perspectives Calcul dautres résultats que ceux de la requête initiale –Relâcher les prédicats de la requête initiale Faire un enrichissement au niveau des sources –sources multi relations Prise en compte dautres dimensions du profil –choix des sources en fonction de la qualité Prise en compte dautres types de préférences –Préférences sous forme dordres partiels

57 Dimitre Kostadinov 19/12/ Questions ?


Télécharger ppt "Personnalisation de l information : une approche de gestion de profils et de reformulation de requêtes Soutenance de thèse de Doctorat Dimitre Kostadinov."

Présentations similaires


Annonces Google