CONTENT-BOOSTED COLLABORATIVE FILTERING FOR IMPROVED RECOMMENDATIONS Prem Melville & Raymond J. Mooney & Ramadass Nagarajan Department of Computer Sciences University of Texas 2002
■Pour les Recommender Systems, on utilise: Collaborative Filtering (CF) Content-based methods (CB) Individuellement, chaque approche donne de mauvaises recommandations dans de certains cas Recommender Systems hybride : CF + CB Problématique
CF vs CB Collaborative Filtering (CF) collecter les votes pour les Items exploiter les similitudes & différences performant quand le contenu difficile à analyser recommander des Items qui sont pertinentes pour User, mais ne contiennent pas le contenu du profil de User
CF vs CB Content- based methods (CB) Contenu de Item Contenu intressant Difficile à comprendre pour les machines
CF vs CB ■On rencontre deux problèmes avec ces 2 modèles: Sparsity(des 0 dans la matrice) et First-rater(Item n’est recommandé que s’il était voté au passé).
Système IMDBEachMovieWebCrawler 7893 users 1461 films Détails des films Sparse User Ratings Matrix 97%: Sparcity de la matrice Movie Content DataBase CB Full User Ratings Matrix CF Recommandations
Pure Content-based Predictor ■Le Vote des Users est un label de 0 à 5. ■Les Détails des films sont supposés comme des documents textes. ■Utilise un classificateur de texte Bayésien (Mitchell 1997) pour apprendre le profil de User à partir des votes des films. ■L’apprentissage du profil de User permet de prédire les films non votés.
Pure Collaborative Filtering (1/2) ■Calcul du Coefficient de Corrélation de Pearson: ■Choix des voisins les plus proches. ■Calcul de la prédiction du User a pour l’Item i.
Pure Collaborative Filtering (2/2)
Content-Boosted Collaborative Filtering ■Création un vecteur de pseudo-votes pour chaque User. ■Tous les vecteurs de pseudo-votes de tous les Users sont regroupés dans la matrice de pseudo-votes. ■Si User a voté pour plusieurs Items => CB Predictions sont biens => V est plus précis. ■Sinon, on calcule le Harmonic Mean weighting (HM): Vote réel Prédiction Ni: nombre des Items votés par User i
Content-Boosted Collaborative Filtering (2/3) ■On calcule ensuite Hybrid Correlation Weight: ■On calcule après Self Weighting: Na est le nombre des items votés par User a. Max = 2
Content-Boosted Collaborative Filtering (3/3) ■Enfin, on calcule CBCF Prediction:
Méthodologie ■Comparaison du Content-Boosted Collaborative Filtering avec : Collaborative Filtering (CF) Content-based methods (CB) Hybride = CF + CB ■Choix de 10% des Users d’une manière aléatoire et on retient 25% des votes de chaque User et on les compare aux votes réelles des Users.
Matrices ■Matrice de précision statistique (Statistical Accuracy Metrics): comparer les prédictions avec les votes réels. Erreur Absolue Moyenne ■Matrice de support de Décision (Decision-support Metrics): aide à sélectionner Item de haute qualité (high quality items). Receiver Operator Characteristic (ROC)
Résultats
Discussion ■Sparsity: En CBCF, on crée la matrice de pseudo-votes réduction du problème de Sparsity. Sparsity affecte moins CBCF. ■First-rater: Si les voisins ont voté plus que User MAE du CBCF sera moins importante.
Choix des voisins ■Bons voisins = Bonnes prédictions ■S’il y a 2 Users qui ont le même gout et qui n’ont pas voté aux mêmes Items: ■Pour CF, ils ne sont pas similaires. ■Pour CBCF, ils sont similaires car leurs vecteurs de pseudo-votes sont corrélés. CBCF est plus performant que CF.
Conclusion ■Content-Boosted Collaborative Filtering(CBCF) est meilleur que Content- Based(CB) Predictor, Collaborative Filtering(CF), et leur hybride. ■CBCF a dépassé les problèmes de CF: Sparsity & First-rater. ■L’efficacité du système peut augmenter si CF et CB sont meilleurs.