Content-Boosted Collaborative Filtering for Improved Recommendations Présenté par Abderrahim KHALIFA Automne 2018 Cours des systèmes de recommandations
INTRODUCTION La plupart des systèmes de recommandation utilisent soit le filtrage collaboratif ou les méthodes basées sur le contenu pour prédire l'intérêt d’un utilisateur. Malgré que les deux méthodes ont leurs avantages, séparément ils ne donnent pas des recommandations satisfaisantes. L'Article propose un système de recommandation hybride en incorporant des composants des deux méthodes qui permettra de surmonter ces limitations. https://www.sysgsoft.com/Services-AIBasedRecommendationEngine.html
PLAN INTRODUCTION COLLABORATIVE FILTERING VS CONTENT BASED RECOMMENDING COLLABORATIVE FILTERING LIMITS CONTENT-BOOSTED COLLABORATIVE FILTERING Domain overview System overview Pure Content-based Predictor Pure Collaborative Filtering Content-Boosted Collaborative Filtering ÉVALUATION EXPÉRIMENTALE CONCLUSION
COLLABORATIVE FILTERING VS CONTENT BASED RECOMMENDING Dans le CF on recueillit les feedbacks des utilisateurs sous la forme d'évaluations numeriques et exploite les similaritées et les différences entre les profils de plusieurs utilisateurs pour déterminer comment recommander un élément. D'autre part, les méthodes basées sur le contenu fournissent des recommandations en comparant les représentations de contenu d’un item contre celui qui intéresse l'utilisateur. Il est bien a noter que le CB peut caractériser un utilisateur de façon unique; pourtant le CF a bcp plus utilisé: CF est valable dans des domaines où le contenu associé à des éléments est limité ou lorsque le contenu est difficile à analyser pour un ordinateur. Du coup, le CF peut recommander des éléments pertinents pour l'utilisateur, sans que le profil de l'utilisateur ait du contenu.
COLLABORATIVE FILTERING SPARSITY FIRST-RATER PROBLEM Cependant, ils souffrent de deux problèmes fondamentaux: Sparsity: - un utilisateur n’évalue pas la majorité des items. - la probabilité de trouver un groupe d’utilisateurs avec des évaluations communes est faible. - Le système vient d’être instauré Un item ne peut être recommandé que lorsqu’il est évalué par au moins un seul utilisateur. (le cas d’un nv item)
CONTENT-BOOSTED COLLABORATIVE FILTERING Domain Overview System Overview Pure Content-based Predictor Pure Collaborative Filtering Content-Boosted Collaborative Filtering User-Movie rating database Les évaluations vont de 0 (aversion extrême) jusqu’à 5 (grande appréciation) 7,893 utilisateurs x 1461 films 299k évaluation Nombre moyen de votes par utilisateur est 38 La matrice de votes est 97% sparse
CONTENT-BOOSTED COLLABORATIVE FILTERING Domain Overview System Overview Pure Content-based Predictor Pure Collaborative Filtering Content-Boosted Collaborative Filtering
CONTENT-BOOSTED COLLABORATIVE FILTERING Domain Overview System Overview Pure Content-based Predictor Pure Collaborative Filtering Content-Boosted Collaborative Filtering bag-of-words naive Bayesian text classifier 1 2 3 4 5
CONTENT-BOOSTED COLLABORATIVE FILTERING For a User j Movie 1 Movie 2 . Movie n Title, Description, Nb.reviews, Comments, category, director… R1j R2j . Rnj Domain Overview System Overview Pure Content-based Predictor Pure Collaborative Filtering Content-Boosted Collaborative Filtering . bag-of-words naive Bayesian text classifier Movie n+1 Movie n+2 . Movie n+m Title, Description, Nb. reviews, Comments, category, director… ? . .
CONTENT-BOOSTED COLLABORATIVE FILTERING Domain Overview System Overview Pure Content-based Predictor Pure Collaborative Filtering Content-Boosted Collaborative Filtering
CONTENT-BOOSTED COLLABORATIVE FILTERING Domain Overview System Overview Pure Content-based Predictor Pure Collaborative Filtering Content-Boosted Collaborative Filtering
CONTENT-BOOSTED COLLABORATIVE FILTERING Harmonic Mean Weighting Domain Overview System Overview Pure Content-based Predictor Pure Collaborative Filtering Content-Boosted Collaborative Filtering Self Weighting sg : donner un poids plus important aux user qui ont plus de items co-evalués hm: pour devaluer les coefs de corr pour les users qui ont un nombre faible de votes Producing Predictions
ÉVALUATION EXPÉRIMENTALE Aspect Modulaire: une amélioration dans l’une des composantes du système peut augmenter de façon significative la performance global du système.
Conclusion Trouver de meilleurs voisins Utilisation des algorithmes d’apprentissage supervisé pour le CB Utilisation de clustering pour le CF
FIN