Neighborhood-based recommendation methods S. Wang & A. Mayers 1 Thème 5: Systèmes de recommandation
Définition (1) 2 Un système de recommandations aide les utilisateurs sans expérience personnelle suffisante à faire un choix parmi un ensemble d’items.
Définition (2) 3 Un système de recommandations est un programme qui tente de prédire les articles (films, musique, livres, nouvelles, pages web) auxquels s’intéresserait un utilisateur et dessiner son profil. Souvent, cette fonction est exécutée par des algorithmes de filtration collaborative.
Définition (3) 4 L'objectif d'un système de recommandations est d'aider les utilisateurs à faire leurs choix dans un domaine où ils disposent de peu d'informations pour trier et évaluer les alternatives possibles ( Shardanand et al., 1995; Resnick et al., 1997; Konstant 1997 ).
Définition des buts un SR 5 prédire l’évaluation d’un utilisateur pour un nouvel item en se basant sur l’historique des autres utilisateurs à propos d’items similaires. suggérer à un utilisateur des items dont l’évaluation par cet utilisateur sera élevée.
Histoire des systèmes de recommandations 6 Avec le développement de l’Internet, les systèmes de recommandations sont devenus un champ d’études considérable depuis l’apparition des premiers textes portant sur la filtration collaborative au milieu des années 90 (Hill et al., 1995; Resnick et al., 1994; Shardanand et al., 1995). Pendant ces vingt dernières années, les industries tout autant que les instituts de recherche se sont consacrés à l’étude de ces systèmes dans le but d’en élaborer de nouvelles approches.
Histoire des systèmes de recommandations 7 Les premières études sur les systèmes de recommandations ont pris naissances lors de recherche sur des sujets proches dans des domaines comme : Extraction d’information (Salton, 1989) Théories de prévisions (Armstrong, 2001), Modélisation du choix du consommateur dans le marketing (Lilien Lilien, 1992). Sciences administratives (Murthi, 2003)
Éléments fréquents de l’interface des systèmes de recommandations 8 La navigation : Lorsqu’un client demande un item spécifique, le système de recommandations fournit un interface pour l’acquérir (prix et conditions selon les magasins) ; Article semblable : Le système de recommandations propose à la clientèle des items susceptibles de l’intéresser en se référant à ceux de son panier d’achats ; Courriels électroniques : Le système de recommandations offre à la clientèle des informations relatives aux items de son champ d’intérêt au moyen des courriels électroniques ; Commentaires : Le système de recommandations fournit aux clients les commentaires des autres clients sur un ou plusieurs items spécifiques ; La moyenne pondérée : Le système de recommandations affiche aux clients l’évaluation des autres portant sur des items spécifiques ; Top-N : Le système de recommandations suggère au client N items d’une catégorie susceptibles de le séduire ; Résultats de recherche ordonnés: Le système de recommandations énumère tous les résultats de recherche et les classe suivant l’intérêt de sa clientèle.
Utilités commerciales des SR 9 Convertir les navigateurs en des acheteurs ; Augmenter les achats dans les sites électroniques ; Renforcer la fidélité de la clientèle envers les sites électroniques.
Recueil des données pour un système de recommandation 10 La cueillette des données provenant du groupe de clients visés peut se faire explicitement ou implicitement. Les deux méthodes se nomment respectivement : La navigation explicite. La navigation implicite.
Recueil des données : navigation explicite 11 Lors de la navigation explicite, le système demande explicitement les préférences du client. Exemples : Demander à un utilisateur d’évaluer un article (ou des aspects de ce dernier) avec des échelle de préférence ; Demander à un utilisateur de classer les articles en ordre de préférence ; Présenter deux articles à un utilisateur et lui demander celui qu’il préfère ; Demander à un utilisateur de faire la liste de ses articles favoris.
Recueil des données : navigation implicite 12 Lors de la navigation implicite, le système infère les préférences du client et souvent à son insu. Exemples : Observer les articles qu’un utilisateur consulte dans un magasin en ligne ; Prendre en note les articles qu’un utilisateur a acheté sur Internet ; Obtenir une liste des articles qu’un utilisateur a observé sur son poste de travail.
Type des données recueillies 13 scalaire : numérique ou ordinal nommé aussi « rating » (p. ex. le nombre d’étoiles) binaire : like/dislike, interested/not interested binaire asymétrique : interaction de l’utilisateur avec un item (ex. achat, online access) sans encoder explicitement son appréciation pour cet item.
Résultats présentés au client 14 Les plus courants sont : Une suggestion ne spécifiant pas un item précis ; Un item unique ; Une liste non ordonnée d’items ; Une liste ordonnée d’items ; Une prédiction : Une évaluation globale du système pour un item ; Les évaluations individuelles : Les évaluations des autres clients pour un item ; Les critiques : Les critiques textuels des autres utilisateurs.
Amazon 15
expedia (1) 16
expedia (2) 17
itunes 18
Half.com 19
Introduction 20 Applications
Définition des paramètres d’un système de recommandation Set of users: Set of items: Set of ratings recorded: Rating of the item i by user u represented by Subset of users having rated an item i: Subset of items having been rated by an user u: Items having been rated by u and v: Set of users having rated i and j: Corrélation ou similarité entre user u et v = w uv Corrélation ou similarité entre item i et j = w ij 21
Définition formelle de « Best item recommendation problem » 22 Trouver le meilleur item, nommé i* u, à suggérer à un utilisateur u avec Dans un contexte où il existe une mesure d’évaluation de la pertinence d’un item i pour un utilisateur u alors f : U × I → S est une fonction qui prédit l’évaluation f (u, i) d’un utilisateur u pour un nouvel item i. Définir f peut être un problème de régression ou de classification. Nous montrerons plus loin comment procéder pour classer un item en fonction d’un type d’individu.
Définition formelle de « Top-N items recommendation problem » 23 Trouver une liste L de N items intéressants pour l’utilisateur. Ce type de type de problème s’applique dans tous les contextes, incluant celle où il n’existe pas d’évaluation.
Approche de conception des SR 24 Basé sur le contenu des items [Content-based (CB) approaches] Basé sur le filtrage collaboratif [Collaborative Filtering (CF) approaches] Approches hybrides
25 La section où l’article (page 3) décrit les mesures d’évaluation des SR est après cette section.
Système de recommandation basé sur le contenu 26 Ces systèmes 1. recueillent d’abord les données de l’utilisateur 2. analysent et créent son profil de préférence 3. suggérent des articles qui lui conviennent.
SR basé sur le contenu des items 27 Les techniques basées sur le contenu comparent les contenus actuels de l’item aux contenus des items aimés auparavant par l’utilisateur et recommandent ceux qui ont la plus grande corrélation
SR basé sur le contenu des items : exemple 28 L’objectif du système de recommandations est de prédire les espaces blancs dans la matrice d’utilité. Si l’utilisateur A aime le film HP2 ? Le système de recommandations peut être conçu en prenant en compte les propriétés des films telles que : réalisateur, producteur, acteurs, etc. Avec plus de données, nous pourrons observer que les utilisateurs qui ont évalué SW1 et SW2 ont tendance à donner des évaluations similaires à SW3
SR basé sur le contenu des items 29
SR basé sur le contenu des items 30
31 réseau bayésien naïf (présuppose l’indépendance des caractéristiques Le r ui choisis est celui qui maximise Pr(r ui | profile u ) Pour chaque valeur de r ui, nous estimons Pr(r ui ) comme la fréquence empirique de cette valeur r ui, (à quelle fréquence u donne-t-il la valeur r. De façon similaire, nous évaluons Pr(x ij | r ui ) i.e. étant donné la valeur r quelle est la probabilité d’avoir la caractéristique j
32
33 La distance euclidienne Un attribut X non numérique doit être décomposer en plusieurs autres attributs (un par valeur possible de l’attribut X)
SR basé sur le contenu des items 34 Avantages: Indépendance de l’usager Le CB exploite les ratings fournis par l’usager en question pour construire son profil. Pas besoin de données sur les autres usagers. Transparence Le CB explique le choix des items recommandés par la valeur des caractéristiques qui causent la recommandation. Nouvel item (item non évalué par des usagers) Le CB est capable de recommander des items qui viennent d’apparaître sur le marché. Le problème du premier évaluateur pour un item ne se pose pas (first rater problem).
SR basé sur le contenu des items 35 Limites: Les recommandations ne seront pas appropriées s’il n’y a pas suffisamment d’information sur le contenu des items qui permettent de distinguer entre les items aimés par un usager et les items non aimés. Les caractéristiques doivent avoir un nom unique et être non ambigues Les caractéristiques choisis doivent permettre de cibler le pourquoi un utilisateur aime ou n’aime pas l’item. Souvent les mots clés fournis par le constructeur ou le vendeur ne sont pas appropriés pour représenter le contenu des items (synonymes, polysèmes, etc.).
SR basé sur le filtrage collaboratif (CF) 36 Pour prédire r ui, CF se base sur les évaluation (r) de u mais aussi sur les évaluations des autres utilisateurs du système. Idées principales: r ui où i est un nouvel item a une forte probabilité d’être similaire à celui d’un utilisateur v, si u et v ont évalué de façon similaire plusieurs autres items. de façon similaire, u évaluera probablement de façon similaire des items i et j, si les autres utilisateurs ont aussi donné des évaluations similaires pour ces deux items.
User-Based Top-N Recommendation Algorithms Identifier les k utilisateurs les plus similaires à l’utilisateur actuel corrélation de Pearson, vector space model chaque utilisateur est représenté par un vecteur 2. Créer un nouveau vecteur représentant pour chaque item la fréquence d’achat (ou autre) de ces items par les k utilisateurs. 3. Recommander les top-N items les plus fréquents que l’utilisateur actif ne possède pas. Cet algorithme s’adapte mal aux bases de données de grande taille et sa performance en temps réel devient faible
Item-Based Top-N Recommendation Algorithms. 38 Phase de construction du modèle Pour chaque item j, identifier les k items {j 1, j 2, … j k } qui lui sont les plus similaires avec leurs mesures de similairité {s j1, s j2, … s jk } Phase d’utilisation Pour un client qui a acheté un ensemble U (basket) d’items, nous calculons les top-N items recommandés de la façon suivante. Nous identifions C, un ensemble d’item recommandé potentiel en faisant l’union des ensembles {j 1, j 2, … j k } où j est un élement de U. Nous éliminons de C, les éléments déjà présent dans U Pour chaque c ∈ C, nous calculons sa similarité à U en faisant la somme des similarités entre j ∈ U et c Nous ordonnons les items de C de façon décroissante Nous recommandons les N premiers.
Avantages de l’approche CF 39 Les items pour lequel il y a peu de caractéristiques (nécessaire pour l’approche par contenu) peuvent être recommandé en se basant sur les évaluations des utilisateurs pour ces items. Les recommandations pour un utilisateur u sont basées sur des évaluations faites des utilisateurs similaires à u. CF permet de recommander à un usager u des items très différents de ce que u a déjà acheté et ce en autant que des utilisateurs similaires à ont montré un intérêt pour ces items.
Les principales méthodes de l’approche collaborative. 40 basé sur les plus proches voisin ou basé sur la mémoire : Les évaluations de chaque utilisateur pour chaque item sont dans la mémoire du système et servent directement à prédire l’évaluation qu’aura un utilisateur u pour un nouvel item. les algorithmes User-based or item-based recommendation appartiennent à cette méthode basé sur les modèles Les évaluations de chaque utilisateur pour chaque item sont utilisées pour faire des modèles dont les valeurs représentent les caractéristiques abstraites ou compactes des utilisateurs et des items. Ces caractéristiques ont parfois une sémantique claire pour les humains. Bayesian Clustering, Latent Semantic Analysis, Latent Dirichlet Allocation, Maximum Entropy, Boltzmann Machines, Support Vector Machines
Avantage de la méthode des proches voisins (Neighborhood-based) 41 Simplicité : intuitif, peu de paramètres, facile à implémenter les recommandations peuvent être expliquées : de façon concise avec des exemples concrets Efficace: pas de phases d’entrainement comme pour la classification, les plus proches voisins peuvent être identifiés au préalable Stabilité peu affecté par l’ajout de nouveaux items, utilisateurs et évaluations Sérendipité peut recommander des items auxquels l’utilisateur n’aurait pas pensé
Mesure de la qualité d’un SR (1) 42 Pour l’évaluation de la recommandation d’un seul item Or where is the test set. C’est la méthode usuelle avec échantillon pour apprentissage et pour validation Ce sont des mesures similaires à la précision (a + d)/ (a + b +c +d)
Mesure de la qualité d’un SR 43 Pour la recommandation des N meilleurs items Diviser en deux parties et Apprendre un modèle en utilisant Valider avec où est le sous-ensemble de que u trouvent pertinent L(u) est le résultat de l’application du modèle L à l’échantillon de validation.
Mesure de la qualité d’un SR 44 For the Top-N recommendation (cont.): A better measure can be designed if is a ranked list (ex. according to the preference of the user). Average Reciprocal Hit-Rank Deshpande, Karypis: Item-based top-N recommendation algorithms. ACM Trans. on Information Systems 22(1), 143–177 (2004) est le rang de i selon les préférences de u si L recommande i plus ce rang est petit plus ARHR est grand.
Neighborhood-based recommendation 45 User-based rating prediction (regression) to predict the rating r ui of a user u for a new item i using the ratings of users similar to u User-based classification to find the most likely rating of a user u on an item i, by having the nearest-neighbors of u vote on this value Item-based recommendation and Item-based classification to predict the rating of u for i according to the items rated by user u most similar to item i. User-based v.s. item-based recommendation
User-based rating prediction (regression) 46 Def: w uv : similarity measure between u and v N i (u): k-NN of u who have rated i. r ui can be estimated by By taking similarity into account, r ui can be estimated by
User-based rating prediction (cont.) 47 Normalization: users may use different rating values to quantify the same level of appreciation for an item. Normalization of rating is usually necessary. Normalization function h() By taking similarity and normalization into account, r ui can be estimated by
User-based classification 48 Find the most likely rating of u on an item i, by having the nearest-neighbors of u to vote on each possible rating r. S is the set of all possible ratings and () is the Dirac func. By taking normalization into account (S’ is the set of normalized ratings), r ui can be estimated by
Regression v.s. classification 49 Choice between neighborhood-based regression or classification methods depends on the system’s rating scale Regression is more appropriate for continuous scale Classification is more appropriate for discrete scale If the number of neighbors is large Regression methods tend to provide the mean rating Classification methods will predict the most frequent rating. Although risky, it can provide more surprising (serendipitous) rating
Item-based recommendation 50 Def: w ij : similarity measure between items i and j N u (i): k-NN of items rated by u that are most similar to i.
User-based v.s. item-based recommendation 51 Accuracy: depends mostly on the ratio between the number of users and items in the system. A small number of high-confidence neighbors is preferable. If the number of users >> the number of items, item-based methods produce more accurate recommendations. If the number of users << the number of items (ex. a research paper recommender) user-based neighborhood methods are usually better. Efficiency: depends on computation of the similarity weights (training phase) and of online recommendation. Stability: depends on frequency and amount of change in the users and items of the system Justifiability: item-based methods are easier to justify. Serendipity: user-based approaches are more likely to make serendipitous recommendations
Components of neighborhood methods 52 Rating normalization Mean-centering Z-score Similarity weight computation Correlation Mean Squared Difference (MSD) Spearman Rank Correlation Accounting for significance and variance Neighborhood selection Pre-filtering Neighbors in the predictions
Rating normalization (Mean-centering) 53 to determine whether a rating is positive or negative by comparing it to the mean rating. user-based prediction of a rating r ui is obtained as item-mean-centered normalization
Rating normalization (Z-score) 54 user-based prediction of a rating r ui is obtained as item-mean-centered normalization
Similarity weight computation (Correlation) 55 User representation: where The similarity between two users u and v
Similarity weight computation (Pearson Correlation similarity) 56 PC similarity (more popular) between users: Similarly, PC similarity between two items
Similarity weight computation (MSD, SRC) 57 Mean Squared Difference (MSD) : Spearman Rank Correlation (SRC) Where is the rating rank of item i in user u’s list of rated items and is the average rank of items rated by u.
Similarity weight computation (Accounting for Significance) 58 To deal with the lack of available ratings: The principle of the strategies is to reduce the magnitude of a similarity weight when the weight is computed using only a few ratings. Where is a threshold defining the minimum of the items commonly rated by u and v so that the similarity is not penalized. Similarly, for item similarity
Similarity weight computation (Accounting for Significance) 59 To deal with the lack of available ratings: A more continuous way of significance weighting can be done in the following way: Where is a penalty factor. If then the effect of the significance weighting cancels.
Similarity weight computation (Accounting for Variance) 60 To deal with lack of variance in rating such as rating on some extremely common items (with limited number of rating values) or (almost) constant rating from a user on different items (non-informative). Using Inverse User Frequency based on the information retrieval concept of Inverse Document Frequency (IDF): It is called Frequency-weighted Pearson Correlation (FPC). In this formula, ratings of rarely rated items are given a more important role.
Similarity weight computation (Neighborhood selection) 61 The selection of the neighbors in two steps: A global filtering step (Pre-filtering): Only the most likely candidates are kept, A per prediction step (Neighbors in the predictions): Choose the best candidates for this prediction. Pre-filtering Top-N filtering: For each user or item, a list of the N nearest- neighbors and their similarity weight is kept. Threshold filtering: keeps those neighbors whose similarity weight’s magnitude is greater than a given threshold w min
Similarity weight computation (Neighborhood selection) 62 Negative filtering: In same case, negative correlations can be discarded since, according to experimental studies, negative rating correlations are less reliable than positive ones and they do not provide significant improvement in the prediction accuracy. Neighbors in the predictions The “optimal” value of k should normally be found by cross- validation. In many practical case, a k value between 20 and 50 is a good choice.
Issues of recommender systems in general 63 Cold start and latency problems Sparseness of user-item matrix Diversity of recommendations Scalability Privacy and trust Robustness Utilization of domain knowledge Changing user interests (dynamics) Evaluation of recommender systems
Issues of recommender systems in general 64 ``New user`` and ``new item`` problem Systems cannot recommend items to new users with no profile or no interaction history Same for new items Also ``latency problem``: items need some time until they can be recommended Chicken-and-egg problem Users will not use system without good recommendations No incentive to rate items etc. System cannot generate good recommendations Possible solutions include explicit user profiling methods to start interaction Cold Start Problems
Advanced techniques 65 Problems with simple approaches: Limited coverage Sensitivity to sparse data Dimensionality reduction methods Decomposing the rating matrix Decomposing the similarity matrix Graph-based methods Path-based similarity Random walk similarity
Problems with simple NN approaches 66 Limited coverage Rating correlation measures the similarity between two users by comparing their ratings for the same items. Thus users can be neighbors only if they have rated common items. In reality, users having rated no common items may still have similar preferences. Sensitivity to sparse data Users typically rate only a small proportion of the available items Users or items newly added to the system may have no ratings at all (cold-start problem) Consequently, two users or items are unlikely to have common ratings, which seriously affect the accuracy of neighborhood-based approaches
Dimensionality reduction methods 67 The idea is to project users and items into a compact latent space that captures their most salient features. The dense subspace of high-level features, instead of the “rating space”, allows more meaningful relations to be discovered. In particular, a relation between two users can be found, even though they have rated different items. The techniques are widely used in text retrieval et text mining. Two main approaches: Decomposing the rating matrix Decomposing the similarity matrix
Decomposing the rating matrix 68 Method based on LSI (Latent Semantic Indexing): : the rating matrix, of size Approximated by where P is a matrix of users factors and Q a matrix of item factors The u th row p u of P, belonging to R k, represents the projection of user u in the k-dimensional latent space, and The i th row q i of Q, belonging to R k, represents the projection of item i in the k-dimensional latent space.
Decomposing the rating matrix (cont) 69 Method based on LSI (Latent Semantic Indexing): results from minimization of This is equivalent to perform the SVD (Singular Value Decomposition) on R where U is a matrix of left singular vectors, V is a matrix of right singular vectors, and users factors and is a diagonal matrix of singular values
Decomposing the rating matrix (cont) 70 Method based on LSI (Latent Semantic Indexing): Given the above SVD, the can be obtained by selecting, and corresponding to the k largest singular values Or and Once P and Q are obtained, the (new) rating can be computed by where p u is the u th row of P, and q i is the i th row of Q.
Decomposing the rating matrix (cont) 71 LSI method: Singular Value Decomposition (SVD) A(n*m) = U(n*n) S (n*m) V(m*m) Keep only k eigenvalues from S A(n*m) = U(n*k) S (k*k) V(k*m) Convert terms and documents to points in k- dimensional space
Decomposing the rating matrix (cont) 72 Example: c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey
Decomposing the rating matrix (cont) 73
Decomposing the rating matrix (cont) 74 ● Singular Value Decomposition {A}={U}{ S }{V} T ● Dimension Reduction {~A}~={~U}{~ S }{~V} T
Decomposing the rating matrix (cont) 75 In Matlab: [U, S,V]=svd(A) ● {U} =
Decomposing the rating matrix (cont) 76 ● { S } =
Decomposing the rating matrix (cont) 77 ● {V} =
Decomposing the rating matrix (cont) 78 Problem with the method based on LSI: In order to apply SVD ( ), R has to be defined everywhere, which is not always the case. A practical solution: affecting default values to This creates bias Latent space through optimization See Bell, R. et al (KDD 2007), Koren (KDD 2008), Takacs (JMLR)
Decomposing the rating matrix (cont) 79 Latent space through optimization Algorithm from Bell, R. et al (KDD 2007) that solves the following simplified optimization problem: Here and are respectively the row of P and row of Q. The following algorithm computes the f th component of and, represented by P uf and Q if, assuming that their f-1 first components have already being computed.
Algorithm from Bell, R. et al (KDD 2007) 80 ComputeNextFactor(input: known ratings r ui, user factors P m x (f-1), item factors Q n x (f-1) ; output : user factors P m x f, item factors Q n x f ) Begin Constant: α = 25, ε = ; //Calculer des résidus non expliqués encore for each given rating r ui, do n ui is the minimum between the number of ratings by user u and the number of users that rated item i.
Algorithm from Bell, R. et al (cont.) 81 Cont. from previous page // Compute the f-th factor for each user and each item by iteration Initialize all the Q if while err(P new, Q new ) / err(P old, Q old ) < 1-ε for each user u=1, …, m do for each user i=1, …, n do return P, Q
Decomposing the rating matrix (cont) 82 The above technique can also be applied on normalized ratings as in the follows: Provided that and for This problem corresponds to finding, for each user u and item i, coordinates on the surface of the k-dimensional unit sphere such that the rating (z ui ) is represented by scalar product of these coordinates (on the surface).
Decomposing the rating matrix (cont) 83 The by-product of the projection is that the coordinates of u and i can then be used to estimate the similarity between users, and between items. See Billsus (ICML 98).
Decomposing the similarity matrix 84 Method based on diagonalization of the similarity matrix W : Optimization of this error function gives rise to the following solution Where is the diagnonal matrix composed of the eigenvalues of W, and is an orthogonal matrix composed of eigenvectors of W.
Decomposing the similarity matrix (cont) 85 Similar to the SVD approach, W can be approximated by (or the new similarity measure is) : where P is obtained using k largest eigenvalues and corresponding eigenvectors, i.e. See Goldberg, K. et al (2001) who built the Eigentaste system which recommends jokes.
Graph-based methods (principle) 86 In graph representation, nodes are users or items and edges represent interactions or similarities between users and items. This example shows a bipartite graph showing connections from u to i if i has been rated by u. The weight of each such edge could be the rating r ui. u1u1 uiui i1i1 ijij
Graph-based methods (principle) 87 In another graph model, nodes can represent either users or items, and an edge connects two nodes if the ratings corresponding to these nodes are sufficiently correlated. The weight of this edge can be the corresponding correlation value. In graph based approaches, nodes influence each other by propagating information along the edges of the graph. The influence is proportional to the weight of an edge (propagation). It depends also on how far away the two nodes are between each other in the graph (attenuation).
Graph-based methods (principle) 88 The transitive associations obtained by graph-based methods allow to Recommend directly items i to a user u, if the items i are sufficiently “close” (or among the “closest”) to u. Proximity of two users or item nodes can be used to devise a measure of similarity w uv or w ij for a neighborhood-based recommendation
Graph-based methods (cont) 89 Path-based similarity (Shortest path) The data is modeled as a directed graph nodes : users, edges are determined based on “horting” and predictability. Horting: an asymmetric relation. A user u horts another user v if either or is satisfied, where are predetermined thresholds. Predictability: v predicts u, if u horts v and there exists a linear transformation such that where is a predetermined threshold.
Graph-based methods (cont) 90 Path-based similarity (Shortest path) Existence of a directed path connecting users u and v represents the transitive predictability of v for the ratings of u, under a sequence of transformations. The rating of user u for a new item i is predicted using the shortest directed paths from u to other users that have rated i. Suppose Let be such a path, where. The rating of user v m for item i is transformed in the rating scale of u using the composition of the linear mappings along the path: The final rating r ui can be computed as the average of the predictions obtained for all shortest paths P. See Aggarwal, C.C., et al (KDD 1999)
Graph-based methods (cont) 91 Path-based similarity (Number of paths) The number of paths between a user and an item in a bipartite graph is used to evaluate their compatibility. Here, R is supposed to be a special rating matrix: r ui =1 if u has rated i, and 0 otherwise. The adjacency matrix of the bipartite graph is The number of distinct paths from u to i, whose length <= 2K+1, is
Graph-based methods (cont) 92 Path-based similarity (Number of paths) In practice, the following formula is used to estimate the user- item association matrix: where is used to reduce the contribution of long paths. See Huang, Z et al (ACM 2004)
Graph-based methods (cont) 93 Random walk similarity Transitive associations can also be defined within a probabilistic framework. In this framework, the similarity or affinity between users or items is evaluated as a probability of reaching these nodes in a random walk. First-order Markov process: a set of n states and a nxn transition probability matrix P such that the probability of jumping from state i to j at any time-step t is Define as the vector containing the state probability distribution at step t. then converges to a stable state corresponding to an eigenvector of P t with eigenvalue of 1.
Graph-based methods (cont) 94 Random walk similarity (Itemrank) To rank the preferences of a user u for new items i as the probability of u to visit i in a random walk The graph is composed of nodes corresponding to the items, and edges connecting items that have been rated by common users. The edge weights of the graph are given by the transition probability matrix P with p ij is the estimated conditional probability of a user to rate an item j if it has rated an item i.
Graph-based methods (cont) 95 Random walk similarity (Itemrank) Let be the u-th row of the rating matrix R, the state probability distribution vector of user u at step t+1 can be expressed as i.e. either jumping using P to an adjacent node with fixed probability, or “teleport” to any node with probability When is computed, the system recommends to u the item i for which is the highest.