Équipe ACASA 05/02/2008 Systèmes de recommandation pour la TV numérique : un bref état de l’art Charles Madeira
Programme de la TNT La TV numérique Les systèmes de recommandation Quelques systèmes de recommandation proposés pour la TV numérique Discussion
TV numérique Problématique dans le point de vue de l’IA La TV numérique permet que ses utilisateurs accèdent à un très grand nombre d’émissions Cela rend le choix des émissions long et pénible Les guides électroniques de programmes (EPG) ont été mis en place afin d’augmenter l’accessibilité des émissions disponibles La surcharge d’informations combinée à une interface graphique rudimentaire ne rend pas la vie des utilisateurs plus facile
TV numérique Solution générale [Ardissono et al. 2004] Fournir des EPG personnalisés pour aider les utilisateurs dans le traitement du grand nombre d’informations disponibles Voie adoptée Les systèmes de recommandation Domaine de recherche développé depuis le milieu des années 90 [Adomavicius et Tuzhilin 2005] Un grand nombre de problèmes sont posés Un grand nombre d’applications pratiques existent
Systèmes de recommandation Formalisation N est un ensemble d’utilisateurs S est un ensemble d’items (émissions dans le cas de la TV) qui peuvent être recommandés V : N x S → est une fonction d’évaluation à valeurs réelles qui indique l’intérêt d’un item s Є S pour un utilisateur n Є N Chaque élément n Є N peut être défini par un profil composé de plusieurs caractéristiques de l’utilisateur L’âge, le sexe, la situation familiale, le niveau de scolarité, etc. Chaque élément s Є S peut être défini par plusieurs caractéristiques de l’item Exemple d’une émission télévisée : La chaîne, le titre, la catégorie, le producteur, les acteurs, la date de production, etc.
Systèmes de recommandation But Pour chaque utilisateur n Є N, un item s' Є S doit être sélectionné afin de maximiser la satisfaction de l’utilisateur Problème central Les items qui n’ont pas encore été évalués par chaque utilisateur doivent être évalués automatiquement dans le cadre du processus de recommandation La fonction d’évaluation V doit être extrapolée à l’ensemble N x S à l’aide d’heuristiques validées empiriquement à l’aide d’un modèle qui maximise un certain critère de performance
Systèmes de recommandation Classement adopté par la communauté [Balabanovic et Shoham 1997] Approches fondées sur le contenu Le système recommande des items similaires à ceux que l’utilisateur a déjà apprécié précédemment Il est nécessaire de se doter d’une mesure de corrélation entre les différents items permettant d’apprécier leur degré de ressemblance Approches fondées sur la collaboration Le système recommande des items apprécies précédemment par d’autres utilisateurs qui ont des préférences similaires Il est nécessaire de se doter d’une mesure de corrélation entre les utilisateurs Approches hybrides Combinaison de deux approches ci-dessus
Systèmes de recommandation Toutes les approches requièrent un profil de l’utilisateur contenant de l’information sur ses goûts, préférences et besoins Ce profil peut être obtenu Explicitement (questionnaires) Le plus précis bien qu’il puisse avoir une disparité entre l’auto-description et le comportement réel Les recommandations peuvent être faites rapidement Il nécessite un niveau d’effort considérable de la part de l’utilisateur Implicitement A partir des comportements de l’utilisateur Il permet d’appréhender les comportements réels de l’utilisateur Il faut attendre le rassemblement de l’information implicite nécessaire L’interprétation des comportements réels peut être trompeuse Un utilisateur peut par exemple regarder une émission sans vraiment l’aimer A partir des préférences identifiées pour un groupe d’utilisateurs
Approches fondées sur le contenu Les avantages La recommandation peut être réglée selon les préférences personnelles d’un utilisateur individuel Les inconvénients Dépendance aux caractéristiques associées au contenu L’extraction d’information est difficile dans le cas des données multimédia Deux items distincts représentés par la même information ne peuvent pas être différenciés Sur-spécialisation La recommandation se restreint aux items similaires à ceux déjà appréciés par l’utilisateur Doublons de recommandation peuvent se produire lorsque des items distincts désignent un même contenu Ajout de nouveaux utilisateurs Le système n’est pas capable de recommander efficacement avant d’obtenir un nombre suffisant d’appréciations de la part de l’utilisateur
Approches fondées sur le contenu Les techniques couramment employées Celles fondées sur des heuristiques [Lang 1995; Balabanovic et Shoham 1997; Pazzani et Billsus 1997] TF-IDF (extraction d’information) Clustering Celles fondées sur des modèles [Pazzani et Billsus 1997; Mooney et al. 1998; Mooney et Roy 1999; Billsus et Pazzani 1999, 2000; Zhang et al. 2002] Classifieurs bayésiens Clustering Arbres de décision Réseaux de neurones artificiels
Approches fondées sur la collaboration Les avantages La recommandation peut être faite même si les traces sur les comportements de l’utilisateur ne sont pas disponibles Il n’y a pas de sur-spécialisation Les inconvénients Ajout de nouveaux items Le système n’est pas capable de recommander un item avant qu’il ne soit suffisamment apprécié par les utilisateurs Ajout de nouveaux utilisateurs Le système n’est pas capable de recommander efficacement avant d’obtenir un nombre suffisant d’appréciations de la part de l’utilisateur Pénurie d’utilisateurs Une masse critique d’utilisateurs est requise pour que l’appréciation générale d’un item soit crédible
Approches fondées sur la collaboration Les techniques couramment employées Celles fondées sur des heuristiques [Resnick et al. 1994; Hill et al. 1995; Shardanand et Maes 1995; Breese et al. 1998; Nakamura et Abe 1998; Aggarwal et al. 1999; Delgado et Ishii 1999; Pennock et Horwitz 1999; Sarwar et al. 2001] Algorithme des plus proches voisins Clustering Théorie des graphes Celles fondées sur des modèles [Billsus et Pazzani 1998; Pennock et Horwitz 1999; Geyer-Schulz et al. 2000; Goldberg et al. 2001; Pavlov et Pennock 2002; Shani et al. 2002; Yu et al. 2002, 2004; Hofmann 2003, 2004; Marlin 2003; Si et Jin 2003] Réseaux bayésiens Clustering Réseaux de neurones artificiels Régression linéaire Modèles probabilistes Algorithmes évolutionnaires interactifs
Approches hybrides Les avantages La recommandation peut être faite lorsqu’un item est bien apprécié par un ensemble d’utilisateurs qui présentent des profils similaires par l’utilisateur lui-même La pénurie d’utilisateurs n’est pas un problème si important Des résultats empiriques démontrent que les recommandations sont plus efficaces que dans le cadre des approches dites pures C’est l’approche communément adoptée ces dernières années Les inconvénients Ajout de nouveaux utilisateurs Ajout de nouveaux items
Approches hybrides Les techniques couramment employées Celles fondées sur des heuristiques [Balabanovic et Shoham 1997; Claypool et al. 1999; Good et al. 1999; Pazzani 1999; Billsus et Pazzani 2000; Tran et Cohen 2000; Melville et al. 2002] Combinaison linéaire des appréciations Schémas du vote Introduction de certaines caractéristiques d’une approche dans la heuristique adoptée par l’autre Celles fondées sur des modèles [Basu et al. 1998; Condliff et al. 1999; Soboroff et Nicholas 1999; Ansari et al. 2000; Popescul et al. 2001; Schein et al. 2002] Introduction de certaines caractéristiques d’une approche dans le modèle adopté par l’autre Construction d’un modèle général unifié
Comment améliorer davantage l’efficacité des recommandations ? Comprendre mieux les utilisateurs et les items Employer des techniques avancées de profilage Règles d’exploitation des données [Fawcett et Provost 1996; Adomavicius et Tuzhilin 2001] Séquences [Mannila et al. 1995] Signatures [Cortes et al. 2000] Introduire le contexte dans la procédure de recommandation Par exemple Quand, où et avec qui une émission est vue ? Quel est l’état émotionnel de l’utilisateur ?
Comment améliorer davantage l’efficacité des recommandations ? Permettre une appréciation multicritères Par exemple Repas, décoration et service dans un restaurant Fournir des recommandations plus flexibles et moins intrusives Permettre une customisation des recommandations selon les besoins des utilisateurs L’utilisateur « fais-le pour moi » Un système totalement autonome L’utilisateur « faisons-le ensemble » Un système partiellement contrôlable L’utilisateur « laisse-moi contrôler » Un système totalement contrôlable
Les systèmes de recommandation d’émissions télévisées Les systèmes de recommandation conçus pour la TV sont souvent fondés sur Une combinaison d’un profil explicite et d’un ou plusieurs profils implicites Des approches basées sur le contenu ou hybrides
Les systèmes de recommandation fondés sur le contenu [Buczak et al. 2002] Profil Explicite Questionnaire sur les préférences de l’utilisateur (chaîne, genre d’émission, jours et périodes de la journée) Implicite (traces d’utilisation – utilisateur individuel et ménage) Réseaux bayésiens Arbres de décision Un réseau de neurones artificiels du type RBF fusionne les recommandations faites par chacun des profils Métriques d’évaluation Receiver operating characteristic Erreur quadratique moyenne Interface utilisateur flexible Elle permet que la recommandation soit contrôlée par l’utilisateur
Les systèmes de recommandation fondés sur le contenu [Yu et al. 2004] Profil Explicite Questionnaire sur les préférences de l’utilisateur Implicite (traces d’un utilisateur) Classifieurs bayésiens Métrique d’évaluation Pourcentage du temps écoute Seuil pour distinguer positif et négatif Seuil pour jeter certains changements de chaîne Rappel et précision
Les systèmes de recommandation fondée sur le contenu [Ludwig et al. 2006] Comprendre comment les utilisateurs choisissent des émissions afin d’améliorer la flexibilité du système Profil Explicite (questionnaire sur les préférences de l’utilisateur) La description textuelle des émissions est prise en compte Les mots sont groupés selon des thèmes prédéfinis Ils sont traités afin de refléter les besoins émotionnels des utilisateurs 107 attitudes émotionnelles sont modélisées
Les systèmes de recommandation hybrides [Dai et Cohen 2003] Profil Explicite Questionnaire sur l’utilisateur et ses préférences Implicite (traces d’un utilisateur) Pseudo (groupe d’utilisateurs ayant intérêts similaires) Métrique d’évaluation Pourcentage du temps écoute (seuil pour distinguer positif et négatif) Architecture centralisée Service disponible à partir d’un fournisseur câble ou satellite
Les systèmes de recommandation hybrides [Potonniée 2004] Traitement des problèmes de l’ubiquité et de l’intimité des utilisateurs Profil Explicite (questionnaire sur l’utilisateur) Profil implicite (traces d’un utilisateur) Schémas du vote (contenu) Arbres de décision (collaboratif) Métriques d’évaluation Erreur absolue moyenne Receiver operating characteristic Seuil pour distinguer utile et inutile Architecture décentralisée Carte à puce qui enregistre et contrôle l’accès au profil
Les systèmes de recommandation hybrides SenSee [Aroyo et al. 2007] Framework pour « Ambient Home Media » Web et Set-top Box Le profil explicite de l’utilisateur et le contexte sont pris en compte Période de la journée, localisation géographique, thèmes d’intérêt Une ontologie est employée afin de traiter des concepts et des termes sémantiques des métadonnées Spécification : TV-Anytime, MPEG7 User preference description scheme Usage history description scheme Sources : XMLTV, BBC Backstage
Les systèmes de recommandation hybrides AIMED [Hsu et al. 2007] Activités, intérêts, état émotionnel, expériences and information démographique Profil Explicite (questionnaire sur l’utilisateur et ses préférences) Implicite Traces d’un utilisateur (contenu) Clustering hiérarchique (collaboration) Un réseaux de neurones artificiels du type BPN est employé pour fusionner toutes les données Métrique d’évaluation Erreur quadratique moyenne
Discussion