Télécharger la présentation
1
Introduction : filtrage collaboratif
I Introduction II SVD III Algorithme I Introduction Introduction : filtrage collaboratif « méthodes qui visent à construire des systèmes de recommandation utilisant les opinions et évaluations d'un groupe pour aider l'individu. » - Wikipedia
2
( ) Présentation du Netflix Prize I Introduction II SVD III Algorithme
( ) Utilisateur i film j X 3 3 X X 4 … 2 … X 3 X 5 X 2 … X … Y= Quelques chiffres : utilisateurs films de votes Matrice inconnue à 98,83% Trouver X, matrice pleine, minimisant la fonction de coût Fonction de coût : erreur sur un jeu de test ( votes) RMSE=
3
( ) ( ) ( ) Décomposition en valeurs singulières X = U Δ V’
I Introduction II SVD III Algorithme X= Application ( ) Bill Bob Jack La guerre des roses Le diner de con Rocky ( ) violence humour ( ) U= Δ= V’= Décomposition en valeurs singulières Factorisation matricielle X = U Δ V’ X quelconque, n x m U unitaire, n x k Δ diagonale, k x k V’ unitaire, k x m
4
Algorithme d’apprentissage incrémental
I Introduction II SVD III Algorithme Algorithme d’apprentissage incrémental Generalized Hebbian Algorithm for Incremental Singular Value Decomposition in Natural Language Processing Genevieve Gorrell, Linkoping University Pour la caractéristique p Initialiser colonne p de U Initialiser ligne p de V Tant que progrès possible Pour chaque exemple fin
5
Implémentation I Introduction II SVD III Algorithme Fichiers binaires
Données d’apprentissage Jeu de test (10 MB) Modèle (20 MB) Nom des films 700 MB Accès difficile aux données d’apprentissage Solution : apprentissage incrémental
6
Améliorations : quelle voie ?
I Introduction II SVD III Algorithme Améliorations : quelle voie ? Nbres de features 1 2 3 4 5 6 RMSE 0.9891 0.9707 0.9603 0.9554 0.9523 0.9503
7
Améliorations possibles : régularisation
I Introduction II SVD III Algorithme Améliorations possibles : régularisation Simon Funk tells all : « So yes, after reading this post, you too should be able to rank in the top ten or so. Ur... yesterday's top ten anyway. » Résultat atteignable : 10 features avec régularisation RMSE=0,92240 (résultat lu sur le forum)
8
Quelques résultats : identifier les features
I Introduction II SVD III Algorithme Quelques résultats : identifier les features Films qui ont la plus grande caractéristique 0 Battlestar Galactica: Season Lost: Season Veronica Mars: Season Arrested Development: Season The Lord of the Rings: The Fellowship of the Ring: Extended Edition Lord of the Rings: The Return of the King: Extended Edition Lord of the Rings: The Two Towers: Extended Edition As Time Goes By: Series The West Wing: Season Anne of Green Gables: The Sequel The Sopranos: Season Harakiri The West Wing: Season House The West Wing: Season Six Feet Under: Season As Time Goes By: Series Ken Burns' Civil War Band of Brothers The Simpsons: Season Films qui ont la plus grande caractéristique 1 Lost in Translation The Royal Tenenbaums Eternal Sunshine of the Spotless Mind Dogville Punch-Drunk Love Before Sunset The Life Aquatic with Steve Zissou Adaptation Napoleon Dynamite Primer Sideways Fahrenheit 9/ Sin City Memento Being John Malkovich The Mother Pulp Fiction I Heart Huckabees American Beauty Oldboy
9
Quelques résultats : les films les plus notés
I Introduction II SVD III Algorithme Quelques résultats : les films les plus notés Miss Congeniality (?) Independence Day The Patriot The Day After Tomorrow Pirates of the Caribbean
10
Quelques résultats : les films haïs
I Introduction II SVD III Algorithme Quelques résultats : les films haïs 1er résultat : les gens ne vont pas voir les films nuls
11
Quelques résultats : les films haïs
I Introduction II SVD III Algorithme Quelques résultats : les films haïs Hatred_factor=SQRT(rating_count) * POW(5 - (rating_avg + rating_stdev), 2) Mesure de déception (Miss Congeniality n°195)
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.