La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Équipe ACASA 10/10/2006 Apprentissage par renforcement : une application au projet BUIS Charles Madeira.

Présentations similaires


Présentation au sujet: "Équipe ACASA 10/10/2006 Apprentissage par renforcement : une application au projet BUIS Charles Madeira."— Transcription de la présentation:

1 Équipe ACASA 10/10/2006 Apprentissage par renforcement : une application au projet BUIS Charles Madeira

2 Programmation TNT Lapprentissage par renforcement Les bases Les principaux algorithmes Les limitations Le projet BUIS et les systèmes de recommandation Lapprentissage par renforcement appliqué au projet BUIS

3 Apprentissage par renforcement (AR) [Samuel 1959]…[Sutton et Barto 1998]… Lagent apprend à se rapprocher dune stratégie comportementale optimale par des interactions répétitives avec lenvironnement Les décisions sont prises séquentiellement à des intervalles de temps discrets Lenvironnement peut être stochastique et inconnu Situation s Environnement Renforcement r Action a s0s0 a0a0 r1r1 a1a1 t0t0 s1s1 t1t1 r2r2 a2a2 s2s2 t2t2

4 Pourquoi lAR ? Il est très utile dans le cadre de problèmes où : des stratégies comportementales efficaces sont inconnues a priori ou sont difficilement automatisables lorsquil y a de lincertain dans la manière dont lenvironnement évolue LAR se distingue des autres approches dapprentissage par plusieurs aspects : Lapprentissage se fait sans supervision Il repose sur le principe dessai/erreur Il sappuie sur une estimation anticipée dun renforcement Il a déjà obtenu de très bons résultats pratiques dans le cadre de problèmes complexes pour les méthodes classiques dIA Lexemple le plus célèbre est celui de lapplication TD-Gammon [Tesauro 1992, 1994, 1995, 2002] qui est devenue le meilleur joueur du jeu Backgammon au monde Lespace détats de lordre de et lespace dactions de lordre de 10 2

5 Les bases de lAR Les théories qui regroupent les différents aspects utiles à une formalisation de lAR Théorie des probabilités Représentation et évolution des états dun environnement au travers du formalisme des chaînes de Markov Théorie de la décision Le problème fondamental de la prise de décision dun agent Théorie de lutilité Évaluation dune décision (correspondance avec le notion de performance) Un problème dAR peut être généralement représenté par le formalisme des processus de décision Markoviens (PDM) On considère que lenvironnement peut être observé Les situations observées correspondent à des états réels de lenvironnement

6 Processus de décision Markovien (PDM) Un PDM est défini par un tuple ( S, A, T, R ) S est un ensemble fini détats A est un ensemble fini dactions T : S x A x S [0,1] est une fonction de probabilité de transition des états Ts, a, s' = P{s t+1 = s' | s t = s, a t = a} R : S x A x S est une fonction de renforcement à valeurs réelles Rs, a, s' = E{r t+1 | s t = s, a t = a, s t+1 = s'} Les fonctions T et R représentent le modèle de lenvironnement Elles sont généralement stochastiques Elles sont sujettes à la propriété de Markov Il est possible de déterminer lévolution au prochain état de lenvironnement en considérant uniquement létat actuel et laction choisie ( T est indépendante des interactions passées) P{s t+1 = s' | s t, a t } = P{s t+1 = s' | s t, a t, s t-1, a t-1,…, s 0, a 0 } Exemple dun robot ramasseur

7 La fonction de renforcement correspond à un « feedback » (récompense ou punition) de lenvironnement Elle permet dévaluer le comportement de lagent Le choix de cette fonction est à la charge du concepteur Elle est critique pour le succès de lapprentissage Types de fonction de renforcement Renforcement immédiat Chaque action conduit à une récompense ou une punition Renforcement immédiat en minimisant le temps nécessaire pour atteindre un but Chaque action conduit à une punition, sauf celle qui amène à létat final Renforcement retardé Aucune action ne conduit à une récompense ou punition, sauf celle qui amène à létat final La fonction de renforcement R

8 Le but de lagent Apprendre une politique π (stratégie comportementale) qui maximise une mesure R de renforcement cumulatif à long terme en allant dun état initial à un état final γ est un facteur de décompte pour les renforcements futurs La politique π est une fonction qui associe une distribution de probabilités sur les actions a Є A à des états s Є S Une politique optimale π * est celle qui optimise une fonction dévaluation V π ou Q π

9 Les fonctions dévaluation V π et V * La fonction dévaluation V π (s) associe à chaque état s Є S une mesure du renforcement cumulé que lagent reçoit lorsquil suit une politique π à partir de létat s La fonction dévaluation optimale V * (s) (équation de Bellman) sV(s)V(s) s0s0 RtRt s1s1 … …… snsn …

10 Les fonctions dévaluation Q π et Q * La fonction dévaluation Q π (s,a) est définie de façon similaire à V π (s) Elle associe à chaque couple état/action s Є S et a Є A une mesure du renforcement cumulé que lagent reçoit lorsquil suit une politique π en exécutant laction a à partir de létat s La fonction dévaluation optimale Q * (s,a) saQ(s,a) s0s0 a0a0 RtRt s0s0 a1a1 … ……… snsn a0a0 … snsn a1a1 …

11 Exemple des fonctions V et π Problème de déplacement dans un tableau Lespace détats S de lenvironnement = les cellules du tableau Létat initial est une cellule choisie aléatoirement Lespace dactions A de lagent = {nord, sud, est, ouest} La fonction de transition T est déterministe et connue Un action exécutée dans létat A transfère lenvironnement à létat A Une action exécutée dans létat B transfère lenvironnement à létat B Une action qui amène lagent dehors du tableau ne change pas létat de lenvironnement Les autres actions avancent lagent sur le tableau La fonction de renforcement R Un action exécutée dans létat A conduit à une récompense de +10 Une action exécutée dans létat B conduit à une récompense de +5 Une action qui amène lagent dehors du tableau conduit à une punition de -1 Les autres actions conduisent à un renforcement nul V π aléatoire π aléatoire V * π * Tableau Apprentissage

12 Méthodes doptimisation Programmation dynamique [Bellman 1957][Bertsekas et Tsitsiklis 1996]… Des méthodes incrémentales Réalisation ditérations successives qui se rapprochent petit à petit de la fonction de valeur optimale Cependant, lagent doit connaître parfaitement le modèle de lenvironnement (les fonctions T et R ) Résolution de problèmes de planification plutôt que de problèmes dapprentissage Monte Carlo [Michie et Chambers 1968][Rubinstein 1981]… Des méthodes qui sappuient sur lexpérience Lagent nest pas obligé de connaître parfaitement le modèle de lenvironnement Un problème dapprentissage est posé ( T et R sont ainsi apprises par lexpérience) Elles permettent un apprentissage en ligne Cependant, elles ne sont pas incrémentales Une évaluation ne se fonde pas sur dautres évaluations, ce qui nécessite donc un apprentissage décomposé en une succession dépisodes de longueur finie

13 Méthodes de différence temporelle [Samuel 1959][Klopf 1972][Holland 1976, 1986][Sutton 1988]… Combinaison de laspect incrémental des méthodes de programmation dynamique du recours à lexpérience des méthodes de Monte Carlo Des méthodes qui ne nécessitent pas de modèle de la dynamique de lenvironnement Elles évaluent par lexpérience lintérêt dêtre dans un état donné dune action à partir dans un état donné Elles nécessitent un bon compromis dexploration/exploitation Figure récupérée de [Sutton et Barto 1998]

14 Algorithme de différence temporelle (ou TD) TD est lalgorithme de base de lapprentissage par renforcement. Il consiste à comparer : la récompense que lagent reçoit effectivement de lenvironnement la récompense quil sattend à recevoir en fonction des estimations V(s) précédentes Définition de léquation de mise à jour incrémentale Dans le cadre de cet algorithme, lagent ne peut pas déterminer en avance quel est létat suivant de meilleure valeur estimée Il est donc incapable de déduire quelle politique il doit suivre Cest pourquoi les algorithmes qui prennent en compte la valeur des couples état/action ( s, a ) sont préférés V(s) : Fonction dévaluation des états α : Taux dapprentissage : Erreur de différence temporelle r t+1 : Récompense immédiate γ : Facteur de décompte temporel

15 Algorithme Sarsa (s t,a t,r t+1,s t+1,a t+1 ) Sarsa est semblable au TD, sauf que la fonction dévaluation des états V(s) est remplacée par la fonction dévaluation des actions Q(s,a) On estime la valeur dune action à partir dun état plutôt que dêtre dans un état Définition de léquation de mise à jour incrémentale Le fait de toujours déterminer à linstant t laction qui sera exécutée à linstant t+1 signifie que lagent suit la stratégie dexploration adoptée Q(s,a) : Fonction dévaluation des actions α : Taux dapprentissage : Erreur de différence temporelle r t+1 : Récompense immédiate γ : Facteur de décompte temporel

16 Algorithme Q-learning [Watkins 1989] Q-learning est une simplification de Sarsa du fait quil nest pas nécessaire de déterminer à linstant t laction qui sera exécutée à linstant t+1 Définition de léquation de mise à jour incrémentale Au lieu de déterminer laction davance, lagent choisit celle qui a la meilleure valeur estimée Lagent ne suit pas la stratégie dexploration adoptée Q-learning est lalgorithme dAR le plus connu en raison de ses preuves formelles de convergence [Watkins et Dayan 1992] Q(s,a) : Fonction dévaluation des actions α : Taux dapprentissage : Erreur de différence temporelle r t+1 : Récompense immédiate γ : Facteur de décompte temporel

17 TD( λ ), Sarsa( λ ) et Q( λ ) Un défaut des algorithmes précédents est quils ne mettent à jour quune valeur par pas de temps La procédure de mise à jour est particulièrement lente On les dote donc dune mémoire de transitions (ou historique) Chaque état est associé à un indicateur e(s) qui mesure lécoulement du temps depuis sa dernière visite Lindicateur e(s) est affecté de 1 à chaque fois que létat est visité diminué dun facteur γλ pour les autres états Lerreur de différence temporelle corrige simultanément lestimation des états en fonction de la valeur de e(s)

18 TD( λ ), Sarsa( λ ) et Q( λ ) Le facteur λ introduit un mécanisme damorçage Si λ=0, on retombe sur TD(0), Sarsa et Q-learning Si λ=1, les algorithmes sapparentent à Monte Carlo Les algorithmes dotés dhistorique sont plus efficaces que leur version de base, cependant ils requièrent plus de mémoire Un compromis entre la vitesse dapprentissage et la mémoire utilisée est nécessaire

19 Limitations des PDMs Quand la propriété de Markov nest plus assurée Les environnements partiellement observables Lagent na pas de connaissance parfaite sur létat de son environnement Les systèmes multi-agents Les environnements sont non stationnaires Quand les espaces détats et dactions sont continus La finitude et discrétisation est perdue Quand les transitions des états se déroulent dans des intervalles de temps continus Il existe une infinité dextensions dans le cadre des processus de décision non Markoviens pour traiter ces limitations

20 Dautres limitations du cadre de lAR Quand les espaces détats et dactions sont très grands Mémoire nécessaire pour représenter une table Temps nécessaire pour pouvoir remplir efficacement cette table La convergence est assurée lorsque chaque ligne est visitée infiniment Voies envisageables afin de écarter ces limitations Utiliser des connaissances disponibles pour Structurer la prise de décision Abstraire les données afin de trouver des granularités pertinentes Mais il ny pas de recette générale Chaque application requiert une expertise particulière pour être représentée de la façon la plus adéquate possible Utiliser des méthodes de généralisation de la fonction dévaluation Algorithmes dAR fondées sur des méthodes de descente du gradient Par exemple, un réseau de neurones artificiels

21 Et dans le cadre du projet BUIS… ?

22 Projet BUIS But Concevoir un système de recommandation démissions pour les utilisateurs de la télévision numérique terrestre (TNT) Comment Apprendre les goûts des utilisateurs pour pouvoir recommander des émissions selon leurs disponibilités Apprendre les disponibilités ?

23 Problème posé par les systèmes de recommandation Formalisation N est un ensemble dutilisateurs S est un ensemble ditems (émissions dans notre cas) qui peuvent être recommandés V : N x S est une fonction dévaluation à valeurs réelles qui indique lintérêt dun item s Є S pour un utilisateur n Є N Chaque élément de lensemble N peut être défini par un profil qui inclut plusieurs caractéristiques de lutilisateur Lâge, le sexe, la situation familiale, etc. Chaque élément de lensemble S est défini par plusieurs caractéristiques Exemple pour une émission : Le titre, le genre, le directeur, les acteurs, etc.

24 Catégorisation des systèmes de recommandation Approches fondées sur le contenu Le système recommande des items similaires à ceux que lutilisateur a déjà apprécié précédemment Il est nécessaire de se doter dune mesure de corrélation entre les différents items permettant dapprécier leurs degrés de ressemblance Une extraction automatique des caractéristiques des items est nécessaire Approches fondées sur la collaboration Le système recommande des items que dautres utilisateurs possédant des goûts similaires ont apprécié précédemment Il est nécessaire de se doter dune mesure de corrélation entre les utilisateurs Approches hybrides Combinaison de deux approches ci-dessus

25 Approches fondées sur le contenu Les techniques habituellement employées Celles fondées sur des heuristiques [Lang 1995][Balabanovic et Shoham 1997][Pazzani et Billsus 1997] TF-IDF (Information retrieval) Clustering Celles fondées sur des modèles [Pazzani et Billsus 1997][Mooney et al. 1998][Mooney et Roy 1999][Billsus et Pazzani 1999,2000][Zhang et al. 2002] Classifieurs bayésiens Clustering Arbres de décision Réseaux de neurones artificiels Adomavicius G., and Tuzhilin A.: "Towards the Next Generation of Recommender Systems: A survey of the state- of-the-art and possible extensions", IEEE Transactions on Knowledge and Data Engineering, 2005.

26 AR appliqué au projet BUIS Lespace détats S de lenvironnement Tout un éventail démissions représentées par un ensemble de variables {chaîne, format1, format2, thème1, thème2, singularité, hot topics ?} Lespace dactions A de lagent {regarder complètement, regarder partiellement, enregistrer, scanner, zapper en continu, zapper vers une chaîne donnée, accepter une recommandation, refuser une recommandation} La fonction de transition T On na pas besoin de la connaître Situation s Renforcement r Action a

27 La fonction de renforcement R Renforcement sur létat actuel (on ne pose pas de question à lutilisateur) Émission regardée > 90% récompense de +10 > 50% récompense de +6 > 20% récompense de +2 Émission enregistrée récompense de +3 Émission scannée renforcement nul Émission zappée punition de -1 Renforcement sur un état <> actuel (on pose une question à lutilisateur) Recommandation dune émission sur le flux DVB-T Acceptation récompense de +2 Refus punition de -1 Demande denregistrement récompense de +1 Recommandation dune émission enregistrée sur le STB Acceptation récompense de +2 Refus momentané renforcement nul Refus définitif (demande deffacement) punition de -2

28 Initialiser les valeurs V(s) 0 de la table et lhistorique e(s) 0 pour chaque état s Faire pour chaque épisode Observer létat initial s Faire pour chaque pas Exécuter une action a Observer le renforcement immédiat r Observer le nouvel état s Calculer lerreur de différence temporelle Mettre le historique à jour Pour chaque état s Mettre la valeur V(s) de la table à jour Mettre la valeur e(s) à jour s s Jusquun états s terminal Procédure dapprentissage Pour lapprentissage de goûts, on doit maximiser lintérêt dune émission (un état) Lalgorithme TD( λ ) se montre donc bien adapté

29 Mécanisme de recommandation Source de données Recommandation à court terme Programmation des émissions sur le flux DVB-T (les informations fusionnées) Liste des émissions enregistrées sur le STB Recommandation à moyen terme Programmation des émissions récupérées sur le web But Filtrer les émissions qui correspondent aux goûts appris pour lutilisateur Visualiser des émissions directement sur le flux DVB-T Classer des émissions pour être enregistrées sur le STB Visualiser des émissions enregistrées sur le STB Proposer dautres émissions au travers dune stratégie dexploration

30 Quelques considérations Il faut peut-être envisager demployer une méthode de généralisation de la fonction dévaluation Il faut définir ou redéfinir La fonction de renforcement La stratégie de recommandation La stratégie dexploration La stratégie denregistrement Il faut réfléchir au problème de la sur-spécialisation Le système se limite à ne recommander que des items similaires à ceux qui sont le plus appréciés par lutilisateur


Télécharger ppt "Équipe ACASA 10/10/2006 Apprentissage par renforcement : une application au projet BUIS Charles Madeira."

Présentations similaires


Annonces Google