La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA.

Présentations similaires


Présentation au sujet: "Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA."— Transcription de la présentation:

1 Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA Jury composé de 16 octobre 2009 M me Brigitte P LATEAU M. Olivier S IGAUD M. Olivier B OISSIER M. James L. C ROWLEY M. Patrick R EIGNIER M me Marie-Pierre G LEIZES Présidente du jury Rapporteur Directeur de thèse Co-directeur de thèse Examinatrice

2 Informatique ambiante 16/10/20092Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Informatique ubiquitaire [Weiser, 1991] [Weiser, 1994] [Weiser et Brown, 1996]

3 16/10/20093Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

4 416/10/2009Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

5 Linformatique ambiante Dispositifs « autistes » Indépendants Hétérogènes Inconscients Système ubiquitaire Accompagner sans simposer En périphérie de lattention Invisible Informatique calme 16/10/20095Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

6 Intelligence ambiante 16/10/20096Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg 1.Perception 2.Décision

7 État de lart 16/10/20097Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Roman et al., 2002][Nonogaki et Ueda, 1991] FRIEND 21Gaia Blossom Sajid S ADI et Pattie M AES

8 Problématique Personnalisation Situation + utilisateur action 16/10/20098Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

9 Personnalisation Personnalisation dun agent informatique complexe qui assiste lutilisateur. Deux solutions [Maes, 1994] Lutilisateur spécifie lui-même le comportement Système trop complexe Tâche laborieuse Peu-évolutif Choix prédéfini par un expert Non-personnalisé Non-évolutif Utilisateur ne maîtrise pas tout le système 16/10/20099Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

10 Solution proposée 16/10/200910Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

11 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200911Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

12 Système proposé 16/10/200912Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

13 Contraintes 16/10/200913Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg système sadapte aux changements de lenvironnement et des préférences

14 Exemple 16/10/200914Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion Rappel !

15 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200915Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

16 Enquête grand public Objectif : mesurer les attentes et besoins vis-à-vis de l« informatique ambiante » et de ses usages Enquête dirigée par Nadine Mandran (LIG) Évaluation simultanée de deux systèmes Notre assistant Système COMPOSE de Yoann Gabillon (MAGMA et IIHM) Composition (semi-)automatique, dynamique et contextuelle de services pour répondre aux requêtes utilisateur 16/10/200916Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

17 Modalités de lenquête 26 sujets interrogés Non-experts Répartis de manière suivante : 16/10/200917Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

18 Résultats 44 % des sujets intéressés, 13 % conquis Profils des sujets intéressés : Personnes très occupées Surchargées cognitivement Apprentissage comme un plus Système plus fiable Entraînement progressif vs configuration lourde Entraînement simple et agréable (« juste un clic ») 16/10/200918Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

19 Résultats Phase dapprentissage doit être courte Explications indispensables Interactions Variable selon les sujets Phase optionnelle de débriefing Erreurs acceptées si conséquences pas graves Contrôle à lutilisateur Révèle habitudes inconscientes Crainte de devenir « assisté » 16/10/200919Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

20 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Contraintes Technologies adoptées Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200920Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

21 Système ubiquitaire 16/10/200921Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion Rappel ! Utilise les dispositifs existants Hétérogènes Éparpillés Besoins du système Système multiplateforme Système distribué Protocole de communication Découverte dynamique de services Déploiement facile [Emonet et al., 2006]

22 Interconnexion des modules 16/10/200922Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg CapteursActionneurs

23 Exemple déchanges de messages 16/10/200923Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion protee Text2Speech sur protee ? Text2Speech sur protee ? Oui ! Non… Installe et démarre Text2Speech Dépôt de bundles bundles

24 Base de données Regroupe Connaissances statiques Historique des événements et actions Permet de fournir des explications Centralisée Interrogée Alimentée Simplifie les requêtes 16/10/200924Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg par tous les modules sur tous les dispositifs

25 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Apprentissage par renforcement du modèle de contexte Apprentissage par renforcement Application de lapprentissage par renforcement Expérimentations et résultats Conclusion 16/10/200925Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

26 Rappel : nos contraintes Entraînement simple Apprentissage rapide Cohérence au départ Apprentissage à vie Explications 16/10/200926Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Supervisé [Brdiczka et al., 2007]

27 Apprentissage par renforcement (AR) 16/10/200927Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Propriété de Markov Létat à linstant t ne dépend que de létat à linstant t-1

28 Apprentissage par renforcement Algorithme Algorithme standard : le Q -Learning [Watkins, 1989] Mise-à-jour des Q -valeurs lors dune nouvelle expérience {état, action, état suivant, récompense} Lent car ne progresse que lorsque quelque chose se passe A besoin de beaucoup dexemples pour apprendre un comportement 16/10/200928Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

29 Exemple 16/10/200929Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Rapide Loin de la porte + Rapide = Ouvrir la porte Modèle du monde

30 Architecture DYNA 16/10/200930Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Agent Monde Modèle du monde ActionRécompenseÉtat DYNA Switch [Sutton, 1991]

31 Politique Architecture DYNA 16/10/200931Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Modèle du monde Utilisation Mise-à-jour Politique Interactions réelles

32 Fonctionnement global 16/10/200932Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique

33 Modélisation du problème Composants : États Actions 16/10/200933Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Composants : Modèle de transition Modèle de récompense

34 Lespace détats 16/10/200934Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Prédicats Prédicats système Prédicats environnement Karl

35 Lespace détats Division détats arrivée ( de= directeur, à= ) Notifier arrivée (de = newsletter, à= ) Ne pas notifier 16/10/200935Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

36 Modélisation du problème 16/10/200936Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Buffet, 2003]

37 Lespace dactions Les actions possibles combinent Transmettre un rappel à lutilisateur Informer dun nouvel Verrouiller lécran dun ordinateur Déverrouiller lécran dun ordinateur Pauser la musique jouant sur un ordinateur Relancer la musique jouant sur un ordinateur Ne rien faire 16/10/200937Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

38 Récompenses Récompenses explicites Par une interface non intrusive Récompenses implicites Collectées à partir dindices (valeur numérique moindre) 16/10/200938Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

39 Modèle de lenvironnement Construits par apprentissage supervisé À partir dexemples réels Initialisés par le sens commun Système fonctionnel immédiatement Modèle initial vs. Q-valeurs initiales [Kaelbling, 2004] Extensibilité 16/10/200939Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Modèle de récompense Modèle de transition Modèle de récompense

40 Modèle de transition 16/10/200940Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 s2s2 États de départ Action ou événement Modifications Modèle de récompense Modèle de transition + Probabilité

41 Apprentissage supervisé du modèle de transition La base de données contient des exemples {état précédent, action, état suivant} 16/10/200941Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s as s s s … a a a t2t2 t1t1 t3t3 s as t n+1

42 Fonctionnement global 16/10/200942Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique

43 Épisode 16/10/200943Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg AgentdAR Environnement Modèle du monde Base de données Appris à partir dinteractions réelles ou Q-Learning : mise à jour de Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Mise-à-jour Politique Expérience Politique

44 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200944Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

45 Expérimentations Enquête grand public évaluation qualitative Évaluations quantitatives en 2 étapes : Évaluation de la phase initiale Évaluation du système en fonctionnement normal 16/10/200945Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

46 Évaluation n°1 « autour de lapprentissage initial » 16/10/200946Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

47 Évaluation n°1 « autour de lapprentissage initial » 16/10/200947Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Nombre ditérations par épisode :

48 Évaluation n°2 « interactions et apprentissages » 16/10/200948Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

49 Évaluation n°2 « interactions et apprentissages » 16/10/200949Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

50 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200950Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

51 Contributions Adaptation de lapprentissage par renforcement indirect à un problème réel Construction dun modèle du monde Injection de connaissances initiales Acquisition automatique des associations optimales état – action pour un utilisateur Sans spécification explicite Mise en place dun prototype 16/10/200951Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

52 Conclusion Lassistant est un moyen de faire une application dintelligence ambiante Cest lutilisateur qui le rend intelligent 16/10/200952Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

53 Merci de votre attention Questions ? 16/10/200953Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

54 Bibliographie [Bellotti et Edwards, 2001] Victoria B ELLOTTI et Keith E DWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, [Brdiczka et al., 2007]Oliver B RDICZKA, James L. C ROWLEY et Patrick R EIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, [Buffet, 2003]Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, [Emonet et al., 2006]Rémi Emonet, Dominique Vaufreydaz, Patrick Reignier et Julien Letessier. « O3MiSCID: an Object Oriented Opensource Middleware for Service Connection, Introspection and Discovery ». Dans1 st IEEE International Workshop on Services Integration in Pervasive Environments, [Kaelbling, 2004]Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, [Maes, 1994]Pattie M AES. « Agents that reduce work and information overload ». Dans Commun. ACM, [Maisonnasse 2007]Jerome M AISONNASSE, Nicolas G OURIER, Patrick R EIGNIER et James L. C ROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, [Moore, 1975]Gordon E. M OORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting, /10/200954Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

55 Bibliographie [Nonogaki et Ueda, 1991] Hajime Nonogaki et Hirotada Ueda. « FRIEND21 project: a construction of 21st century human interface ». Dans CHI '91: Proceedings of the SIGCHI conference on Human factors in computing systems, [Roman et al., 2002]Manuel R OMAN, Christopher K. H ESS, Renato C ERQUEIRA, Anand R ANGANATHAN, Roy H. C AMPBELL et Klara N AHRSTEDT. « Gaia: A Middleware Infrastructure to Enable Active Spaces ». Dans IEEE Pervasive Computing, [Sutton, 1991]Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, [Weiser, 1991]Mark W EISER. « The computer for the 21 st century ». Dans Scientic American, [Weiser, 1994]Mark W EISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, [Weiser et Brown, 1996] Mark W EISER et John Seely B ROWN. « The coming age of calm technology » [Watkins, 1989]CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, /10/200955Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

56 Informatique ambiante Évolution électronique Tous les 18 mois : nombre de transistors sur les circuits intégrés × 2 Dispositifs « autistes » Indépendants Inconscients Hétérogènes 16/10/200956Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Moore, 1975][Crowley] Tous les 3 ans : nombre de dispositifs autour dune personne × 2

57 Exemples 16/10/200957Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

58 Contexte 16/10/200958Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

59 Entretien Entretien dune heure, comportant Des questions ouvertes sur linformatique ambiante La présentation dune maquette de chaque système Des questions sur les maquettes (avis, avantages, inconvénients) Des questions sur lacceptabilité de lassistant Incitation du sujet à sexprimer librement 16/10/200959Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

60 Système ubiquitaire réalisé 60 Utilise les dispositifs existants Dispositifs hétérogènes système multiplateforme Dispositifs éparpillés système distribué Système composé de modules répartis sur les dispositifs Besoins du système Protocole de communication entre modules Découverte de services dynamique Déploiement facile Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg 16/10/2009

61 Choix techniques 16/10/200961Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

62 Service OM i SCID 16/10/200962Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

63 Déploiement de modules : OSG i Système distribué, réseau complexe et dynamique de modules besoin de faciliter et automatiser le déploiement OSGi permet : Le déploiement à chaud Ladministration à distance La gestion des modules à partir dun dépôt central 16/10/200963Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

64 Modules Capteurs Détecteur de présence Bluetooth Localisation des personnes dans lenvironnement Détecteur de nouveaux messages électroniques Détecteur de rappels de lagenda Détecteur de létat de lordinateur Musique, économiseur décran Activité clavier/souris Actionneurs Synthèse vocale Affichage de messages écrits Envoi de mails Contrôle des applications (musique, économiseur décran) Lassistant personnel 16/10/200964Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

65 Dispositifs équipés 16/10/200965Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg BDBD

66 PersonalAgent sendMessage shellCommand Text2Speech text remoteShell command Plateforme Oscar sur protee Text2Speech sur protee ? Oui ! Installe et démarre Text2Speech Fait Dépôt de bundles bundles Non… Exemple déchanges de messages

67 Interconnexion des modules 16/10/200967Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg CapteursActionneurs

68 Notion de contexte Identifier les entités et leurs rôles pertinents pour lapplication Chacune de leurs configurations est une situation Dans chaque situation il faut sélectionner une action 16/10/200968Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

69 Apprentissage par renforcement (AR) Entrainement = récompenses Apprend un comportement (une politique daction) Basé sur des valeurs de qualité Q(état, action) Basé sur un Processus décisionnel de Markov (PDM) Ensemble détats Ensemble dactions Fonction de transition Fonction de récompense Propriété de Markov Létat à linstant t ne dépend que de létat à linstant t-1 16/10/200969Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

70 Apprentissage par renforcement indirect Rejouer mentalement expériences vécues pour les exploiter davantage Permet dexplorer espace états actions pour avoir estimation comportement Se fait en construisant un modèle du monde À partir dobservations réelles Architecture DYNA 16/10/200970Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

71 Définition dun état 16/10/200971Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

72 Réduction de lespace détats Accélération de lapprentissage Factorisation détats Division détats 16/10/200972Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg ÉtatAction Q -valeur …entrance(isAlone=true, friendlyName=, btAddress= )… pauseMusic125.3 ÉtatAction Q -valeur …hasUnreadMail(from=boss, to=, subject=, body= )… inform …hasUnreadMail(from=newsletter, to=, subject=, body= )… notInform105 Jokers et

73 Récompenses Récompenses explicites Par une interface non intrusive Récompenses implicites Collectées à partir dindices (valeur numérique moindre) Problèmes récompenses utilisateur Pas toujours données Rétro propagation dans le Q-Learning Traces déligibilité Pas toujours fiables Utilisation du modèle de récompense 16/10/200973Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

74 Modèle de lenvironnement 16/10/200974Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle État E[ état suivant ] E[ renforcement ] ActionÉvénement ou

75 Modèle de transition Ensemble de transformations dun état vers le suivant étant donnée une action Une transformation est composée de Un état précédent Des modifications Laction Une probabilité 16/10/200975Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

76 Modèle de transition exemple 16/10/200976Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg lockScreen <*> <*> <*> <*> <+> <+> <+> <*> <*> <*> hyperion, true true,

77 Modèle de transition 16/10/200977Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 s2s2 États de départ Action ou événement Modifications + Probabilité Modèle de récompense Modèle de transition

78 Apprentissage supervisé du modèle de transition La base de données contient des exemples {état précédent, action, état suivant} 16/10/200978Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg sa s s a s t2t2 a t1t1 tntn … s s a s s s a s t n+1 a t1t1 tntn … s a s s s Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

79 Apprentissage supervisé du modèle de transition La base de données contient des exemples {état précédent, action, état suivant} 16/10/200979Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s as s s s … a a a s s s as t2t2 t1t1 t n+1 t3t3

80 Apprentissage supervisé du modèle de transition Capacité de généralisation du modèle Nouvel exemple nouvelle transformation générique 16/10/200980Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

81 Modèle de récompense Ensemble dentrées spécifiant Des contraintes sur certains arguments de létat Une action La récompense 16/10/200981Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

82 Modèle de récompense exemple 16/10/200982Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg <*> <*> <*> lockScreen <+> <+>

83 Modèle de récompense 16/10/200983Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 -50 États de départ Action Récompense Modèle de transition Modèle de récompense

84 Apprentissage supervisé du modèle de récompense La base de données contient des exemples {état, action, récompense} 16/10/200984Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg sa r sa e2e2 a e1e1 enen … s s a r r r sa e n+1 a e1e1 enen … s s a r r r r Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

85 Apprentissage supervisé du modèle de récompense La base de données contient des exemples {état précédent, action, récompense} 16/10/200985Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s ar s s s … ar s ar e1e1 e n+1

86 Fonctionnement global 16/10/200986Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données Q -table État Politique Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense

87 Épisode 16/10/200987Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg AgentdAR Environnement Modèle du monde Base de données Appris à partir dinteractions réelles Utilise la nouvelle politique ou Q-learning : mise à jour de Q -table Politique Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Mise-à-jour

88 Le simulateur de lenvironnement 16/10/200988Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

89 Le simulateur de lenvironnement Scénarios du simulateur Permet de simuler lutilisateur Envoie des événements capteurs correspondant à des actions de lutilisateur Exemple : 1. « Sofia est dans le bureau » ; 2. « Nouvel de diffusion » ; 3. « Rappel : barbecue de léquipe a 13h » ; 4. « Sofia quitte le bureau » ; 5. « Bob entre dans le bureau » ; 6. « Sofia entre dans le bureau » ; 16/10/200989Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

90 Le simulateur de lenvironnement À chaque étape, le scénario prédéfinit Létat souhaité après lévénement La récompense donnée si cet état est atteint Le simulateur envoie une récompense Dépend de la distance entre létat souhaité et létat atteint 16/10/200990Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

91 Distance entre états Le nombre de transformations nécessaires pour obtenir s 2 à partir de s 1. 16/10/200991Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

92 Évaluation n°1 modèle du monde parfait Utilisation dun modèle du monde défini à la main pour isoler lefficacité de lAR LAR seffectue en arrière-plan (na pas besoin du scénario) à partir des modèles et des événements survenus et enregistrés dans la BD (donc a besoin du scénario 1 fois) Le scénario sert à visualiser lavancement de lapprentissage Lorsque la récompense donnée est toujours maximale, alors lAR a convergé vers le comportement souhaité 16/10/200992Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

93 Évaluation n°1 « modèle du monde parfait » 16/10/200993Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

94 Évaluation n°2 autour de lapprentissage initial But : choisir la manière optimale dexécuter la phase dapprentissage initial Part des modèles par défaut Exécute des épisodes de Q-Learning pour les « convertir » en comportement Paramètres à fixer Combien dépisodes ? Combien ditérations dans chaque épisode ? Quel est létat initial de chaque épisode ? Par défaut, Toutes valeurs tirées au hasard, Un état tiré au hasard parmi les états déjà rencontrés ? Quel événement à chaque pas dun épisode ? Généré aléatoirement, Tiré au hasard parmi tous les événements déjà observés ? 16/10/200994Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

95 Critère dévaluation : la note Résultat de lAR : une Q-table Comment savoir si elle est « bonne » ? Apprentissage réussi si Comportement correspond aux souhaits de lutilisateur Et cest mieux si on a beaucoup exploré et si on a une estimation du comportement dans beaucoup détats 16/10/200995Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

96 Évaluation n°3 interactions et apprentissages Point de départ = comportement initial appris lors de lexpérience précédente Lexpérimentateur utilise le tableau de bord pour reproduire lutilisateur Lapprentissage supervisé seffectue tous les 6 pas 1 minute sépare deux épisodes 16/10/200996Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

97 « Le tableau de bord » 16/10/200997Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Permet denvoyer par un clic les mêmes événements que les capteurs

98 Bibliographie [Weiser, 1991] Mark W EISER. « The computer for the 21 st century ». Dans Scientic American, [Weiser, 1994] Mark W EISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, [Weiser et Brown, 1996] Mark W EISER et John Seely B ROWN. « The coming age of calm technology » [Moore, 1975] Gordon E. M OORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting,1975. [Maisonnasse 2007] Jerome M AISONNASSE, Nicolas G OURIER, Patrick R EIGNIER et James L. C ROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, [Maes, 1994] Pattie M AES. « Agents that reduce work and information overload ». Dans Commun. ACM, [Bellotti et Edwards, 2001] Victoria B ELLOTTI et Keith E DWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, [Brdiczka et al., 2007] Oliver B RDICZKA, James L. C ROWLEY et Patrick R EIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, [Watkins, 1989] CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, [Sutton, 1991] Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, [Buffet, 2003] Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, [Kaelbling, 2004] Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, /10/200998Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

99 Apprentissage par renforcement de modèles de contexte pour linformatique ambiante M. James L. C ROWLEY M. Patrick R EIGNIER M me Marie-Pierre G LEIZES Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA Sous la direction de Patrick R EIGNIER et James L. C ROWLEY M me Brigitte P LATEAU M. Olivier S IGAUD M. Olivier B OISSIER Jury composé de 16 octobre 2009


Télécharger ppt "Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA."

Présentations similaires


Annonces Google