La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage par renforcement de modèles de contexte pour l’informatique ambiante Sofia Z AIDENBERG Laboratoire d’Informatique de Grenoble Équipe P RIMA.

Présentations similaires


Présentation au sujet: "Apprentissage par renforcement de modèles de contexte pour l’informatique ambiante Sofia Z AIDENBERG Laboratoire d’Informatique de Grenoble Équipe P RIMA."— Transcription de la présentation:

1 Apprentissage par renforcement de modèles de contexte pour l’informatique ambiante Sofia Z AIDENBERG Laboratoire d’Informatique de Grenoble Équipe P RIMA Jury composé de 16 octobre 2009 M me Brigitte P LATEAU M. Olivier S IGAUD M. Olivier B OISSIER M. James L. C ROWLEY M. Patrick R EIGNIER M me Marie-Pierre G LEIZES Présidente du jury Rapporteur Directeur de thèse Co-directeur de thèse Examinatrice

2 Informatique ambiante 16/10/20092Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Informatique ubiquitaire [Weiser, 1991] [Weiser, 1994] [Weiser et Brown, 1996]

3 16/10/20093Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

4 416/10/2009Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

5 L’informatique ambiante  Dispositifs « autistes »  Indépendants  Hétérogènes  Inconscients  Système ubiquitaire  Accompagner sans s’imposer  En périphérie de l’attention  Invisible  Informatique calme 16/10/20095Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

6 Intelligence ambiante 16/10/20096Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg 1.Perception 2.Décision

7 État de l’art 16/10/20097Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Roman et al., 2002][Nonogaki et Ueda, 1991] FRIEND 21Gaia Blossom Sajid S ADI et Pattie M AES http://consciousanima.net/projects/blossom/

8 Problématique  Personnalisation  Situation + utilisateur  action 16/10/20098Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

9 Personnalisation  Personnalisation d’un agent informatique complexe qui assiste l’utilisateur.  Deux solutions [Maes, 1994]  L’utilisateur spécifie lui-même le comportement  Système trop complexe  Tâche laborieuse  Peu-évolutif  Choix prédéfini par un expert  Non-personnalisé  Non-évolutif  Utilisateur ne maîtrise pas tout le système 16/10/20099Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

10 Solution proposée 16/10/200910Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

11 Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Apprentissage par renforcement du modèle de contexte  Expérimentations et résultats  Conclusion 16/10/200911Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

12 Système proposé 16/10/200912Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

13 Contraintes 16/10/200913Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg système s’adapte aux changements de l’environnement et des préférences

14 Exemple 16/10/200914Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion Rappel !

15 Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Apprentissage par renforcement du modèle de contexte  Expérimentations et résultats  Conclusion 16/10/200915Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

16 Enquête grand public  Objectif  Mesurer les attentes et besoins vis-à-vis de l’« informatique ambiante » et de ses usages  Enquête dirigée par Nadine Mandran (LIG)  Évaluation simultanée de deux systèmes  Notre assistant  Système COMPOSE de Yoann Gabillon (MAGMA et IIHM)  Composition (semi-)automatique, dynamique et contextuelle de services pour répondre aux requêtes utilisateur 16/10/200916Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

17 Modalités de l’enquête  26 sujets interrogés  Non-experts  Répartis de manière suivante : 16/10/200917Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

18 Résultats  44 % des sujets intéressés, 13 % conquis  Profils des sujets intéressés :  Personnes très occupées  Surchargées cognitivement  Apprentissage comme un plus  Système plus fiable Entraînement progressif vs configuration lourde Entraînement simple et agréable (« juste un clic ») 16/10/200918Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

19 Résultats Phase d’apprentissage doit être courte Explications indispensables  Interactions  Variable selon les sujets  Phase optionnelle de débriefing  Erreurs acceptées si conséquences pas graves  Contrôle à l’utilisateur  Révèle habitudes inconscientes  Crainte de devenir « assisté » 16/10/200919Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

20 Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Contraintes  Technologies adoptées  Apprentissage par renforcement du modèle de contexte  Expérimentations et résultats  Conclusion 16/10/200920Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

21 Système ubiquitaire 16/10/200921Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion Rappel !  Utilise les dispositifs existants Hétérogènes Éparpillés Besoins du système Système multiplateforme Système distribué Protocole de communication Découverte dynamique de services Déploiement facile [Emonet et al., 2006]

22 Interconnexion des modules 16/10/200922Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg CapteursActionneurs

23 Exemple d’échanges de messages 16/10/200923Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion protee Text2Speech sur protee ? Text2Speech sur protee ? Oui ! Non… Installe et démarre Text2Speech Dépôt de bundles bundles

24 Base de données  Regroupe  Connaissances statiques  Historique des événements et actions  Permet de fournir des explications  Centralisée  Interrogée  Alimentée  Simplifie les requêtes 16/10/200924Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg par tous les modules sur tous les dispositifs

25 Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Apprentissage par renforcement du modèle de contexte  Apprentissage par renforcement  Application de l’apprentissage par renforcement  Expérimentations et résultats  Conclusion 16/10/200925Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

26 Rappel : nos contraintes  Entraînement simple  Apprentissage rapide  Cohérence au départ  Apprentissage à vie  Explications 16/10/200926Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Supervisé [Brdiczka et al., 2007]

27 Apprentissage par renforcement (AR) 16/10/200927Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg  Propriété de Markov  L’état à l’instant t ne dépend que de l’état à l’instant t-1

28 Algorithme standard  Q -Learning [Watkins, 1989]  Mise-à-jour des Q -valeurs lors d’une nouvelle expérience {état, action, état suivant, récompense}  Lent car ne progresse que lorsque quelque chose se passe  A besoin de beaucoup d’exemples pour apprendre un comportement 16/10/200928Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

29 Exemple 16/10/200929Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Rapide Loin de la porte + Rapide = Ouvrir la porte Modèle du monde

30 Architecture DYNA 16/10/200930Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Agent Monde Modèle du monde ActionRécompenseÉtat DYNA Switch [Sutton, 1991]

31 Politique Architecture DYNA 16/10/200931Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Modèle du monde Utilisation Mise-à-jour Politique Interactions réelles

32 Fonctionnement global 16/10/200932Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique

33 Modélisation du problème  Composants :  États  Actions 16/10/200933Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique  Composants :  Modèle de transition  Modèle de récompense

34 L’espace d’états 16/10/200934Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Prédicats Prédicats système Prédicats environnement Karl

35 L’espace d’états  Division d’états  arrivéeEmail( de= directeur, à= )  Notifier  arrivéeEmail(de = newsletter, à= )  Ne pas notifier 16/10/200935Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

36 Modélisation du problème 16/10/200936Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Buffet, 2003]

37 L’espace d’actions  Les actions possibles combinent  Transmettre un rappel à l’utilisateur  Informer d’un nouvel email  Verrouiller l’écran d’un ordinateur  Déverrouiller l’écran d’un ordinateur  Pauser la musique jouant sur un ordinateur  Relancer la musique jouant sur un ordinateur  Ne rien faire 16/10/200937Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

38 Récompenses  Récompenses explicites  Par une interface non intrusive  Récompenses implicites  Collectées à partir d’indices (valeur numérique moindre) 16/10/200938Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

39 Modèle de l’environnement  Construits par apprentissage supervisé  À partir d’exemples réels  Initialisés par le sens commun  Système fonctionnel immédiatement  Modèle initial vs. Q-valeurs initiales [Kaelbling, 2004]  Extensibilité 16/10/200939Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Modèle de récompense Modèle de transition Modèle de récompense

40 Modèle de transition 16/10/200940Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 s2s2 États de départ Action ou événement Modifications Modèle de récompense Modèle de transition + Probabilité

41 Apprentissage supervisé du modèle de transition  La base de données contient des exemples {état précédent, action, état suivant} 16/10/200941Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s s’ … t2t2 t1t1 t3t3 t n+1

42 Fonctionnement global 16/10/200942Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique

43 Épisode 16/10/200943Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Agentd’AR Environnement Modèle du monde Base de données Appris à partir d’interactions réelles ou Q-Learning : mise à jour de Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Mise-à-jour Politique Expérience Politique

44 Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Apprentissage par renforcement du modèle de contexte  Expérimentations et résultats  Conclusion 16/10/200944Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

45 Expérimentations  Enquête grand public  évaluation qualitative  Évaluations quantitatives en 2 étapes :  Évaluation de la phase initiale  Évaluation du système en fonctionnement normal 16/10/200945Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

46 Évaluation n°1 « autour de l’apprentissage initial » 16/10/200946Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

47 Évaluation n°1 « autour de l’apprentissage initial » 16/10/200947Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Nombre d’itérations par épisode :

48 Évaluation n°2 « interactions et apprentissages » 16/10/200948Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

49 Évaluation n°2 « interactions et apprentissages » 16/10/200949Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

50 Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Apprentissage par renforcement du modèle de contexte  Expérimentations et résultats  Conclusion 16/10/200950Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

51 Contributions  Personnalisation d’un système ubiquitaire  Sans spécification explicite  Évolutive  Adaptation de l’apprentissage par renforcement indirect à un problème réel  Construction d’un modèle du monde  Injection de connaissances initiales  Mise en place d’un prototype 16/10/200951Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

52 Perspectives  Analyse non-interactive des données  Interactions avec l’utilisateur  Phase de débriefing 16/10/200952Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

53 Conclusion  L’assistant est un moyen de faire une application d’intelligence ambiante  C’est l’utilisateur qui le rend intelligent 16/10/200953Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

54 Merci de votre attention Questions ? 16/10/200954Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

55 Bibliographie [Bellotti et Edwards, 2001] Victoria B ELLOTTI et Keith E DWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, 2001. [Brdiczka et al., 2007]Oliver B RDICZKA, James L. C ROWLEY et Patrick R EIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, 2007. [Buffet, 2003]Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, 2003. [Emonet et al., 2006]Rémi Emonet, Dominique Vaufreydaz, Patrick Reignier et Julien Letessier. « O3MiSCID: an Object Oriented Opensource Middleware for Service Connection, Introspection and Discovery ». Dans1 st IEEE International Workshop on Services Integration in Pervasive Environments, 2006. [Kaelbling, 2004]Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, 2004. [Maes, 1994]Pattie M AES. « Agents that reduce work and information overload ». Dans Commun. ACM, 1994. [Maisonnasse 2007]Jerome M AISONNASSE, Nicolas G OURIER, Patrick R EIGNIER et James L. C ROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, 2007. [Moore, 1975]Gordon E. M OORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting,1975. 16/10/200955Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

56 Bibliographie [Nonogaki et Ueda, 1991] Hajime Nonogaki et Hirotada Ueda. « FRIEND21 project: a construction of 21st century human interface ». Dans CHI '91: Proceedings of the SIGCHI conference on Human factors in computing systems, 1991. [Roman et al., 2002]Manuel R OMAN, Christopher K. H ESS, Renato C ERQUEIRA, Anand R ANGANATHAN, Roy H. C AMPBELL et Klara N AHRSTEDT. « Gaia: A Middleware Infrastructure to Enable Active Spaces ». Dans IEEE Pervasive Computing, 2002. [Sutton, 1991]Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, 1991. [Weiser, 1991]Mark W EISER. « The computer for the 21 st century ». Dans Scientic American, 1991. [Weiser, 1994]Mark W EISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, 1993. [Weiser et Brown, 1996] Mark W EISER et John Seely B ROWN. « The coming age of calm technology ». http://www.ubiq.com/hypertext/weiser/acmfuture2endnote.htm, 1996. http://www.ubiq.com/hypertext/weiser/acmfuture2endnote.htm [Watkins, 1989]CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, 1989. 16/10/200956Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

57 Interconnexion des modules 16/10/200957Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg CapteursActionneurs

58 Service OM i SCID 16/10/200958Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

59 Définition d’un état 16/10/200959Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

60 Modèle de l’environnement 16/10/200960Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle État E[ état suivant ] E[ renforcement ] ActionÉvénement ou

61 Réduction de l’espace d’états  Accélération de l’apprentissage  Factorisation d’états  Division d’états 16/10/200961Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg ÉtatAction Q -valeur …entrance(isAlone=true, friendlyName=, btAddress= )… pauseMusic125.3 ÉtatAction Q -valeur …hasUnreadMail(from=boss, to=, subject=, body= )… inform144.02 …hasUnreadMail(from=newsletter, to=, subject=, body= )… notInform105 Jokers et

62 Récompenses  Récompenses explicites  Par une interface non intrusive  Récompenses implicites  Collectées à partir d’indices (valeur numérique moindre)  Problèmes récompenses utilisateur  Pas toujours données  Rétro propagation dans le Q-Learning  Traces d’éligibilité  Pas toujours fiables  Utilisation du modèle de récompense 16/10/200962Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

63 Le simulateur de l’environnement 16/10/200963Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

64 Le simulateur de l’environnement  Scénarios du simulateur  Permet de simuler l’utilisateur  Envoie des événements capteurs correspondant à des actions de l’utilisateur  Exemple : 1. « Sofia est dans le bureau » ; 2. « Nouvel email de diffusion » ; 3. « Rappel : barbecue de l’équipe a 13h » ; 4. « Sofia quitte le bureau » ; 5. « Bob entre dans le bureau » ; 6. « Sofia entre dans le bureau » ; 16/10/200964Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

65 Le simulateur de l’environnement  À chaque étape, le scénario prédéfinit  L’état souhaité après l’événement  La récompense donnée si cet état est atteint  Le simulateur envoie une récompense  Dépend de la distance entre l’état souhaité et l’état atteint 16/10/200965Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

66 Distance entre états  Le nombre de transformations nécessaires pour obtenir s 2 à partir de s 1. 16/10/200966Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

67 Évaluation n°1 modèle du monde parfait  Utilisation d’un modèle du monde défini à la main pour isoler l’efficacité de l’AR  L’AR s’effectue en arrière-plan (n’a pas besoin du scénario) à partir des modèles et des événements survenus et enregistrés dans la BD (donc a besoin du scénario 1 fois)  Le scénario sert à visualiser l’avancement de l’apprentissage  Lorsque la récompense donnée est toujours maximale, alors l’AR a convergé vers le comportement souhaité 16/10/200967Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

68 Évaluation n°1 « modèle du monde parfait » 16/10/200968Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

69 Évaluation n°2 autour de l’apprentissage initial  But : choisir la manière optimale d’exécuter la phase d’apprentissage initial  Part des modèles par défaut  Exécute des épisodes de Q-Learning pour les « convertir » en comportement  Paramètres à fixer  Combien d’épisodes ?  Combien d’itérations dans chaque épisode ?  Quel est l’état initial de chaque épisode ?  Par défaut,  Toutes valeurs tirées au hasard,  Un état tiré au hasard parmi les états déjà rencontrés ?  Quel événement à chaque pas d’un épisode ?  Généré aléatoirement,  Tiré au hasard parmi tous les événements déjà observés ? 16/10/200969Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

70 Critère d’évaluation : la note  Résultat de l’AR : une Q-table  Comment savoir si elle est « bonne » ?  Apprentissage réussi si  Comportement correspond aux souhaits de l’utilisateur  Et c’est mieux si on a beaucoup exploré et si on a une estimation du comportement dans beaucoup d’états 16/10/200970Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

71 Évaluation n°3 interactions et apprentissages  Point de départ = comportement initial appris lors de l’expérience précédente  L’expérimentateur utilise le tableau de bord pour reproduire l’utilisateur  L’apprentissage supervisé s’effectue tous les 6 pas  1 minute sépare deux épisodes 16/10/200971Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

72 « Le tableau de bord » 16/10/200972Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg  Permet d’envoyer par un clic les mêmes événements que les capteurs

73 Bibliographie  [Weiser, 1991] Mark W EISER. « The computer for the 21 st century ». Dans Scientic American, 1991.  [Weiser, 1994] Mark W EISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, 1993.  [Weiser et Brown, 1996] Mark W EISER et John Seely B ROWN. « The coming age of calm technology ». http://www.ubiq.com/hypertext/weiser/acmfuture2endnote.htm, 1996. http://www.ubiq.com/hypertext/weiser/acmfuture2endnote.htm  [Moore, 1975] Gordon E. M OORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting,1975.  [Maisonnasse 2007] Jerome M AISONNASSE, Nicolas G OURIER, Patrick R EIGNIER et James L. C ROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, 2007.  [Maes, 1994] Pattie M AES. « Agents that reduce work and information overload ». Dans Commun. ACM, 1994.  [Bellotti et Edwards, 2001] Victoria B ELLOTTI et Keith E DWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, 2001.  [Brdiczka et al., 2007] Oliver B RDICZKA, James L. C ROWLEY et Patrick R EIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, 2007.  [Watkins, 1989] CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, 1989.  [Sutton, 1991] Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, 1991.  [Buffet, 2003] Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, 2003.  [Kaelbling, 2004] Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, 2004. 16/10/200973Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

74 Apprentissage par renforcement de modèles de contexte pour l’informatique ambiante M. James L. C ROWLEY M. Patrick R EIGNIER M me Marie-Pierre G LEIZES Sofia Z AIDENBERG Laboratoire d’Informatique de Grenoble Équipe P RIMA Sous la direction de Patrick R EIGNIER et James L. C ROWLEY M me Brigitte P LATEAU M. Olivier S IGAUD M. Olivier B OISSIER Jury composé de 16 octobre 2009

75 Informatique ambiante  Évolution électronique  Tous les 18 mois : nombre de transistors sur les circuits intégrés × 2  Dispositifs « autistes »  Indépendants  Inconscients  Hétérogènes 16/10/200975Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Moore, 1975][Crowley]  Tous les 3 ans : nombre de dispositifs autour d’une personne × 2

76 Exemples 16/10/200976Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

77 Contexte 16/10/200977Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

78 Entretien  Entretien d’une heure, comportant  Des questions ouvertes sur l’informatique ambiante  La présentation d’une maquette de chaque système  Des questions sur les maquettes (avis, avantages, inconvénients)  Des questions sur l’acceptabilité de l’assistant  Incitation du sujet à s’exprimer librement 16/10/200978Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

79 Système ubiquitaire réalisé 79  Utilise les dispositifs existants  Dispositifs hétérogènes  système multiplateforme  Dispositifs éparpillés  système distribué  Système composé de modules répartis sur les dispositifs  Besoins du système  Protocole de communication entre modules  Découverte de services dynamique  Déploiement facile Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg 16/10/2009

80 Choix techniques 16/10/200980Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

81 Déploiement de modules : OSG i  Système distribué, réseau complexe et dynamique de modules  besoin de faciliter et automatiser le déploiement  OSGi permet :  Le déploiement à chaud  L’administration à distance  La gestion des modules à partir d’un dépôt central 16/10/200981Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

82 Modules  Capteurs  Détecteur de présence Bluetooth  Localisation des personnes dans l’environnement  Détecteur de nouveaux messages électroniques  Détecteur de rappels de l’agenda  Détecteur de l’état de l’ordinateur  Musique, économiseur d’écran  Activité clavier/souris  Actionneurs  Synthèse vocale  Affichage de messages écrits  Envoi de mails  Contrôle des applications (musique, économiseur d’écran)  L’assistant personnel 16/10/200982Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

83 Dispositifs équipés 16/10/200983Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg BDBD

84 PersonalAgent sendMessage shellCommand Text2Speech text remoteShell command Plateforme Oscar sur protee Text2Speech sur protee ? Oui ! Installe et démarre Text2Speech Fait Dépôt de bundles bundles Non… Exemple d’échanges de messages

85 Notion de contexte  Identifier les entités et leurs rôles pertinents pour l’application  Chacune de leurs configurations est une situation  Dans chaque situation il faut sélectionner une action 16/10/200985Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

86 Apprentissage par renforcement (AR)  Entrainement = récompenses  Apprend un comportement (une politique d’action)  Basé sur des valeurs de qualité Q(état, action)  Basé sur un Processus décisionnel de Markov (PDM)  Ensemble d’états  Ensemble d’actions  Fonction de transition  Fonction de récompense  Propriété de Markov  L’état à l’instant t ne dépend que de l’état à l’instant t-1 16/10/200986Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

87 Apprentissage par renforcement indirect  Rejouer mentalement expériences vécues pour les exploiter davantage  Permet d’explorer espace états actions pour avoir estimation comportement  Se fait en construisant un modèle du monde  À partir d’observations réelles  Architecture DYNA 16/10/200987Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

88 Modèle de transition  Ensemble de transformations d’un état vers le suivant étant donnée une action  Une transformation est composée de  Un état précédent  Des modifications  L’action  Une probabilité 16/10/200988Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

89 Modèle de transition exemple 16/10/200989Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg lockScreen <*> <*> <*> <*> <+> <+> <+> <*> <*> <*> hyperion, true true,

90 Modèle de transition 16/10/200990Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 s2s2 États de départ Action ou événement Modifications + Probabilité Modèle de récompense Modèle de transition

91 Apprentissage supervisé du modèle de transition  La base de données contient des exemples {état précédent, action, état suivant} 16/10/200991Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg sa s’ s a t2t2 a t1t1 tntn … s s a s a t n+1 a t1t1 tntn … s a s’ s Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

92 Apprentissage supervisé du modèle de transition  La base de données contient des exemples {état précédent, action, état suivant} 16/10/200992Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s as’ s s s … a a a s a t2t2 t1t1 t n+1 t3t3

93 Apprentissage supervisé du modèle de transition  Capacité de généralisation du modèle  Nouvel exemple  nouvelle transformation générique 16/10/200993Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

94 Modèle de récompense  Ensemble d’entrées spécifiant  Des contraintes sur certains arguments de l’état  Une action  La récompense 16/10/200994Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

95 Modèle de récompense exemple 16/10/200995Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg <*> <*> <*> lockScreen <+> <+> -50 -50

96 Modèle de récompense 16/10/200996Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 -50 États de départ Action Récompense Modèle de transition Modèle de récompense

97 Apprentissage supervisé du modèle de récompense  La base de données contient des exemples {état, action, récompense} 16/10/200997Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg sa r sa e2e2 a e1e1 enen … s s a r r r sa e n+1 a e1e1 enen … s s a r r r r Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

98 Apprentissage supervisé du modèle de récompense  La base de données contient des exemples {état précédent, action, récompense} 16/10/200998Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s ar s s s … ar s ar e1e1 e n+1

99 Fonctionnement global 16/10/200999Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données Q -table État Politique Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense

100 Épisode 16/10/2009100Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Agentd’AR Environnement Modèle du monde Base de données Appris à partir d’interactions réelles Utilise la nouvelle politique ou Q-learning : mise à jour de Q -table Politique Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Mise-à-jour


Télécharger ppt "Apprentissage par renforcement de modèles de contexte pour l’informatique ambiante Sofia Z AIDENBERG Laboratoire d’Informatique de Grenoble Équipe P RIMA."

Présentations similaires


Annonces Google