Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parMaurice Lemieux Modifié depuis plus de 9 années
1
Apprentissage par renforcement de modèles de contexte pour l’informatique ambiante Sofia Z AIDENBERG Laboratoire d’Informatique de Grenoble Équipe P RIMA Jury composé de 16 octobre 2009 M me Brigitte P LATEAU M. Olivier S IGAUD M. Olivier B OISSIER M. James L. C ROWLEY M. Patrick R EIGNIER M me Marie-Pierre G LEIZES Présidente du jury Rapporteur Directeur de thèse Co-directeur de thèse Examinatrice
2
Informatique ambiante 16/10/20092Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Informatique ubiquitaire [Weiser, 1991] [Weiser, 1994] [Weiser et Brown, 1996]
3
16/10/20093Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
4
416/10/2009Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
5
L’informatique ambiante Dispositifs « autistes » Indépendants Hétérogènes Inconscients Système ubiquitaire Accompagner sans s’imposer En périphérie de l’attention Invisible Informatique calme 16/10/20095Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
6
Intelligence ambiante 16/10/20096Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg 1.Perception 2.Décision
7
État de l’art 16/10/20097Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Roman et al., 2002][Nonogaki et Ueda, 1991] FRIEND 21Gaia Blossom Sajid S ADI et Pattie M AES http://consciousanima.net/projects/blossom/
8
Problématique Personnalisation Situation + utilisateur action 16/10/20098Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
9
Personnalisation Personnalisation d’un agent informatique complexe qui assiste l’utilisateur. Deux solutions [Maes, 1994] L’utilisateur spécifie lui-même le comportement Système trop complexe Tâche laborieuse Peu-évolutif Choix prédéfini par un expert Non-personnalisé Non-évolutif Utilisateur ne maîtrise pas tout le système 16/10/20099Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
10
Solution proposée 16/10/200910Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
11
Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200911Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
12
Système proposé 16/10/200912Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
13
Contraintes 16/10/200913Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg système s’adapte aux changements de l’environnement et des préférences
14
Exemple 16/10/200914Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion Rappel !
15
Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200915Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
16
Enquête grand public Objectif Mesurer les attentes et besoins vis-à-vis de l’« informatique ambiante » et de ses usages Enquête dirigée par Nadine Mandran (LIG) Évaluation simultanée de deux systèmes Notre assistant Système COMPOSE de Yoann Gabillon (MAGMA et IIHM) Composition (semi-)automatique, dynamique et contextuelle de services pour répondre aux requêtes utilisateur 16/10/200916Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
17
Modalités de l’enquête 26 sujets interrogés Non-experts Répartis de manière suivante : 16/10/200917Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
18
Résultats 44 % des sujets intéressés, 13 % conquis Profils des sujets intéressés : Personnes très occupées Surchargées cognitivement Apprentissage comme un plus Système plus fiable Entraînement progressif vs configuration lourde Entraînement simple et agréable (« juste un clic ») 16/10/200918Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
19
Résultats Phase d’apprentissage doit être courte Explications indispensables Interactions Variable selon les sujets Phase optionnelle de débriefing Erreurs acceptées si conséquences pas graves Contrôle à l’utilisateur Révèle habitudes inconscientes Crainte de devenir « assisté » 16/10/200919Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
20
Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire Contraintes Technologies adoptées Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200920Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
21
Système ubiquitaire 16/10/200921Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion Rappel ! Utilise les dispositifs existants Hétérogènes Éparpillés Besoins du système Système multiplateforme Système distribué Protocole de communication Découverte dynamique de services Déploiement facile [Emonet et al., 2006]
22
Interconnexion des modules 16/10/200922Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg CapteursActionneurs
23
Exemple d’échanges de messages 16/10/200923Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion protee Text2Speech sur protee ? Text2Speech sur protee ? Oui ! Non… Installe et démarre Text2Speech Dépôt de bundles bundles
24
Base de données Regroupe Connaissances statiques Historique des événements et actions Permet de fournir des explications Centralisée Interrogée Alimentée Simplifie les requêtes 16/10/200924Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg par tous les modules sur tous les dispositifs
25
Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire Apprentissage par renforcement du modèle de contexte Apprentissage par renforcement Application de l’apprentissage par renforcement Expérimentations et résultats Conclusion 16/10/200925Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
26
Rappel : nos contraintes Entraînement simple Apprentissage rapide Cohérence au départ Apprentissage à vie Explications 16/10/200926Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Supervisé [Brdiczka et al., 2007]
27
Apprentissage par renforcement (AR) 16/10/200927Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Propriété de Markov L’état à l’instant t ne dépend que de l’état à l’instant t-1
28
Algorithme standard Q -Learning [Watkins, 1989] Mise-à-jour des Q -valeurs lors d’une nouvelle expérience {état, action, état suivant, récompense} Lent car ne progresse que lorsque quelque chose se passe A besoin de beaucoup d’exemples pour apprendre un comportement 16/10/200928Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
29
Exemple 16/10/200929Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Rapide Loin de la porte + Rapide = Ouvrir la porte Modèle du monde
30
Architecture DYNA 16/10/200930Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Agent Monde Modèle du monde ActionRécompenseÉtat DYNA Switch [Sutton, 1991]
31
Politique Architecture DYNA 16/10/200931Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Modèle du monde Utilisation Mise-à-jour Politique Interactions réelles
32
Fonctionnement global 16/10/200932Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique
33
Modélisation du problème Composants : États Actions 16/10/200933Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Composants : Modèle de transition Modèle de récompense
34
L’espace d’états 16/10/200934Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Prédicats Prédicats système Prédicats environnement Karl
35
L’espace d’états Division d’états arrivéeEmail( de= directeur, à= ) Notifier arrivéeEmail(de = newsletter, à= ) Ne pas notifier 16/10/200935Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
36
Modélisation du problème 16/10/200936Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Buffet, 2003]
37
L’espace d’actions Les actions possibles combinent Transmettre un rappel à l’utilisateur Informer d’un nouvel email Verrouiller l’écran d’un ordinateur Déverrouiller l’écran d’un ordinateur Pauser la musique jouant sur un ordinateur Relancer la musique jouant sur un ordinateur Ne rien faire 16/10/200937Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique
38
Récompenses Récompenses explicites Par une interface non intrusive Récompenses implicites Collectées à partir d’indices (valeur numérique moindre) 16/10/200938Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique
39
Modèle de l’environnement Construits par apprentissage supervisé À partir d’exemples réels Initialisés par le sens commun Système fonctionnel immédiatement Modèle initial vs. Q-valeurs initiales [Kaelbling, 2004] Extensibilité 16/10/200939Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Modèle de récompense Modèle de transition Modèle de récompense
40
Modèle de transition 16/10/200940Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 s2s2 États de départ Action ou événement Modifications Modèle de récompense Modèle de transition + Probabilité
41
Apprentissage supervisé du modèle de transition La base de données contient des exemples {état précédent, action, état suivant} 16/10/200941Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s s’ … t2t2 t1t1 t3t3 t n+1
42
Fonctionnement global 16/10/200942Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique
43
Épisode 16/10/200943Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Agentd’AR Environnement Modèle du monde Base de données Appris à partir d’interactions réelles ou Q-Learning : mise à jour de Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Mise-à-jour Politique Expérience Politique
44
Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200944Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
45
Expérimentations Enquête grand public évaluation qualitative Évaluations quantitatives en 2 étapes : Évaluation de la phase initiale Évaluation du système en fonctionnement normal 16/10/200945Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
46
Évaluation n°1 « autour de l’apprentissage initial » 16/10/200946Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
47
Évaluation n°1 « autour de l’apprentissage initial » 16/10/200947Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Nombre d’itérations par épisode :
48
Évaluation n°2 « interactions et apprentissages » 16/10/200948Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
49
Évaluation n°2 « interactions et apprentissages » 16/10/200949Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
50
Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200950Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
51
Contributions Personnalisation d’un système ubiquitaire Sans spécification explicite Évolutive Adaptation de l’apprentissage par renforcement indirect à un problème réel Construction d’un modèle du monde Injection de connaissances initiales Mise en place d’un prototype 16/10/200951Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
52
Perspectives Analyse non-interactive des données Interactions avec l’utilisateur Phase de débriefing 16/10/200952Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
53
Conclusion L’assistant est un moyen de faire une application d’intelligence ambiante C’est l’utilisateur qui le rend intelligent 16/10/200953Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
54
Merci de votre attention Questions ? 16/10/200954Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
55
Bibliographie [Bellotti et Edwards, 2001] Victoria B ELLOTTI et Keith E DWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, 2001. [Brdiczka et al., 2007]Oliver B RDICZKA, James L. C ROWLEY et Patrick R EIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, 2007. [Buffet, 2003]Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, 2003. [Emonet et al., 2006]Rémi Emonet, Dominique Vaufreydaz, Patrick Reignier et Julien Letessier. « O3MiSCID: an Object Oriented Opensource Middleware for Service Connection, Introspection and Discovery ». Dans1 st IEEE International Workshop on Services Integration in Pervasive Environments, 2006. [Kaelbling, 2004]Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, 2004. [Maes, 1994]Pattie M AES. « Agents that reduce work and information overload ». Dans Commun. ACM, 1994. [Maisonnasse 2007]Jerome M AISONNASSE, Nicolas G OURIER, Patrick R EIGNIER et James L. C ROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, 2007. [Moore, 1975]Gordon E. M OORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting,1975. 16/10/200955Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
56
Bibliographie [Nonogaki et Ueda, 1991] Hajime Nonogaki et Hirotada Ueda. « FRIEND21 project: a construction of 21st century human interface ». Dans CHI '91: Proceedings of the SIGCHI conference on Human factors in computing systems, 1991. [Roman et al., 2002]Manuel R OMAN, Christopher K. H ESS, Renato C ERQUEIRA, Anand R ANGANATHAN, Roy H. C AMPBELL et Klara N AHRSTEDT. « Gaia: A Middleware Infrastructure to Enable Active Spaces ». Dans IEEE Pervasive Computing, 2002. [Sutton, 1991]Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, 1991. [Weiser, 1991]Mark W EISER. « The computer for the 21 st century ». Dans Scientic American, 1991. [Weiser, 1994]Mark W EISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, 1993. [Weiser et Brown, 1996] Mark W EISER et John Seely B ROWN. « The coming age of calm technology ». http://www.ubiq.com/hypertext/weiser/acmfuture2endnote.htm, 1996. http://www.ubiq.com/hypertext/weiser/acmfuture2endnote.htm [Watkins, 1989]CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, 1989. 16/10/200956Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
57
Interconnexion des modules 16/10/200957Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg CapteursActionneurs
58
Service OM i SCID 16/10/200958Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
59
Définition d’un état 16/10/200959Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
60
Modèle de l’environnement 16/10/200960Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle État E[ état suivant ] E[ renforcement ] ActionÉvénement ou
61
Réduction de l’espace d’états Accélération de l’apprentissage Factorisation d’états Division d’états 16/10/200961Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg ÉtatAction Q -valeur …entrance(isAlone=true, friendlyName=, btAddress= )… pauseMusic125.3 ÉtatAction Q -valeur …hasUnreadMail(from=boss, to=, subject=, body= )… inform144.02 …hasUnreadMail(from=newsletter, to=, subject=, body= )… notInform105 Jokers et
62
Récompenses Récompenses explicites Par une interface non intrusive Récompenses implicites Collectées à partir d’indices (valeur numérique moindre) Problèmes récompenses utilisateur Pas toujours données Rétro propagation dans le Q-Learning Traces d’éligibilité Pas toujours fiables Utilisation du modèle de récompense 16/10/200962Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique
63
Le simulateur de l’environnement 16/10/200963Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
64
Le simulateur de l’environnement Scénarios du simulateur Permet de simuler l’utilisateur Envoie des événements capteurs correspondant à des actions de l’utilisateur Exemple : 1. « Sofia est dans le bureau » ; 2. « Nouvel email de diffusion » ; 3. « Rappel : barbecue de l’équipe a 13h » ; 4. « Sofia quitte le bureau » ; 5. « Bob entre dans le bureau » ; 6. « Sofia entre dans le bureau » ; 16/10/200964Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
65
Le simulateur de l’environnement À chaque étape, le scénario prédéfinit L’état souhaité après l’événement La récompense donnée si cet état est atteint Le simulateur envoie une récompense Dépend de la distance entre l’état souhaité et l’état atteint 16/10/200965Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
66
Distance entre états Le nombre de transformations nécessaires pour obtenir s 2 à partir de s 1. 16/10/200966Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
67
Évaluation n°1 modèle du monde parfait Utilisation d’un modèle du monde défini à la main pour isoler l’efficacité de l’AR L’AR s’effectue en arrière-plan (n’a pas besoin du scénario) à partir des modèles et des événements survenus et enregistrés dans la BD (donc a besoin du scénario 1 fois) Le scénario sert à visualiser l’avancement de l’apprentissage Lorsque la récompense donnée est toujours maximale, alors l’AR a convergé vers le comportement souhaité 16/10/200967Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
68
Évaluation n°1 « modèle du monde parfait » 16/10/200968Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
69
Évaluation n°2 autour de l’apprentissage initial But : choisir la manière optimale d’exécuter la phase d’apprentissage initial Part des modèles par défaut Exécute des épisodes de Q-Learning pour les « convertir » en comportement Paramètres à fixer Combien d’épisodes ? Combien d’itérations dans chaque épisode ? Quel est l’état initial de chaque épisode ? Par défaut, Toutes valeurs tirées au hasard, Un état tiré au hasard parmi les états déjà rencontrés ? Quel événement à chaque pas d’un épisode ? Généré aléatoirement, Tiré au hasard parmi tous les événements déjà observés ? 16/10/200969Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
70
Critère d’évaluation : la note Résultat de l’AR : une Q-table Comment savoir si elle est « bonne » ? Apprentissage réussi si Comportement correspond aux souhaits de l’utilisateur Et c’est mieux si on a beaucoup exploré et si on a une estimation du comportement dans beaucoup d’états 16/10/200970Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
71
Évaluation n°3 interactions et apprentissages Point de départ = comportement initial appris lors de l’expérience précédente L’expérimentateur utilise le tableau de bord pour reproduire l’utilisateur L’apprentissage supervisé s’effectue tous les 6 pas 1 minute sépare deux épisodes 16/10/200971Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
72
« Le tableau de bord » 16/10/200972Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Permet d’envoyer par un clic les mêmes événements que les capteurs
73
Bibliographie [Weiser, 1991] Mark W EISER. « The computer for the 21 st century ». Dans Scientic American, 1991. [Weiser, 1994] Mark W EISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, 1993. [Weiser et Brown, 1996] Mark W EISER et John Seely B ROWN. « The coming age of calm technology ». http://www.ubiq.com/hypertext/weiser/acmfuture2endnote.htm, 1996. http://www.ubiq.com/hypertext/weiser/acmfuture2endnote.htm [Moore, 1975] Gordon E. M OORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting,1975. [Maisonnasse 2007] Jerome M AISONNASSE, Nicolas G OURIER, Patrick R EIGNIER et James L. C ROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, 2007. [Maes, 1994] Pattie M AES. « Agents that reduce work and information overload ». Dans Commun. ACM, 1994. [Bellotti et Edwards, 2001] Victoria B ELLOTTI et Keith E DWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, 2001. [Brdiczka et al., 2007] Oliver B RDICZKA, James L. C ROWLEY et Patrick R EIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, 2007. [Watkins, 1989] CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, 1989. [Sutton, 1991] Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, 1991. [Buffet, 2003] Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, 2003. [Kaelbling, 2004] Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, 2004. 16/10/200973Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
74
Apprentissage par renforcement de modèles de contexte pour l’informatique ambiante M. James L. C ROWLEY M. Patrick R EIGNIER M me Marie-Pierre G LEIZES Sofia Z AIDENBERG Laboratoire d’Informatique de Grenoble Équipe P RIMA Sous la direction de Patrick R EIGNIER et James L. C ROWLEY M me Brigitte P LATEAU M. Olivier S IGAUD M. Olivier B OISSIER Jury composé de 16 octobre 2009
75
Informatique ambiante Évolution électronique Tous les 18 mois : nombre de transistors sur les circuits intégrés × 2 Dispositifs « autistes » Indépendants Inconscients Hétérogènes 16/10/200975Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Moore, 1975][Crowley] Tous les 3 ans : nombre de dispositifs autour d’une personne × 2
76
Exemples 16/10/200976Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
77
Contexte 16/10/200977Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
78
Entretien Entretien d’une heure, comportant Des questions ouvertes sur l’informatique ambiante La présentation d’une maquette de chaque système Des questions sur les maquettes (avis, avantages, inconvénients) Des questions sur l’acceptabilité de l’assistant Incitation du sujet à s’exprimer librement 16/10/200978Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
79
Système ubiquitaire réalisé 79 Utilise les dispositifs existants Dispositifs hétérogènes système multiplateforme Dispositifs éparpillés système distribué Système composé de modules répartis sur les dispositifs Besoins du système Protocole de communication entre modules Découverte de services dynamique Déploiement facile Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg 16/10/2009
80
Choix techniques 16/10/200980Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
81
Déploiement de modules : OSG i Système distribué, réseau complexe et dynamique de modules besoin de faciliter et automatiser le déploiement OSGi permet : Le déploiement à chaud L’administration à distance La gestion des modules à partir d’un dépôt central 16/10/200981Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
82
Modules Capteurs Détecteur de présence Bluetooth Localisation des personnes dans l’environnement Détecteur de nouveaux messages électroniques Détecteur de rappels de l’agenda Détecteur de l’état de l’ordinateur Musique, économiseur d’écran Activité clavier/souris Actionneurs Synthèse vocale Affichage de messages écrits Envoi de mails Contrôle des applications (musique, économiseur d’écran) L’assistant personnel 16/10/200982Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
83
Dispositifs équipés 16/10/200983Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg BDBD
84
PersonalAgent sendMessage shellCommand Text2Speech text remoteShell command Plateforme Oscar sur protee Text2Speech sur protee ? Oui ! Installe et démarre Text2Speech Fait Dépôt de bundles bundles Non… Exemple d’échanges de messages
85
Notion de contexte Identifier les entités et leurs rôles pertinents pour l’application Chacune de leurs configurations est une situation Dans chaque situation il faut sélectionner une action 16/10/200985Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
86
Apprentissage par renforcement (AR) Entrainement = récompenses Apprend un comportement (une politique d’action) Basé sur des valeurs de qualité Q(état, action) Basé sur un Processus décisionnel de Markov (PDM) Ensemble d’états Ensemble d’actions Fonction de transition Fonction de récompense Propriété de Markov L’état à l’instant t ne dépend que de l’état à l’instant t-1 16/10/200986Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
87
Apprentissage par renforcement indirect Rejouer mentalement expériences vécues pour les exploiter davantage Permet d’explorer espace états actions pour avoir estimation comportement Se fait en construisant un modèle du monde À partir d’observations réelles Architecture DYNA 16/10/200987Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
88
Modèle de transition Ensemble de transformations d’un état vers le suivant étant donnée une action Une transformation est composée de Un état précédent Des modifications L’action Une probabilité 16/10/200988Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
89
Modèle de transition exemple 16/10/200989Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg lockScreen <*> <*> <*> <*> <+> <+> <+> <*> <*> <*> hyperion, true true,
90
Modèle de transition 16/10/200990Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 s2s2 États de départ Action ou événement Modifications + Probabilité Modèle de récompense Modèle de transition
91
Apprentissage supervisé du modèle de transition La base de données contient des exemples {état précédent, action, état suivant} 16/10/200991Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg sa s’ s a t2t2 a t1t1 tntn … s s a s a t n+1 a t1t1 tntn … s a s’ s Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique
92
Apprentissage supervisé du modèle de transition La base de données contient des exemples {état précédent, action, état suivant} 16/10/200992Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s as’ s s s … a a a s a t2t2 t1t1 t n+1 t3t3
93
Apprentissage supervisé du modèle de transition Capacité de généralisation du modèle Nouvel exemple nouvelle transformation générique 16/10/200993Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
94
Modèle de récompense Ensemble d’entrées spécifiant Des contraintes sur certains arguments de l’état Une action La récompense 16/10/200994Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg
95
Modèle de récompense exemple 16/10/200995Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg <*> <*> <*> lockScreen <+> <+> -50 -50
96
Modèle de récompense 16/10/200996Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 -50 États de départ Action Récompense Modèle de transition Modèle de récompense
97
Apprentissage supervisé du modèle de récompense La base de données contient des exemples {état, action, récompense} 16/10/200997Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg sa r sa e2e2 a e1e1 enen … s s a r r r sa e n+1 a e1e1 enen … s s a r r r r Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique
98
Apprentissage supervisé du modèle de récompense La base de données contient des exemples {état précédent, action, récompense} 16/10/200998Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s ar s s s … ar s ar e1e1 e n+1
99
Fonctionnement global 16/10/200999Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données Q -table État Politique Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense
100
Épisode 16/10/2009100Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Agentd’AR Environnement Modèle du monde Base de données Appris à partir d’interactions réelles Utilise la nouvelle politique ou Q-learning : mise à jour de Q -table Politique Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Mise-à-jour
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.