Apprentissage par renforcement de modèles de contexte pour l’informatique ambiante Sofia Z AIDENBERG Laboratoire d’Informatique de Grenoble Équipe P RIMA.

Slides:



Advertisements
Présentations similaires
22 mai 2007 Clauvice Kenfack – Équipe MODEME
Advertisements

Karima Boudaoud, Charles McCathieNevile
La formation intellectuelle par l’apprentissage par problèmes
IREMIA : Institut de REcherche en Mathématiques et Informatique Appliquées Université de la Réunion Uniformisation des mécanismes de conception de SMA.
Présentation des programmes de terminale STG Juin 2006.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
M-Traces et Système à Base de M-Traces
Mise en œuvre d’une démarche et d’un outil de gestion de « connaissances métier » basés sur la collaboration. Cyril BEYLIER
1 DISIC Option Systèmes Intelligents / Données, Documents et Connaissances DISIC Option Systèmes Intelligents / Données, Documents et Connaissances.
TECHNOLOGIE 4ème Professeur : Baptiste DUMAS.
Laboratoire d ’Interaction Collaborative, Téléformation, Téléactivités
Sofia Zaidenberg Laboratoire d’Informatique de Grenoble Équipe Prima
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
L ’enseignement de la construction en BEP industriel
Jalel Saâdi La Faculté des Sciences de Bizerte * * * * *
A la frontière entre WMS et TMS Une nouvelle génération d’applications qui font tomber les barrières : Vous voulez réduire le coût de.
Agents apprenants pour l'intelligence ambiante
L’avancement du mémoire 19 avril 2005
Frédéric Amblard, Guillaume Deffuant – Cemagref LISC 22 Octobre 2002 – Table ronde Simulation AFH Nantes SimExplorer: un outil logiciel daide à lexploration.
Aide à la décision et à la négociation dans un problème de gestion de production distribuée Jean-Pierre Camalot et Patrick Esquirol LAAS-CNRS 7, avenue.
Composition dapplications interactives …et lutilisateur dans tout ça? Benjamin Caramel Laboratoire i3S - équipe Rainbow
Exploitation du modèle holonique dans un cadre combinant IAD et IHM
Environnements Informatiques
La différenciation pédagogique
« Pédagogie universitaire numérique »
Définir des caractéristiques chercher de linformation? sur un support électronique? Élaborer un cadre théorique pour comprendre les enjeux et proposer.
I.Aperçu du projet II.Organisation du projet III.Processus de gestion IV.Processus technique V.Conclusion.
Apprendre à distance : tuteur, un rôle indispensable ?
Cours Ergonomie des Interactions Personne-Machine 17 et 23 novembre 2011 Les différentes méthodologies dévaluation en IPM Mireille Bétrancourt - TECFA.
Tutoriels dintroduction et systèmes daides pour débutants Lapprentissage dun jeu ou par extension dune interface quelconque ainsi que sa maîtrise ne va.
La méthodologie expérimentale Fondements et bases d’application
La méthodologie expérimentale Fondements et bases d’application
Universté de la Manouba
Vincent Thomas Christine Bourjot Vincent Chevrier
Stéphanie Bernonville 1, 2 Christophe Kolski 2
ADAMOS Une plate-forme pour concevoir et évaluer des services proactifs Système proactif ? qui évolue en fonction des paramètres de lenvironnement physique.
Sofia Zaidenberg Laboratoire d’Informatique de Grenoble Équipe Prima
Module 2 : Préparation de l'analyse des performances du serveur
Le portfolio d’apprentissage à l’École d’architecture
Sensibilisation a la modelisation
Typologie des outils L ’exerciseur Le tutoriel :
Module 8 : Surveillance des performances de SQL Server
Compétences relatives à l’employabilité
Frédéric Amblard*, Guillaume Deffuant**,
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Amélioration de la performance des SISR et de l’utilisation de l’information pour la gestion des systèmes de santé CESAG, Dakar, du 03 au 21 Mai 2010 Solutions.
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
Requêtes homme-agent sur le fonctionnement Etudiantes: Anne DARME & Céline GIRARD Encadrant: Nicolas SABOURET Rapporteur: Vincent CORRUBLE Responsable:
Fast and Furious Decision Tree Induction
Comparaison de deux dispositifs d'apprentissage, coopératif et individuel, au regard des performances obtenues par les étudiants Comparaison de deux dispositifs.
10 juin 2008 Journée Technologies et Enjeux de l'Apprentissage Mobile Equipe SIMBAD.
Spécialités Gestion et Finance Ressources humaines et communication
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
1 1.
A-t-on besoin des psychologues pour concevoir des environnements d’apprentissage ? Pr. Patrick Mendelsohn TECFA Faculté de Psychologie et des Sciences.
Architecture pour la conception de SIP incluant plusieurs contextes d’utilisation Tarak Chaari INSA de Lyon – 08/06/2004 INSA de Lyon – 08/06/2004.
L’enseignement de spécialité SLAM
Application à la viabilité des systèmes irrigués à Podor de la modélisation à la restitution aux paysans Olivier Barreteau.
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Citrix ® Presentation Server 4.0 : Administration Module 9 : Déploiement d'applications.
Environnements informatisés d’apprentissage : Définition du projet
Cible : ensemble des salariés du Groupe dans le monde, tous métiers confondus ( collaborateurs) + nouveaux entrants Langues : anglais, français,
GDRI Nancy GT 4.3 Mobilité et Ubiquité 1 Le Contexteur : une Abstraction Logicielle pour la Réalisation de Systèmes Interactifs Sensibles au Contexte.
UNE EXPERIENCE DE BLENDED LEARNING EN ECOLE D’INGENIEUR
Bac STG:épreuve de spécialité
Sofia Zaidenberg Laboratoire d’Informatique de Grenoble Équipe Prima
1 Session de formation Windows 8.1 Bienvenue !. Module de formation 2 2 Sujets : Gérez les applications et le multitâche Trouvez et épinglez des applications.
1 I.U.T. DE NICE CÔTE D'AZUR DÉPARTEMENT INFORMATIQUE SESSION 2007 ‑ 2008 Sous la direction de : M. Gaëtan Rey, tuteur entreprise. M.Michel Syska, tuteur.
Page 1 Le nouvel outil d’écoute clients dédié aux professionnels de l’évènementiel E vent S at.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Transcription de la présentation:

Apprentissage par renforcement de modèles de contexte pour l’informatique ambiante Sofia Z AIDENBERG Laboratoire d’Informatique de Grenoble Équipe P RIMA Jury composé de 16 octobre 2009 M me Brigitte P LATEAU M. Olivier S IGAUD M. Olivier B OISSIER M. James L. C ROWLEY M. Patrick R EIGNIER M me Marie-Pierre G LEIZES Présidente du jury Rapporteur Directeur de thèse Co-directeur de thèse Examinatrice

Informatique ambiante 16/10/20092Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Informatique ubiquitaire [Weiser, 1991] [Weiser, 1994] [Weiser et Brown, 1996]

16/10/20093Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

416/10/2009Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

L’informatique ambiante  Dispositifs « autistes »  Indépendants  Hétérogènes  Inconscients  Système ubiquitaire  Accompagner sans s’imposer  En périphérie de l’attention  Invisible  Informatique calme 16/10/20095Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Intelligence ambiante 16/10/20096Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg 1.Perception 2.Décision

État de l’art 16/10/20097Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Roman et al., 2002][Nonogaki et Ueda, 1991] FRIEND 21Gaia Blossom Sajid S ADI et Pattie M AES

Problématique  Personnalisation  Situation + utilisateur  action 16/10/20098Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Personnalisation  Personnalisation d’un agent informatique complexe qui assiste l’utilisateur.  Deux solutions [Maes, 1994]  L’utilisateur spécifie lui-même le comportement  Système trop complexe  Tâche laborieuse  Peu-évolutif  Choix prédéfini par un expert  Non-personnalisé  Non-évolutif  Utilisateur ne maîtrise pas tout le système 16/10/20099Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Solution proposée 16/10/200910Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Apprentissage par renforcement du modèle de contexte  Expérimentations et résultats  Conclusion 16/10/200911Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Système proposé 16/10/200912Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Contraintes 16/10/200913Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg système s’adapte aux changements de l’environnement et des préférences

Exemple 16/10/200914Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion Rappel !

Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Apprentissage par renforcement du modèle de contexte  Expérimentations et résultats  Conclusion 16/10/200915Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Enquête grand public  Objectif  Mesurer les attentes et besoins vis-à-vis de l’« informatique ambiante » et de ses usages  Enquête dirigée par Nadine Mandran (LIG)  Évaluation simultanée de deux systèmes  Notre assistant  Système COMPOSE de Yoann Gabillon (MAGMA et IIHM)  Composition (semi-)automatique, dynamique et contextuelle de services pour répondre aux requêtes utilisateur 16/10/200916Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Modalités de l’enquête  26 sujets interrogés  Non-experts  Répartis de manière suivante : 16/10/200917Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Résultats  44 % des sujets intéressés, 13 % conquis  Profils des sujets intéressés :  Personnes très occupées  Surchargées cognitivement  Apprentissage comme un plus  Système plus fiable Entraînement progressif vs configuration lourde Entraînement simple et agréable (« juste un clic ») 16/10/200918Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Résultats Phase d’apprentissage doit être courte Explications indispensables  Interactions  Variable selon les sujets  Phase optionnelle de débriefing  Erreurs acceptées si conséquences pas graves  Contrôle à l’utilisateur  Révèle habitudes inconscientes  Crainte de devenir « assisté » 16/10/200919Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Contraintes  Technologies adoptées  Apprentissage par renforcement du modèle de contexte  Expérimentations et résultats  Conclusion 16/10/200920Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Système ubiquitaire 16/10/200921Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion Rappel !  Utilise les dispositifs existants Hétérogènes Éparpillés Besoins du système Système multiplateforme Système distribué Protocole de communication Découverte dynamique de services Déploiement facile [Emonet et al., 2006]

Interconnexion des modules 16/10/200922Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg CapteursActionneurs

Exemple d’échanges de messages 16/10/200923Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion protee Text2Speech sur protee ? Text2Speech sur protee ? Oui ! Non… Installe et démarre Text2Speech Dépôt de bundles bundles

Base de données  Regroupe  Connaissances statiques  Historique des événements et actions  Permet de fournir des explications  Centralisée  Interrogée  Alimentée  Simplifie les requêtes 16/10/200924Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg par tous les modules sur tous les dispositifs

Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Apprentissage par renforcement du modèle de contexte  Apprentissage par renforcement  Application de l’apprentissage par renforcement  Expérimentations et résultats  Conclusion 16/10/200925Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Rappel : nos contraintes  Entraînement simple  Apprentissage rapide  Cohérence au départ  Apprentissage à vie  Explications 16/10/200926Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Supervisé [Brdiczka et al., 2007]

Apprentissage par renforcement (AR) 16/10/200927Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg  Propriété de Markov  L’état à l’instant t ne dépend que de l’état à l’instant t-1

Algorithme standard  Q -Learning [Watkins, 1989]  Mise-à-jour des Q -valeurs lors d’une nouvelle expérience {état, action, état suivant, récompense}  Lent car ne progresse que lorsque quelque chose se passe  A besoin de beaucoup d’exemples pour apprendre un comportement 16/10/200928Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Exemple 16/10/200929Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Rapide Loin de la porte + Rapide = Ouvrir la porte Modèle du monde

Architecture DYNA 16/10/200930Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Agent Monde Modèle du monde ActionRécompenseÉtat DYNA Switch [Sutton, 1991]

Politique Architecture DYNA 16/10/200931Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Modèle du monde Utilisation Mise-à-jour Politique Interactions réelles

Fonctionnement global 16/10/200932Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique

Modélisation du problème  Composants :  États  Actions 16/10/200933Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique  Composants :  Modèle de transition  Modèle de récompense

L’espace d’états 16/10/200934Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Prédicats Prédicats système Prédicats environnement Karl

L’espace d’états  Division d’états  arrivée ( de= directeur, à= )  Notifier  arrivée (de = newsletter, à= )  Ne pas notifier 16/10/200935Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Modélisation du problème 16/10/200936Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Buffet, 2003]

L’espace d’actions  Les actions possibles combinent  Transmettre un rappel à l’utilisateur  Informer d’un nouvel  Verrouiller l’écran d’un ordinateur  Déverrouiller l’écran d’un ordinateur  Pauser la musique jouant sur un ordinateur  Relancer la musique jouant sur un ordinateur  Ne rien faire 16/10/200937Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

Récompenses  Récompenses explicites  Par une interface non intrusive  Récompenses implicites  Collectées à partir d’indices (valeur numérique moindre) 16/10/200938Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

Modèle de l’environnement  Construits par apprentissage supervisé  À partir d’exemples réels  Initialisés par le sens commun  Système fonctionnel immédiatement  Modèle initial vs. Q-valeurs initiales [Kaelbling, 2004]  Extensibilité 16/10/200939Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Modèle de récompense Modèle de transition Modèle de récompense

Modèle de transition 16/10/200940Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 s2s2 États de départ Action ou événement Modifications Modèle de récompense Modèle de transition + Probabilité

Apprentissage supervisé du modèle de transition  La base de données contient des exemples {état précédent, action, état suivant} 16/10/200941Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s s’ … t2t2 t1t1 t3t3 t n+1

Fonctionnement global 16/10/200942Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique

Épisode 16/10/200943Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Agentd’AR Environnement Modèle du monde Base de données Appris à partir d’interactions réelles ou Q-Learning : mise à jour de Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Mise-à-jour Politique Expérience Politique

Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Apprentissage par renforcement du modèle de contexte  Expérimentations et résultats  Conclusion 16/10/200944Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Expérimentations  Enquête grand public  évaluation qualitative  Évaluations quantitatives en 2 étapes :  Évaluation de la phase initiale  Évaluation du système en fonctionnement normal 16/10/200945Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Évaluation n°1 « autour de l’apprentissage initial » 16/10/200946Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Évaluation n°1 « autour de l’apprentissage initial » 16/10/200947Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Nombre d’itérations par épisode :

Évaluation n°2 « interactions et apprentissages » 16/10/200948Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Évaluation n°2 « interactions et apprentissages » 16/10/200949Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Plan  Présentation du problème  Apprentissage dans les systèmes ubiquitaires  Enquête grand public  Réalisation d’un système ubiquitaire  Apprentissage par renforcement du modèle de contexte  Expérimentations et résultats  Conclusion 16/10/200950Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Contributions  Personnalisation d’un système ubiquitaire  Sans spécification explicite  Évolutive  Adaptation de l’apprentissage par renforcement indirect à un problème réel  Construction d’un modèle du monde  Injection de connaissances initiales  Mise en place d’un prototype 16/10/200951Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Perspectives  Analyse non-interactive des données  Interactions avec l’utilisateur  Phase de débriefing 16/10/200952Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Conclusion  L’assistant est un moyen de faire une application d’intelligence ambiante  C’est l’utilisateur qui le rend intelligent 16/10/200953Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Merci de votre attention Questions ? 16/10/200954Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Bibliographie [Bellotti et Edwards, 2001] Victoria B ELLOTTI et Keith E DWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, [Brdiczka et al., 2007]Oliver B RDICZKA, James L. C ROWLEY et Patrick R EIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, [Buffet, 2003]Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, [Emonet et al., 2006]Rémi Emonet, Dominique Vaufreydaz, Patrick Reignier et Julien Letessier. « O3MiSCID: an Object Oriented Opensource Middleware for Service Connection, Introspection and Discovery ». Dans1 st IEEE International Workshop on Services Integration in Pervasive Environments, [Kaelbling, 2004]Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, [Maes, 1994]Pattie M AES. « Agents that reduce work and information overload ». Dans Commun. ACM, [Maisonnasse 2007]Jerome M AISONNASSE, Nicolas G OURIER, Patrick R EIGNIER et James L. C ROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, [Moore, 1975]Gordon E. M OORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting, /10/200955Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Bibliographie [Nonogaki et Ueda, 1991] Hajime Nonogaki et Hirotada Ueda. « FRIEND21 project: a construction of 21st century human interface ». Dans CHI '91: Proceedings of the SIGCHI conference on Human factors in computing systems, [Roman et al., 2002]Manuel R OMAN, Christopher K. H ESS, Renato C ERQUEIRA, Anand R ANGANATHAN, Roy H. C AMPBELL et Klara N AHRSTEDT. « Gaia: A Middleware Infrastructure to Enable Active Spaces ». Dans IEEE Pervasive Computing, [Sutton, 1991]Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, [Weiser, 1991]Mark W EISER. « The computer for the 21 st century ». Dans Scientic American, [Weiser, 1994]Mark W EISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, [Weiser et Brown, 1996] Mark W EISER et John Seely B ROWN. « The coming age of calm technology » [Watkins, 1989]CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, /10/200956Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Interconnexion des modules 16/10/200957Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg CapteursActionneurs

Service OM i SCID 16/10/200958Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Définition d’un état 16/10/200959Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Modèle de l’environnement 16/10/200960Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle État E[ état suivant ] E[ renforcement ] ActionÉvénement ou

Réduction de l’espace d’états  Accélération de l’apprentissage  Factorisation d’états  Division d’états 16/10/200961Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg ÉtatAction Q -valeur …entrance(isAlone=true, friendlyName=, btAddress= )… pauseMusic125.3 ÉtatAction Q -valeur …hasUnreadMail(from=boss, to=, subject=, body= )… inform …hasUnreadMail(from=newsletter, to=, subject=, body= )… notInform105 Jokers et

Récompenses  Récompenses explicites  Par une interface non intrusive  Récompenses implicites  Collectées à partir d’indices (valeur numérique moindre)  Problèmes récompenses utilisateur  Pas toujours données  Rétro propagation dans le Q-Learning  Traces d’éligibilité  Pas toujours fiables  Utilisation du modèle de récompense 16/10/200962Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

Le simulateur de l’environnement 16/10/200963Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Le simulateur de l’environnement  Scénarios du simulateur  Permet de simuler l’utilisateur  Envoie des événements capteurs correspondant à des actions de l’utilisateur  Exemple : 1. « Sofia est dans le bureau » ; 2. « Nouvel de diffusion » ; 3. « Rappel : barbecue de l’équipe a 13h » ; 4. « Sofia quitte le bureau » ; 5. « Bob entre dans le bureau » ; 6. « Sofia entre dans le bureau » ; 16/10/200964Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Le simulateur de l’environnement  À chaque étape, le scénario prédéfinit  L’état souhaité après l’événement  La récompense donnée si cet état est atteint  Le simulateur envoie une récompense  Dépend de la distance entre l’état souhaité et l’état atteint 16/10/200965Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Distance entre états  Le nombre de transformations nécessaires pour obtenir s 2 à partir de s 1. 16/10/200966Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Évaluation n°1 modèle du monde parfait  Utilisation d’un modèle du monde défini à la main pour isoler l’efficacité de l’AR  L’AR s’effectue en arrière-plan (n’a pas besoin du scénario) à partir des modèles et des événements survenus et enregistrés dans la BD (donc a besoin du scénario 1 fois)  Le scénario sert à visualiser l’avancement de l’apprentissage  Lorsque la récompense donnée est toujours maximale, alors l’AR a convergé vers le comportement souhaité 16/10/200967Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Évaluation n°1 « modèle du monde parfait » 16/10/200968Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Évaluation n°2 autour de l’apprentissage initial  But : choisir la manière optimale d’exécuter la phase d’apprentissage initial  Part des modèles par défaut  Exécute des épisodes de Q-Learning pour les « convertir » en comportement  Paramètres à fixer  Combien d’épisodes ?  Combien d’itérations dans chaque épisode ?  Quel est l’état initial de chaque épisode ?  Par défaut,  Toutes valeurs tirées au hasard,  Un état tiré au hasard parmi les états déjà rencontrés ?  Quel événement à chaque pas d’un épisode ?  Généré aléatoirement,  Tiré au hasard parmi tous les événements déjà observés ? 16/10/200969Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Critère d’évaluation : la note  Résultat de l’AR : une Q-table  Comment savoir si elle est « bonne » ?  Apprentissage réussi si  Comportement correspond aux souhaits de l’utilisateur  Et c’est mieux si on a beaucoup exploré et si on a une estimation du comportement dans beaucoup d’états 16/10/200970Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Évaluation n°3 interactions et apprentissages  Point de départ = comportement initial appris lors de l’expérience précédente  L’expérimentateur utilise le tableau de bord pour reproduire l’utilisateur  L’apprentissage supervisé s’effectue tous les 6 pas  1 minute sépare deux épisodes 16/10/200971Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

« Le tableau de bord » 16/10/200972Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg  Permet d’envoyer par un clic les mêmes événements que les capteurs

Bibliographie  [Weiser, 1991] Mark W EISER. « The computer for the 21 st century ». Dans Scientic American,  [Weiser, 1994] Mark W EISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM,  [Weiser et Brown, 1996] Mark W EISER et John Seely B ROWN. « The coming age of calm technology »  [Moore, 1975] Gordon E. M OORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting,1975.  [Maisonnasse 2007] Jerome M AISONNASSE, Nicolas G OURIER, Patrick R EIGNIER et James L. C ROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International,  [Maes, 1994] Pattie M AES. « Agents that reduce work and information overload ». Dans Commun. ACM,  [Bellotti et Edwards, 2001] Victoria B ELLOTTI et Keith E DWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction,  [Brdiczka et al., 2007] Oliver B RDICZKA, James L. C ROWLEY et Patrick R EIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International,  [Watkins, 1989] CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge,  [Sutton, 1991] Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull,  [Buffet, 2003] Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré,  [Kaelbling, 2004] Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, /10/200973Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Apprentissage par renforcement de modèles de contexte pour l’informatique ambiante M. James L. C ROWLEY M. Patrick R EIGNIER M me Marie-Pierre G LEIZES Sofia Z AIDENBERG Laboratoire d’Informatique de Grenoble Équipe P RIMA Sous la direction de Patrick R EIGNIER et James L. C ROWLEY M me Brigitte P LATEAU M. Olivier S IGAUD M. Olivier B OISSIER Jury composé de 16 octobre 2009

Informatique ambiante  Évolution électronique  Tous les 18 mois : nombre de transistors sur les circuits intégrés × 2  Dispositifs « autistes »  Indépendants  Inconscients  Hétérogènes 16/10/200975Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Moore, 1975][Crowley]  Tous les 3 ans : nombre de dispositifs autour d’une personne × 2

Exemples 16/10/200976Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Contexte 16/10/200977Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Entretien  Entretien d’une heure, comportant  Des questions ouvertes sur l’informatique ambiante  La présentation d’une maquette de chaque système  Des questions sur les maquettes (avis, avantages, inconvénients)  Des questions sur l’acceptabilité de l’assistant  Incitation du sujet à s’exprimer librement 16/10/200978Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Système ubiquitaire réalisé 79  Utilise les dispositifs existants  Dispositifs hétérogènes  système multiplateforme  Dispositifs éparpillés  système distribué  Système composé de modules répartis sur les dispositifs  Besoins du système  Protocole de communication entre modules  Découverte de services dynamique  Déploiement facile Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg 16/10/2009

Choix techniques 16/10/200980Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Déploiement de modules : OSG i  Système distribué, réseau complexe et dynamique de modules  besoin de faciliter et automatiser le déploiement  OSGi permet :  Le déploiement à chaud  L’administration à distance  La gestion des modules à partir d’un dépôt central 16/10/200981Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Modules  Capteurs  Détecteur de présence Bluetooth  Localisation des personnes dans l’environnement  Détecteur de nouveaux messages électroniques  Détecteur de rappels de l’agenda  Détecteur de l’état de l’ordinateur  Musique, économiseur d’écran  Activité clavier/souris  Actionneurs  Synthèse vocale  Affichage de messages écrits  Envoi de mails  Contrôle des applications (musique, économiseur d’écran)  L’assistant personnel 16/10/200982Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Dispositifs équipés 16/10/200983Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg BDBD

PersonalAgent sendMessage shellCommand Text2Speech text remoteShell command Plateforme Oscar sur protee Text2Speech sur protee ? Oui ! Installe et démarre Text2Speech Fait Dépôt de bundles bundles Non… Exemple d’échanges de messages

Notion de contexte  Identifier les entités et leurs rôles pertinents pour l’application  Chacune de leurs configurations est une situation  Dans chaque situation il faut sélectionner une action 16/10/200985Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Apprentissage par renforcement (AR)  Entrainement = récompenses  Apprend un comportement (une politique d’action)  Basé sur des valeurs de qualité Q(état, action)  Basé sur un Processus décisionnel de Markov (PDM)  Ensemble d’états  Ensemble d’actions  Fonction de transition  Fonction de récompense  Propriété de Markov  L’état à l’instant t ne dépend que de l’état à l’instant t-1 16/10/200986Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Apprentissage par renforcement indirect  Rejouer mentalement expériences vécues pour les exploiter davantage  Permet d’explorer espace états actions pour avoir estimation comportement  Se fait en construisant un modèle du monde  À partir d’observations réelles  Architecture DYNA 16/10/200987Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Modèle de transition  Ensemble de transformations d’un état vers le suivant étant donnée une action  Une transformation est composée de  Un état précédent  Des modifications  L’action  Une probabilité 16/10/200988Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Modèle de transition exemple 16/10/200989Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg lockScreen <*> <*> <*> <*> <+> <+> <+> <*> <*> <*> hyperion, true true,

Modèle de transition 16/10/200990Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 s2s2 États de départ Action ou événement Modifications + Probabilité Modèle de récompense Modèle de transition

Apprentissage supervisé du modèle de transition  La base de données contient des exemples {état précédent, action, état suivant} 16/10/200991Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg sa s’ s a t2t2 a t1t1 tntn … s s a s a t n+1 a t1t1 tntn … s a s’ s Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

Apprentissage supervisé du modèle de transition  La base de données contient des exemples {état précédent, action, état suivant} 16/10/200992Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s as’ s s s … a a a s a t2t2 t1t1 t n+1 t3t3

Apprentissage supervisé du modèle de transition  Capacité de généralisation du modèle  Nouvel exemple  nouvelle transformation générique 16/10/200993Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Modèle de récompense  Ensemble d’entrées spécifiant  Des contraintes sur certains arguments de l’état  Une action  La récompense 16/10/200994Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

Modèle de récompense exemple 16/10/200995Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg <*> <*> <*> lockScreen <+> <+>

Modèle de récompense 16/10/200996Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 -50 États de départ Action Récompense Modèle de transition Modèle de récompense

Apprentissage supervisé du modèle de récompense  La base de données contient des exemples {état, action, récompense} 16/10/200997Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg sa r sa e2e2 a e1e1 enen … s s a r r r sa e n+1 a e1e1 enen … s s a r r r r Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

Apprentissage supervisé du modèle de récompense  La base de données contient des exemples {état précédent, action, récompense} 16/10/200998Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s ar s s s … ar s ar e1e1 e n+1

Fonctionnement global 16/10/200999Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données Q -table État Politique Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense

Épisode 16/10/ Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Agentd’AR Environnement Modèle du monde Base de données Appris à partir d’interactions réelles Utilise la nouvelle politique ou Q-learning : mise à jour de Q -table Politique Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Mise-à-jour