La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA.

Présentations similaires


Présentation au sujet: "Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA."— Transcription de la présentation:

1 Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA Jury composé de 16 octobre 2009 M me Brigitte P LATEAU M. Olivier S IGAUD M. Olivier B OISSIER M. James L. C ROWLEY M. Patrick R EIGNIER M me Marie-Pierre G LEIZES Présidente du jury Rapporteur Directeur de thèse Co-directeur de thèse Examinatrice

2 Informatique ambiante 16/10/20092Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Informatique ubiquitaire [Weiser, 1991] [Weiser, 1994] [Weiser et Brown, 1996]

3 16/10/20093Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

4 416/10/2009Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

5 Linformatique ambiante Dispositifs « autistes » Indépendants Hétérogènes Inconscients Système ubiquitaire Accompagner sans simposer En périphérie de lattention Invisible Informatique calme 16/10/20095Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

6 Intelligence ambiante 16/10/20096Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg 1.Perception 2.Décision

7 État de lart 16/10/20097Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Roman et al., 2002][Nonogaki et Ueda, 1991] FRIEND 21Gaia Blossom Sajid S ADI et Pattie M AES

8 Problématique Personnalisation Situation + utilisateur action 16/10/20098Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

9 Personnalisation Personnalisation dun agent informatique complexe qui assiste lutilisateur. Deux solutions [Maes, 1994] Lutilisateur spécifie lui-même le comportement Système trop complexe Tâche laborieuse Peu-évolutif Choix prédéfini par un expert Non-personnalisé Non-évolutif Utilisateur ne maîtrise pas tout le système 16/10/20099Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

10 Solution proposée 16/10/200910Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

11 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200911Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

12 Système proposé 16/10/200912Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

13 Contraintes 16/10/200913Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg système sadapte aux changements de lenvironnement et des préférences

14 Exemple 16/10/200914Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion Rappel !

15 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200915Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

16 Enquête grand public Objectif Mesurer les attentes et besoins vis-à-vis de l« informatique ambiante » et de ses usages Enquête dirigée par Nadine Mandran ( LIG ) Évaluation simultanée de deux systèmes Notre assistant Système COMPOSE de Yoann Gabillon ( MAGMA et IIHM ) Composition (semi-)automatique, dynamique et contextuelle de services pour répondre aux requêtes utilisateur 16/10/200916Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

17 Modalités de lenquête 26 sujets interrogés Non-experts Répartis de manière suivante : 16/10/200917Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

18 Résultats 44 % des sujets intéressés, 13 % conquis Profils des sujets intéressés : Personnes très occupées Surchargées cognitivement Apprentissage comme un plus Système plus fiable Entraînement progressif vs configuration lourde Entraînement simple et agréable (« juste un clic ») 16/10/200918Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

19 Résultats Phase dapprentissage doit être courte Explications indispensables Interactions Variable selon les sujets Phase optionnelle de débriefing Erreurs acceptées si conséquences pas graves Contrôle à lutilisateur Révèle habitudes inconscientes Crainte de devenir « assisté » 16/10/200919Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

20 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Contraintes Technologies adoptées Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200920Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

21 Système ubiquitaire 16/10/200921Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion Rappel ! Utilise les dispositifs existants Hétérogènes Éparpillés Besoins du système Système multiplateforme Système distribué Protocole de communication Découverte dynamique de services Déploiement facile [Emonet et al., 2006]

22 Interconnexion des modules 16/10/200922Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg CapteursActionneurs

23 Exemple déchanges de messages 16/10/200923Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg hyperion protee Text2Speech sur protee ? Text2Speech sur protee ? Oui ! Non… Installe et démarre Text2Speech Dépôt de bundles bundles

24 Base de données Regroupe Connaissances statiques Historique des événements et actions Permet de fournir des explications Centralisée Interrogée Alimentée Simplifie les requêtes 16/10/200924Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg par tous les modules sur tous les dispositifs

25 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Apprentissage par renforcement du modèle de contexte Apprentissage par renforcement Application de lapprentissage par renforcement Expérimentations et résultats Conclusion 16/10/200925Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

26 Rappel : nos contraintes Entraînement simple Apprentissage rapide Cohérence au départ Apprentissage à vie Explications 16/10/200926Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Supervisé [Brdiczka et al., 2007]

27 Apprentissage par renforcement (AR) 16/10/200927Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Propriété de Markov Létat à linstant t ne dépend que de létat à linstant t-1

28 Algorithme standard Q -Learning [Watkins, 1989] Mise-à-jour des Q -valeurs lors dune nouvelle expérience {état, action, état suivant, récompense} Lent car ne progresse que lorsque quelque chose se passe A besoin de beaucoup dexemples pour apprendre un comportement 16/10/200928Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

29 Exemple 16/10/200929Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Rapide Loin de la porte + Rapide = Ouvrir la porte Modèle du monde

30 Architecture DYNA 16/10/200930Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Agent Monde Modèle du monde ActionRécompenseÉtat DYNA Switch [Sutton, 1991]

31 Politique Architecture DYNA 16/10/200931Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Modèle du monde Utilisation Mise-à-jour Politique Interactions réelles

32 Fonctionnement global 16/10/200932Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique

33 Modélisation du problème Composants : États Actions 16/10/200933Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Composants : Modèle de transition Modèle de récompense

34 Lespace détats 16/10/200934Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Prédicats Prédicats système Prédicats environnement Karl

35 Lespace détats Division détats arrivée ( de= directeur, à= ) Notifier arrivée (de = newsletter, à= ) Ne pas notifier 16/10/200935Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

36 Modélisation du problème 16/10/200936Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg [Buffet, 2003]

37 Lespace dactions Les actions possibles combinent Transmettre un rappel à lutilisateur Informer dun nouvel Verrouiller lécran dun ordinateur Déverrouiller lécran dun ordinateur Pauser la musique jouant sur un ordinateur Relancer la musique jouant sur un ordinateur Ne rien faire 16/10/200937Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

38 Récompenses Récompenses explicites Par une interface non intrusive Récompenses implicites Collectées à partir dindices (valeur numérique moindre) 16/10/200938Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

39 Modèle de lenvironnement Construits par apprentissage supervisé À partir dexemples réels Initialisés par le sens commun Système fonctionnel immédiatement Modèle initial vs. Q-valeurs initiales [Kaelbling, 2004] Extensibilité 16/10/200939Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Modèle de récompense Modèle de transition Modèle de récompense

40 Modèle de transition 16/10/200940Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 s2s2 États de départ Action ou événement Modifications Modèle de récompense Modèle de transition + Probabilité

41 Apprentissage supervisé du modèle de transition La base de données contient des exemples {état précédent, action, état suivant} 16/10/200941Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s s … t2t2 t1t1 t3t3 s t n+1

42 Fonctionnement global 16/10/200942Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique

43 Épisode 16/10/200943Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg AgentdAR Environnement Modèle du monde Base de données Appris à partir dinteractions réelles ou Q-Learning : mise à jour de Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Mise-à-jour Politique Expérience Politique

44 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200944Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

45 Expérimentations Enquête grand public évaluation qualitative Évaluations quantitatives en 2 étapes : Évaluation de la phase initiale Évaluation du système en fonctionnement normal 16/10/200945Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

46 Évaluation n°1 « autour de lapprentissage initial » 16/10/200946Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

47 Évaluation n°1 « autour de lapprentissage initial » 16/10/200947Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Nombre ditérations par épisode :

48 Évaluation n°2 « interactions et apprentissages » 16/10/200948Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

49 Évaluation n°2 « interactions et apprentissages » 16/10/200949Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

50 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation dun système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 16/10/200950Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

51 Contributions Personnalisation dun système ubiquitaire Sans spécification explicite Évolutive Adaptation de lapprentissage par renforcement indirect à un problème réel Construction dun modèle du monde Injection de connaissances initiales Mise en place dun prototype 16/10/200951Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

52 Perspectives Analyse non-interactive des données Interactions avec lutilisateur Phase de débriefing 16/10/200952Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

53 Conclusion Lassistant est un moyen de faire une application dintelligence ambiante Cest lutilisateur qui le rend intelligent 16/10/200953Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

54 Merci de votre attention Questions ? 16/10/200954Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

55 Bibliographie [Bellotti et Edwards, 2001] Victoria B ELLOTTI et Keith E DWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, [Brdiczka et al., 2007]Oliver B RDICZKA, James L. C ROWLEY et Patrick R EIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, [Buffet, 2003]Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, [Emonet et al., 2006]Rémi Emonet, Dominique Vaufreydaz, Patrick Reignier et Julien Letessier. « O3MiSCID: an Object Oriented Opensource Middleware for Service Connection, Introspection and Discovery ». Dans1 st IEEE International Workshop on Services Integration in Pervasive Environments, [Kaelbling, 2004]Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, [Maes, 1994]Pattie M AES. « Agents that reduce work and information overload ». Dans Commun. ACM, [Maisonnasse 2007]Jerome M AISONNASSE, Nicolas G OURIER, Patrick R EIGNIER et James L. C ROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, [Moore, 1975]Gordon E. M OORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting, /10/200955Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

56 Bibliographie [Nonogaki et Ueda, 1991] Hajime Nonogaki et Hirotada Ueda. « FRIEND21 project: a construction of 21st century human interface ». Dans CHI '91: Proceedings of the SIGCHI conference on Human factors in computing systems, [Roman et al., 2002]Manuel R OMAN, Christopher K. H ESS, Renato C ERQUEIRA, Anand R ANGANATHAN, Roy H. C AMPBELL et Klara N AHRSTEDT. « Gaia: A Middleware Infrastructure to Enable Active Spaces ». Dans IEEE Pervasive Computing, [Sutton, 1991]Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, [Weiser, 1991]Mark W EISER. « The computer for the 21 st century ». Dans Scientic American, [Weiser, 1994]Mark W EISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, [Weiser et Brown, 1996] Mark W EISER et John Seely B ROWN. « The coming age of calm technology » [Watkins, 1989]CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, /10/200956Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

57 Interconnexion des modules 16/10/200957Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg CapteursActionneurs

58 Service OM i SCID 16/10/200958Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

59 Définition dun état 16/10/200959Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

60 Modèle de lenvironnement 16/10/200960Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle État E[ état suivant ] E[ renforcement ] ActionÉvénement ou

61 Réduction de lespace détats Accélération de lapprentissage Factorisation détats Division détats 16/10/200961Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg ÉtatAction Q -valeur …entrance(isAlone=true, friendlyName=, btAddress= )… pauseMusic125.3 ÉtatAction Q -valeur …hasUnreadMail(from=boss, to=, subject=, body= )… inform …hasUnreadMail(from=newsletter, to=, subject=, body= )… notInform105 Jokers et

62 Le simulateur de lenvironnement 16/10/200962Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

63 Critère dévaluation : la note Résultat de lAR : une Q -table Comment savoir si elle est « bonne » ? Apprentissage réussi si Comportement correspond aux souhaits de lutilisateur Et cest mieux si on a beaucoup exploré et si on a une estimation du comportement dans beaucoup détats 16/10/200963Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

64 « Le tableau de bord » 16/10/200964Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Permet denvoyer par un clic les mêmes événements que les capteurs

65 Modèle de récompense Ensemble dentrées spécifiant Des contraintes sur certains arguments de létat Une action La récompense 16/10/200965Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg

66 Modèle de récompense 16/10/200966Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg s1s1 -50 États de départ Action Récompense Modèle de transition Modèle de récompense

67 Apprentissage supervisé du modèle de récompense La base de données contient des exemples {état précédent, action, récompense} 16/10/200967Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia Zaidenberg Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s ar s s s … ar s ar e1e1 e n+1


Télécharger ppt "Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA."

Présentations similaires


Annonces Google