La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage.

Présentations similaires


Présentation au sujet: "Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage."— Transcription de la présentation:

1 Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage et robotique Encadré par Patrick R EIGNIER et James L. C ROWLEY

2 Informatique ambiante 19/01/20102Journée RFIA : apprentissage et robotique Informatique ubiquitaire [Weiser, 1991] [Weiser, 1994] [Weiser et Brown, 1996]

3 19/01/20103Journée RFIA : apprentissage et robotique

4 419/01/2010Journée RFIA : apprentissage et robotique

5 Linformatique ambiante Dispositifs « autistes » Indépendants Hétérogènes Inconscients Système ubiquitaire Accompagner sans simposer En périphérie de lattention Invisible Informatique calme 19/01/20105Journée RFIA : apprentissage et robotique

6 Intelligence ambiante 19/01/20106Journée rfia : apprentissage et robotique 1.Perception 2.Décision

7 État de lart 19/01/20107Journée rfia : apprentissage et robotique [Roman et al., 2002][Nonogaki et Ueda, 1991] FRIEND 21Gaia Blossom Sajid S ADI et Pattie M AES

8 Problématique 19/01/20108Journée RFIA : apprentissage et robotique 1.Perception 2.Décision

9 Personnalisation Personnalisation dun agent informatique complexe qui assiste lutilisateur. Deux solutions [Maes, 1994] Lutilisateur spécifie lui-même le comportement Système trop complexe Tâche laborieuse Peu-évolutif Choix prédéfini par un expert Non-personnalisé Non-évolutif Utilisateur ne maîtrise pas tout le système 19/01/20109Journée rfia : apprentissage et robotique

10 Solution proposée 19/01/201010Journée RFIA : apprentissage et robotique

11 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 19/01/201011Journée RFIA : apprentissage et robotique

12 Système proposé 19/01/201012Journée RFIA : apprentissage et robotique

13 Contraintes 19/01/201013Journée RFIA : apprentissage et robotique système sadapte aux changements de lenvironnement et des préférences

14 Exemple 19/01/201014Journée RFIA : apprentissage et robotique hyperion Rappel !

15 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 19/01/201015Journée rfia : apprentissage et robotique

16 Enquête grand public Objectif Mesurer les attentes et besoins vis-à-vis de l« informatique ambiante » et de ses usages Enquête dirigée par Nadine Mandran ( LIG ) Évaluation simultanée de deux systèmes Notre assistant Système COMPOSE de Yoann Gabillon ( MAGMA et IIHM ) Composition (semi-)automatique, dynamique et contextuelle de services pour répondre aux requêtes utilisateur 19/01/201016Journée rfia : apprentissage et robotique

17 Modalités de lenquête 26 sujets interrogés Non-experts Répartis de manière suivante : 19/01/201017Journée rfia : apprentissage et robotique

18 Résultats 44 % des sujets intéressés, 13 % conquis Profils des sujets intéressés : Personnes très occupées Surchargées cognitivement Apprentissage comme un plus Système plus fiable Entraînement progressif vs configuration lourde Entraînement simple et agréable (« juste un clic ») 19/01/201018Journée rfia : apprentissage et robotique

19 Résultats Phase dapprentissage doit être courte Explications indispensables Interactions Variable selon les sujets Phase optionnelle de débriefing Erreurs acceptées si conséquences pas graves Contrôle à lutilisateur Révèle habitudes inconscientes Crainte de devenir « assisté » 19/01/201019Journée rfia : apprentissage et robotique

20 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 19/01/201020Journée RFIA : apprentissage et robotique

21 Système ubiquitaire 19/01/201021Journée rfia : apprentissage et robotique hyperion Rappel ! Utilise les dispositifs existants Hétérogènes Éparpillés Besoins du système Système multiplateforme Système distribué Protocole de communication Découverte dynamique de services Déploiement facile [Emonet et al., 2006]

22 Interconnexion des modules 19/01/201022Journée RFIA : apprentissage et robotique CapteursActionneurs

23 Exemple déchanges de messages 19/01/201023Journée rfia : apprentissage et robotique hyperion protee Text2Speech sur protee ? Text2Speech sur protee ? Oui ! Non… Installe et démarre Text2Speech Dépôt de bundles bundles

24 Base de données Regroupe Connaissances statiques Historique des événements et actions Permet de fournir des explications Centralisée Interrogée Alimentée Simplifie les requêtes 19/01/201024Journée RFIA : apprentissage et robotique par tous les modules sur tous les dispositifs

25 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Système ubiquitaire Apprentissage par renforcement du modèle de contexte Apprentissage par renforcement Application de lapprentissage par renforcement Expérimentations et résultats Conclusion 19/01/201025Journée RFIA : apprentissage et robotique

26 Rappel : nos contraintes Entraînement simple Apprentissage rapide Cohérence au départ Apprentissage à vie Explications 19/01/201026Journée RFIA : apprentissage et robotique Supervisé [Brdiczka et al., 2007]

27 Apprentissage par renforcement (AR) 19/01/201027Journée RFIA : apprentissage et robotique Propriété de Markov Létat à linstant t ne dépend que de létat à linstant t-1

28 Algorithme standard Q -Learning [Watkins, 1989] Mise-à-jour des Q -valeurs lors dune nouvelle expérience {état, action, état suivant, récompense} Lent car ne progresse que lorsque quelque chose se passe A besoin de beaucoup dexemples pour apprendre un comportement 19/01/201028Journée RFIA : apprentissage et robotique

29 Exemple 19/01/201029Journée RFIA : apprentissage et robotique Rapide Loin de la porte + Rapide = Ouvrir la porte Modèle du monde

30 Architecture DYNA 19/01/201030Journée RFIA : apprentissage et robotique Agent Monde Modèle du monde ActionRécompenseÉtat DYNA Switch [Sutton, 1991]

31 Politique Architecture DYNA 19/01/201031Journée RFIA : apprentissage et robotique Environnement Modèle du monde Utilisation Mise-à-jour Politique Interactions réelles

32 Fonctionnement global 19/01/201032Journée RFIA : apprentissage et robotique Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique

33 Modélisation du problème Composants : États Actions 19/01/201033Journée RFIA : apprentissage et robotique Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Composants : Modèle de transition Modèle de récompense

34 Lespace détats 19/01/201034Journée RFIA : apprentissage et robotique Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Prédicats Prédicats système Prédicats environnement Karl

35 Lespace détats Division détats arrivée ( de= directeur, à= ) Notifier arrivée (de = newsletter, à= ) Ne pas notifier 19/01/201035Journée RFIA : apprentissage et robotique

36 Modélisation du problème 19/01/201036Journée RFIA : apprentissage et robotique [Buffet, 2003]

37 Lespace dactions Les actions possibles combinent Transmettre un rappel à lutilisateur Informer dun nouvel Verrouiller lécran dun ordinateur Déverrouiller lécran dun ordinateur Pauser la musique jouant sur un ordinateur Relancer la musique jouant sur un ordinateur Ne rien faire 19/01/201037Journée RFIA : apprentissage et robotique Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

38 Récompenses Récompenses explicites Par une interface non intrusive Problèmes récompenses utilisateur Récompenses implicites Collectées à partir dindices (valeur numérique moindre) Utilisation de traces déligibilité Lissage du modèle 19/01/201038Journée RFIA : apprentissage et robotique Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique

39 Modèle de lenvironnement Construits par apprentissage supervisé À partir dexemples réels Initialisés par le sens commun Système fonctionnel immédiatement Modèle initial vs. Q-valeurs initiales [Kaelbling, 2004] Extensibilité 19/01/201039Journée RFIA : apprentissage et robotique Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique Modèle de récompense Modèle de transition Modèle de récompense

40 Modèle de transition 19/01/201040Journée RFIA : apprentissage et robotique s1s1 s2s2 États de départ Action ou événement Modifications Modèle de récompense Modèle de transition + Probabilité

41 Apprentissage supervisé du modèle de transition La base de données contient des exemples {état précédent, action, état suivant} 19/01/201041Journée RFIA : apprentissage et robotique Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s s … t2t2 t1t1 t3t3 s t n+1

42 Fonctionnement global 19/01/201042Journée RFIA : apprentissage et robotique Environnement Base de données État Action Récompense ? Exemple Action Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Perception Exemple Récompense Politique

43 Épisode Un pas dun épisode en 2 temps : Sélection dun événement qui modifie létat Sélection dune action pour réagir à lévénement 19/01/201043Journée RFIA : apprentissage et robotique Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Mise-à-jour

44 Épisode 19/01/201044Journée RFIA : apprentissage et robotique AgentdAR Environnement Modèle du monde Base de données Appris à partir dinteractions réelles ou Q-Learning : mise à jour de Modèle du monde Interactions réelles Mise-à-jour Politique Utilisation Mise-à-jour Politique Expérience Politique

45 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 19/01/201045Journée RFIA : apprentissage et robotique

46 Expérimentations Enquête grand public évaluation qualitative Évaluations quantitatives en 2 étapes : Évaluation de la phase initiale Évaluation du système en fonctionnement normal 19/01/201046Journée RFIA : apprentissage et robotique

47 Évaluation n°1 « autour de lapprentissage initial » 19/01/201047Journée RFIA : apprentissage et robotique

48 Évaluation n°1 « autour de lapprentissage initial » 19/01/201048Journée RFIA : apprentissage et robotique Nombre ditérations par épisode :

49 Évaluation n°2 « interactions et apprentissages » 19/01/201049Journée RFIA : apprentissage et robotique

50 Évaluation n°2 « interactions et apprentissages » 19/01/201050Journée RFIA : apprentissage et robotique

51 Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Système ubiquitaire Apprentissage par renforcement du modèle de contexte Expérimentations et résultats Conclusion 19/01/201051Journée RFIA : apprentissage et robotique

52 Contributions Personnalisation dun système ubiquitaire Sans spécification explicite Évolutive Adaptation de lapprentissage par renforcement indirect à un problème réel Construction dun modèle du monde Injection de connaissances initiales Mise en place dun prototype 19/01/201052Journée RFIA : apprentissage et robotique

53 Perspectives Analyse non-interactive des données Interactions avec lutilisateur Phase de débriefing 19/01/201053Journée RFIA : apprentissage et robotique

54 Conclusion Lassistant est un moyen de faire une application dintelligence ambiante Cest lutilisateur qui le rend intelligent 19/01/201054Journée RFIA : apprentissage et robotique

55 Merci de votre attention Questions ? 19/01/201055Journée RFIA : apprentissage et robotique

56 Bibliographie [Bellotti et Edwards, 2001] Victoria B ELLOTTI et Keith E DWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, [Brdiczka et al., 2007]Oliver B RDICZKA, James L. C ROWLEY et Patrick R EIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, [Buffet, 2003]Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, [Emonet et al., 2006]Rémi Emonet, Dominique Vaufreydaz, Patrick Reignier et Julien Letessier. « O3MiSCID: an Object Oriented Opensource Middleware for Service Connection, Introspection and Discovery ». Dans1 st IEEE International Workshop on Services Integration in Pervasive Environments, [Kaelbling, 2004]Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, [Maes, 1994]Pattie M AES. « Agents that reduce work and information overload ». Dans Commun. ACM, [Maisonnasse 2007]Jerome M AISONNASSE, Nicolas G OURIER, Patrick R EIGNIER et James L. C ROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, [Moore, 1975]Gordon E. M OORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting, /01/201056Journée RFIA : apprentissage et robotique

57 Bibliographie [Nonogaki et Ueda, 1991] Hajime Nonogaki et Hirotada Ueda. « FRIEND21 project: a construction of 21st century human interface ». Dans CHI '91: Proceedings of the SIGCHI conference on Human factors in computing systems, [Roman et al., 2002]Manuel R OMAN, Christopher K. H ESS, Renato C ERQUEIRA, Anand R ANGANATHAN, Roy H. C AMPBELL et Klara N AHRSTEDT. « Gaia: A Middleware Infrastructure to Enable Active Spaces ». Dans IEEE Pervasive Computing, [Sutton, 1991]Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, [Weiser, 1991]Mark W EISER. « The computer for the 21 st century ». Dans Scientic American, [Weiser, 1994]Mark W EISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, [Weiser et Brown, 1996] Mark W EISER et John Seely B ROWN. « The coming age of calm technology » [Watkins, 1989]CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, /01/201057Journée RFIA : apprentissage et robotique

58 Interconnexion des modules 19/01/201058Journée rfia : apprentissage et robotique CapteursActionneurs

59 Service OM i SCID 19/01/201059Journée rfia : apprentissage et robotique

60 Définition dun état 19/01/201060Journée rfia : apprentissage et robotique

61 Modèle de lenvironnement 19/01/201061Journée rfia : apprentissage et robotique Modèle État E[ état suivant ] E[ renforcement ] ActionÉvénement ou

62 Réduction de lespace détats Accélération de lapprentissage Factorisation détats Division détats 19/01/201062Journée rfia : apprentissage et robotique ÉtatAction Q -valeur …entrance(isAlone=true, friendlyName=, btAddress= )… pauseMusic125.3 ÉtatAction Q -valeur …hasUnreadMail(from=boss, to=, subject=, body= )… inform …hasUnreadMail(from=newsletter, to=, subject=, body= )… notInform105 Jokers et

63 Le simulateur de lenvironnement 19/01/201063Journée rfia : apprentissage et robotique

64 Critère dévaluation : la note Résultat de lAR : une Q -table Comment savoir si elle est « bonne » ? Apprentissage réussi si Comportement correspond aux souhaits de lutilisateur Et cest mieux si on a beaucoup exploré et si on a une estimation du comportement dans beaucoup détats 19/01/201064Journée rfia : apprentissage et robotique

65 « Le tableau de bord » 19/01/201065Journée rfia : apprentissage et robotique Permet denvoyer par un clic les mêmes événements que les capteurs

66 Modèle de récompense Ensemble dentrées spécifiant Des contraintes sur certains arguments de létat Une action La récompense 19/01/201066Journée rfia : apprentissage et robotique

67 Modèle de récompense 19/01/201067Journée rfia : apprentissage et robotique s1s1 -50 États de départ Action Récompense Modèle de transition Modèle de récompense

68 Apprentissage supervisé du modèle de récompense La base de données contient des exemples {état précédent, action, récompense} 19/01/201068Journée rfia : apprentissage et robotique Modèle du monde Interactions réelles Utilisation Mise-à-jour Politique s ar s s s … ar s ar e1e1 e n+1


Télécharger ppt "Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage."

Présentations similaires


Annonces Google