La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Des agents intelligents dans un environnement de communication multimédia : vers la conception de services adaptatifs Romaric CHARTON Directeurs de thèse.

Présentations similaires


Présentation au sujet: "Des agents intelligents dans un environnement de communication multimédia : vers la conception de services adaptatifs Romaric CHARTON Directeurs de thèse."— Transcription de la présentation:

1 Des agents intelligents dans un environnement de communication multimédia : vers la conception de services adaptatifs Romaric CHARTON Directeurs de thèse : Anne BOYER et Jean-Paul HATON Directeur entreprise :Michel LEDERMAN Mardi 2 décembre 2003

2 2/51 Les services de communication multimédia Service :"Ce que l'on fait pour être utile, à titre onéreux ou non" (Larousse 1998). Mon étude : services réalisés sur des supports et réseaux informatiques qui utilisent des médias de communication divers : –le téléphone, –la messagerie électronique, –le web, etc. pour permettre de : –passer une commande en ligne, –rechercher une information, –gérer un portefeuille de titres boursiers, etc.

3 3/51 Positionnement des travaux Fournir des services adaptatifs Théorie des probabilités (Modélisation stochastique) Communication multimédia applications concrètes environnements incertains Nature des services Interactions dans les h-SMA Approche Agent Systèmes Multi-Agents hétérogènes (h- SMA) Acteurs Apprentissage déroulement préférences de l'utilisateur Adaptation Théorie de l'utilité Indices satisfaction coûts Évaluation

4 4/51 Plan de l'exposé Contexte et problématique Approche théorique Les services de recherche d'informations Mise en œuvre des propositions Conclusion et perspectives

5 5/51 Partie 1 - Contexte et problématique Contexte et problématique Approche théorique Les services de recherche d'informations Mise en œuvre des propositions Conclusion et perspectives

6 6/51 Collaboration avec la société DIALOCA Création : octobre 1996 à Paris Domaine : Gestion de la relation client et langage naturel Clients : Danone, Ministère de l'Intérieur, PSA, CNP, TopTrades, etc. Large palette d'applications Multimédia, interactives et grand public –accès au web par téléphone, –support de bornes interactives et de centres d'appels, –gestion de télé-réunions... Plate-forme UniMédia 1

7 7/51 Applications Déroulement d'un service sur la plate-forme UniMédia PMMU Administration 1 Pilotes SGBD Web TéléphoneFax ... Moteurs Synthèse de parole Reconnaissance de parole Authentification... E-Nots : notification téléphonique démarrage Expéditeur Destinataire (abonné)

8 8/51 Objectifs de la collaboration Applications existantes (scripts statiques) Objectifs (utiliser des méthodes IA) Faciliter la conception et le déroulement des applications Adapter leur exécution au comportement de l'utilisateur et à ses préférences Plate-forme UniMédia + contrainte : garder l'existant Scripts (automates finis déterministes) Complexité (cas particuliers / erreurs) Modèle implicite et figé de l'utilisateur Besoin de connaissances expertes Services adaptatifs 1 Comportement d'un agent

9 9/51 Environnement Agent Pourquoi une approche agent ? Besoin de propriétés : autonomie prise de décisions communiquer gérer des connaissances gérer des ressources 1 Perceptions Capteurs Actions Effecteurs Comportement Satisfaction Agent à rationalité limitée (Russell et Norvig 1995) comportement utile

10 10/51 Réussite de la tâche accomplie du point de vue du concepteur Un choix classique : Coûts d'utilisation des ressources (propres / détenues par des tiers) U = R - C Réussite de la tâche accomplie du point de vue des utilisateurs Notre choix plus "orienté" vers les services adaptatifs Utilité et évaluation des services Problème : Comment mesurer la satisfaction de l'utilisateur ? Nombreux indices possibles difficile à définir 1 Approximation : une valeur numérique associée actions de l'utilisateur Idée que l'agent estime son utilité à partir de ses perceptions des autres...

11 11/51 Systèmes Multi-Agents (Ferber 1995) Un Système Multi-Agent (SMA) Interaction objets Environnement Interaction Coopération Collaboration coordonnée buts compatibles capacités individuelles insuffisantes 1 Réaliser un service de façon collective

12 12/51 ? Langage L A Agent A A quelle heure mon avion part-t-il ? Et si A est un humain ? Communication et hétérogénéité Contrainte : Sachant que A et B ne sont pas "modifiables" Comment faire interagir A et B ? Difficultés de l'interaction Homme-SMA (Grislin-LeSturgeon et Peninou 1998) comment déterminer ce que A veut ? comment prévoir son comportement ? que préfère-t-il ?... 1 Agent B, ? Langage L B

13 13/51 Problématique générale 1 Difficultés à prendre en compte Interaction avec des agents humains Applications réelles environnements incertains Réponse à des besoins industriels Applicative Comment faciliter la conception et le contrôle de services adaptatifs ? Scientifique Comment coordonner un ensemble d'agents hétérogènes pour réaliser coopérativement une tâche ?

14 14/51 Partie 2 - Approche Théorique Contexte et problématique Approche théorique Les services de recherche d'informations Mise en œuvre des propositions Conclusion et perspectives

15 15/51 Environnement physique A P Environnement logiciel A L Les Systèmes Multi-Agents hétérogènes (h-SMA) NNN Agents non-contrôlés A NC Utilisateurs, clients,... Agents contrôlés A C Comparables à UniMédia C C C C P Agents partiellement contrôlés A PC Experts, sites partenaires,... P P P Liens d'interaction Ensemble A d'agents de nature très différente : humains, logiciels, etc. Partition selon la nature des agents et de leur environnement Partition selon l'influence et le degré de connaissance que l'on a sur les agents 2

16 16/51 Une solution au problème de l'hétérogénéité Agent A Besoins Agent B Capacités Agent C Coordinateur Langage L A Langage L B Introduire un agent coordinateur pour amener A et B à coopérer en modifiant leurs interactions. 2 Coordination : colle qui lie des activités (Gelernter et Carriero 1992)

17 17/51 Comment obtenir le comportement du coordinateur ? StatiqueDynamique Monde de l'agent Apprentissage Expériences ou traces Planification Modèle connu explicitement Automates : programmes, scripts, règles, etc. Connaissances implicites du concepteur 2

18 18/51 Debut : SEQ{ send, NULL, "debut.mod", SEQ {PARAMS}, SEQ {BRANCH} }; Etape_Demande : SEQ { getstrings, NULL, "demande.mod", SEQ {PARAMS}, SEQ{ BRANCH, SEQ { ReturnCode, SEQ{"Media_IF_TypeUnknown", Etape_Demande }, SEQ{"Media_UserInactivity", Etape_Demande }} } };... Langage de scénarisation UniMédia D'un coordinateur à base de scripts... 2 Attente Réponse Connue Transmettre question Automate de comportement Demande à traiter Recevoir demande... Échec Analyse FAQ Envoyer réponse Recevoir réponse Abstraction

19 19/51 Attente G 3 : Comportement d'un expert Traiter la demande Recevoir demande... Envoyer réponse Réponse trouvée Expert (A PPC )... à des schémas d'interaction 2 Attente... Besoin Poser question G 1 : Comportement de l'utilisateur Recevoir réponse Utilisateur (A PC ) Attente Réponse Connue Transmettre question G 2 : Comportement du coordinateur Demande à traiter Recevoir demande... Échec Analyse FAQ Envoyer réponse Recevoir réponse Coordinateur (A LC ) Liens d'interaction

20 20/51 Comment structurer les relations ? Organisation : agencement de relations entre composants ou individus qui produit une unité, ou système, dotée de qualités inconnues au niveau des composants ou individus. (Ferber 1995) Structure organisationnelle subordination Rôles ? ? ? Organisation concrète instanciation Endosser un rôle : satisfaire des contraintes sur ses capacités adopter un comportement typique 2

21 21/51 Structures organisationnelles et classes de service S Recherche d'informations et assistance à la navigation SS U C U C U Coordination simple U C UU SSS Télé-réunion T U C S U Traitement intelligent de l'information Diagnostic, filtrage... Rôles génériques U C S T Utilisateur Coordinateur Source Traitement 2

22 22/51 Partie 3 - Les services de recherche d'informations Contexte et problématique Approche théorique Les services de recherche d'informations Mise en œuvre des propositions Conclusion et perspectives

23 23/51 Assistance à la recherche d'information Contraintes : Utilisateurs : occasionnel, novice Sources d'informations : non propriété, coût Objectif : Améliorer la qualité du service fourni par rapport à la recherche classique 3 CoordinateurUtilisateurSource

24 24/51 Fournit trop de résultats, bruits... Ne sait pas formuler sa requête Exemple de problème : le choix d'un vol Client Interaction Souhait : réserver un vol de Paris à Moscou Requête Résultats Coordinateur 3 Source d'informations

25 25/51 Rôle de l'agent coordinateur Ses buts : Construire une requête correspondant le plus au besoin de l'utilisateur Fournir des résultats appropriés à l'utilisateur Maximiser son utilité : –Maximiser la satisfaction de l'utilisateur –Minimiser les coûts liés à la source d'information A tout moment, il peut Poser une question à l'utilisateur au sujet de la requête Envoyer la requête à la source d'information Proposer des résultats à l'utilisateur en nombre limité En retour, il perçoit les réponses des autres agents : valeurs, résultats, sélections, rejets … 3

26 26/51 Problème : Comment obtenir le comportement de coordination adéquat ? Solution proposée : Trouver une stratégie de coordination optimale Coordination et stratégies de coordination Stratégie de coordination : Façon de choisir les actions pour coordonner la suite des interactions. Coordination : Contrôle d'une séquence d'interactions (questions-réponses) Réussie : Sélection d'un résultat Absence de résultat constatée au niveau de la source 3

27 27/51 Caractéristiques du coordinateur Gérer l'incertitude et les connaissances incomplètes Utilisateurs : –Mauvaise compréhension des questions –Connaissance partielle de leurs besoins Environnement : –Bruits pendant la communication –Capteurs imparfaits Proposition : Modéliser la coordination avec un Processus de Décision Markovien Calculer un comportement stochastique de coordination 3

28 28/51 Modèle Stochastique Processus de Décision Markovien (MDP) Décider selon une politique : S A [0;1] s2s2 s0s0 s1s1 –États S={s 0,s 1,s 2 } a0a0 a1a1 a1a1 a0a0 a0a0 a1a1 –Actions A={a 0,a 1 } –Transition T : S A S [0;1] avec T(s,a,s') = P (s'|s,a) –Récompense R : S A S IR Calculer une stratégie de coordination revient àCalculer une politique stochastique 3 Optimiser la récompense espérée : Attenuation

29 29/51 Environnement du coordinateur Suite d'interactions (MDP à contrôler) Un MDP pour contrôler les interactions Définir S : L'espace d'états A : Les actions du coordinateur T : Les transitions R : Les récompenses 3 S, R T A Coordinateur Utilisateur Source

30 30/51 Etats : Comment décrire les requêtes et les objets ? Approche de remplissage de formulaire (Goddeau et al. 1996) : Référentiel construit sur un ensemble d'attributs Ref = { At 1, …, At m } Exemple de référentiel : Départ :{ Londres, Genève, Paris, Berlin, … } Arrivée:{ Pékin, Moscou, New-York, … } Classe :{Première, Affaire, Économique,... } 3

31 31/51 Espace d'états Coordinateur Utilisateur Source L'ensemble des objets connus qui correspondent à la requête courante R = { vol 1 ;... ; vol r } R 3 La requête partielle courante de l'utilisateur U = { ( ea 1, val 1 ) ;... ; ( ea m, val m ) } État d'un attribut : Ouvertea = ? val est inconnue Affectéea = A val est affectée Ferméea = Fval est inconnue et ne peut plus être demandée U Espace d'états = U R U est l'ensemble des requêtes partielles utilisateur R est l'ensemble des parties des objets de la source d'informations = U R

32 32/51 Abstraction des états ( S) Taille de l'espace d'états : (2 n +1) (2+i) m –n : nombre total d'objets de la source d'information –m : nombre d'attributs –i : nombre moyen de valeurs par attribut Taille de l'espace d'états abstrait S : 4 3 m Nombre de réponses 0nr max qr = 0 qr = + qr = * qr = ? Inconnu (vide) Une idée : une abstraction S de l'espace d'états pour définir le MDP en conservant :s U {?, A, F} m l'état d'affectation des m attributs dans U s R {?, 0, +, *} la quantité de réponses sur R 3

33 33/51 Actions du coordinateur Coordinateur UtilisateurSource Requête Interroger la source d'informations Demander à l'utilisateur de sélectionner un résultat ou résultats Poser une question sur un attribut à l'utilisateur Exemple pour la classe de voyage : Valuation :En quelle classe souhaitez-vous voyager ? Proposition :Voulez-vous voyager en classe [affaire] ? Confirmation :Êtes-vous sûr de vouloir voyager en classe [économique] ? Question 3

34 34/51 Récompenses Elles sont obtenues : Coordinateur UtilisateurSource Sélection, déconnexion par l'interaction avec l'utilisateur +R selection l'utilisateur sélectionne une proposition -R timeout l'interaction est trop longue (déconnexion / seuil) Réponses par l'interaction avec la source d'informations +R noresp pas de réponses pour une requête totalement spécifiée -R overnum trop de réponses (quantité de réponses s R = *) 3

35 35/51 Exemple de coordination pour la réservation de vol État Abstraction sAction du coordinateurRéponsesRécompense Demander ville départParis0 Envoyer la requête1700 vols- R Overnum Demander destinationMoscou0 Demander classe de volNe sait pas0 Envoyer la requête4 vols0 Demander une sélectionSélection 2+ R Sélection CoordinateurUtilisateurSource Légende : 3

36 36/51 Calculer la stratégie de coordination Problème : Deux parties du modèle restent inconnues ! T = f (utilisateur, source d'information) R = f (utilisateur, source d'information) Apprendre la stratégie de coordination par renforcement 3

37 37/51 Apprentissage par Renforcement (Sutton et Barto 1998) Observation Action Transition 3 Renforcement (récompenses) Système Dynamique Besoin d'une méthode d'apprentissage en ligne Algorithme du Q-Learning (Watkins 1989) qui fonctionne par la mise à jour de Q-Valeurs (Q : S A IR) s Q(s,a) a s' V(s)V(s')

38 38/51 Architecture du coordinateur Module de Décision (Q-Learning) Gestionnaire d'Interactions Module de Représentation (état réel) Agent Utilisateur Agent Source d'Information Questions et résultats Actions sélectionnées Requêtes Récompenses Réponses et sélections Mise à jour Résultats Etat Abstrait Agent Coordinateur 3 Gestionnaire des profils utilisateurs Préférences

39 39/51 Gestion des préférences des utilisateurs Ensemble de profils Prof = { prof 0, prof 1,..., prof n } avec un profil par défaut prof 0 pour les nouveaux utilisateurs. Première Affaire Economique 0,05 0,2 0,75 p(classe) 3 Un profil prof i mémorise, pour chaque attribut At i, la probabilité p ( v k | prof i, At j ) que cet utilisateur préfère la valeur v k est initialisé avec des distributions uniformes est mis à jour à la sélection d'une proposition

40 40/51 Partie 4 -Mise en œuvre Contexte et problématique Approche théorique Les services de recherche d'informations Mise en œuvre des propositions Conclusion et perspectives

41 41/51 UniMédiaModélisation Modélisation d'UniMédia Objectif :Se doter d'un modèle conceptuel pour fournir les services dans les h-SMA Proposition :Une modélisation agent à 4 niveaux Utilisation : sur les services Dialoca pour des applications de l'équipe MAIA (Diatélic, Cycab,...) 4 Service (rôles et classes de service) UCST Applications Agent (nature / contrôlabilité) Moteurs et pilotes Ressource (capteurs / effecteurs) Média (canaux média et "prises")

42 42/51 Implantation de la maquette SmallMu Réalisation : Une bibliothèque fournissant un corps d'agent capable d'accueillir –un cerveau pour le comportement, –des membres pour percevoir et agir. Un ensemble de membres dédiés à l'environnement multimédia : –Reconnaissance et synthèse de parole, – , –SMS (émulé) Objectifs : Pouvoir travailler sur un agent logiciel contrôlé reproduisant ou émulant les fonctionnalités nécessaires Utilisation :Prototype de coordinateur pour la réservation de vol 4

43 43/51 Expérimentations sur l'application de réservation de vol Entraînement du coordinateur avec 3 attributs (villes de départ/arrivée et classe) 4 attributs (+ période de la journée de départ) 5 attributs (+ la compagnie aérienne) Nb. d'attributs (m) Nb. états abstraits (4.3 m ) Nb. d'actions (3.m+2) Nb. de Q-Valeurs ((12.m+8).3 m ) Croissance de la complexité en fonction du nombre des attributs : 4

44 44/51 Résultats d'apprentissage taux de coordinations réussies 3 et 4 attributs99% de coordinations réussies (proche de l'optimum) 5 attributs90% de réussite (plus de temps nécessaire pour converger) 4

45 45/51 Résultats d'apprentissage longueur moyenne de coordination 3 et 4 attributslongueur minimale de la coordination atteinte 5 attributscoordination plus longue 4

46 46/51 Critique des comportements obtenus 4 Problème : difficulté d'obtenir un corpus de traces d'interaction réelles utilisation d'un utilisateur simulé avec un comportement naïf Grand nombre d'interactions nécessaires besoin d'une phase d'apprentissage préalable Constats : + stratégie optimale obtenue / adaptation au comportement simulé - manque de richesse dans les stratégies de coordination Futur : Simulateur d'utilisateurs réels comportements plus intéressants

47 47/51 Partie 5 – Conclusion et perspectives Contexte et problématique Approche théorique Les services de recherche d'informations Mise en œuvre des propositions Conclusion et perspectives

48 48/51 Conclusion 5 Rattachement à un mouvement récent utilisant l'apprentissage par renforcement pour des applications réelles avec des humains. Aspect stratégie de coordination Apports Possibilité d'apprendre ces stratégies par renforcement en utilisant des MDP Réponse aux besoins du plus grand nombre comme du particulier avec les profils Limites Observabilité partielle de l'utilisateur au travers des perceptions de l'agent Baisse des performances pour des tâches plus complexes Aspect modélisation logicielle Apports : Passage à une approche "orientée utilisateur" pour les services Solution incrémentale

49 49/51 Perspectives 5 Pour résoudre des tâches plus complexes –Reformuler l'espace d'états abstrait pour mieux guider le processus dans l'espace réel. –Décomposition hiérarchique (H-MPD et H-POMDP) avec une gestion des dépendances entre les attributs –Passage à plusieurs sources et aux autres classes de services –Composition de services (plusieurs coordinateurs) Utiliser d'autres modèles/méthodes probabilistes : –Apprendre à partir de politiques pré-établies –Apprendre en généralisant le modèle (DynaQ, Classifieurs) –Approche POMDP (Q-learning modifié, Gradient de Baxter)

50 50/51 Références (Ferber 1995) Ferber J., Les Systèmes Multi-Agents. Vers une intelligence collective. Interéditions, (Gelernter et Carriero 1992) Gelernter D. et Carriero N., Coordination Languages and Their Significance. Communications of the ACM, n°35(2), pp , (Grislin-LeSturgeon et Peninou 1998) Grislin-Le Sturgeon E. et Péninou A., Les interactions Homme-SMA : réflexions et problématiques de conception. Systèmes Multi-Agents de l'interaction à la Socialité. Dans JFIADSMA'98, Hermès, pp , (Goddeau et al. 1996) Goddeau D., Meng H., Polifroni J., Seneff S., Busayapongchaiy S., A Form- Based Dialogue Manager For Spoken Language Applications, In Proceedings of ICSLP'96, Philadelphia, (Larousse 1998) Le petit Larousse 1998, Larousse-Bordas, (Russell et Norvig 1995) Russell S. et Norvig P., Artificial Intelligence: A Modern Approach, The Intelligent Agent Book. Prentice Hall Series in Artificial Intelligence, (Sutton et Barto 1998) R. S. and Barto A. G. Reinforcement Learning: An Introduction. MIT Press Cambridge MA, (Watkins 1989) Watkins C., Learning from Delayed Rewards. PhD Thesis of the King's College, University of Cambridge, England,

51 Merci de votre attention Avez-vous des questions ?


Télécharger ppt "Des agents intelligents dans un environnement de communication multimédia : vers la conception de services adaptatifs Romaric CHARTON Directeurs de thèse."

Présentations similaires


Annonces Google