La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Des agents intelligents dans un environnement de communication multimédia : vers la conception de services adaptatifs Romaric CHARTON Directeurs de thèse.

Présentations similaires


Présentation au sujet: "Des agents intelligents dans un environnement de communication multimédia : vers la conception de services adaptatifs Romaric CHARTON Directeurs de thèse."— Transcription de la présentation:

1 Des agents intelligents dans un environnement de communication multimédia : vers la conception de services adaptatifs Romaric CHARTON Directeurs de thèse : Anne BOYER et Jean-Paul HATON Directeur entreprise : Michel LEDERMAN Mardi 2 décembre 2003 Monsieur (Madame) Le Président du Jury, Mesdames et Messieurs les Membres du jury, Mesdames et Messieurs Je vais vous présenter mes travaux de thèse concernant les services de communication multimédia adaptatifs réalisés dans le cadre d’une convention Cifre avec la société Dialoca [Et c'est tout ! on enchaîne]

2 Les services de communication multimédia
Service :"Ce que l'on fait pour être utile, à titre onéreux ou non" (Larousse 1998). Mon étude : services réalisés sur des supports et réseaux informatiques qui utilisent des médias de communication divers : le téléphone, la messagerie électronique, le web, etc. pour permettre de : passer une commande en ligne, rechercher une information, gérer un portefeuille de titres boursiers, etc. Ne pas passer de temps trop sur la définition ... Ce qui est important, ce sont les services qui m'ont intéressé support informatique multimédia permet faciliter l'accès et le traitement de l'information Avec une ouverture sur les e-services et Web services qui sont la tendance actuelle (via Internet)

3 Positionnement des travaux
Fournir des services adaptatifs Acteurs Nature des services Évaluation Adaptation Interactions dans les h-SMA Approche Agent Systèmes Multi-Agents hétérogènes (h-SMA) Théorie des probabilités (Modélisation stochastique) Communication multimédia applications concrètes environnements incertains Théorie de l'utilité Indices satisfaction coûts Apprentissage déroulement préférences de l'utilisateur Ce transparent montre quels sont les domaines concernés par mon travail sur les services adaptatifs. Bien détailler On retrouve, décrit selon 4 besoins / aspects que j'ai considéré et qui ont influencé le choix des approches et des outils. besoin de modéliser les différents acteurs => motivation de l'approche agent la nature des services (ancrée dans le mondé réel) => travailler en dans des environnements incertains le besoin d'évaluer les services / approximation numérique modélisant la satisfaction estimée de l'utilisateur les coûts que le service peut engendrer des services adaptatifs capables de gérer les problèmes pouvant survenir pendant leur déroulement le plus proche des préférences des utilisateurs attention ne pas aller plus loin et parler de ce que l'on pourrait mettre au bas du transparent (ie : coordination agents & MDP)

4 Plan de l'exposé Contexte et problématique Approche théorique
1 Contexte et problématique Approche théorique 2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 5 Conclusion et perspectives

5 Partie 1 - Contexte et problématique
Approche théorique 2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 5 Conclusion et perspectives

6 Collaboration avec la société DIALOCA
1 Collaboration avec la société DIALOCA Création : octobre 1996 à Paris Domaine : Gestion de la relation client et langage naturel Clients : Danone, Ministère de l'Intérieur, PSA, CNP, TopTrades, etc. Large palette d'applications Multimédia, interactives et grand public accès au web par téléphone, support de bornes interactives et de centres d'appels, gestion de télé-réunions ... Plate-forme UniMédia Anciennement MIC2 La plate-forme permet le déroulement des applications => [présenter l'architecture]

7 Déroulement d'un service sur la plate-forme UniMédia
1 Déroulement d'un service sur la plate-forme UniMédia E-Nots : notification téléphonique démarrage Applications PMMU Moteurs Synthèse de parole Reconnaissance de parole Authentification ... Administration UniMédia construite autour du Pmmu qui peut être vu comme la plaque tournante des flux d'informations et composé de 4 grandes parties, ... je n'ai pas tout détaillé Déroulement de l'exemple : envoi d'un message à un abonné Pilotes SGBD Web Téléphone Fax ... Expéditeur Destinataire (abonné)

8 Objectifs de la collaboration
1 Objectifs de la collaboration Objectifs (utiliser des méthodes IA) Faciliter la conception et le déroulement des applications Adapter leur exécution au comportement de l'utilisateur et à ses préférences Scripts (automates finis déterministes) Complexité (cas particuliers / erreurs) Modèle implicite et figé de l'utilisateur Besoin de connaissances expertes Services adaptatifs Comportement d'un agent + contrainte : garder l'existant à partir de mon étude de la plate-forme connaissance intuitives de l'utilisateur Objectif : prendre en compte les utilisateurs et les partenaires comme des acteurs du service avec lesquels il faut échanger, chacun ayant à sa participation dans le déroulement d'un service => motivation pour l'approche agent Applications existantes (scripts statiques) Plate-forme UniMédia

9 Pourquoi une approche agent ?
1 Pourquoi une approche agent ? Besoin de propriétés : autonomie prise de décisions communiquer gérer des connaissances gérer des ressources Environnement Agent Actions Effecteurs Perceptions Capteurs Satisfaction Agent à rationalité limitée (Russell et Norvig 1995) comportement utile Comportement Nous avions besoin d'une entité capable de travailler sans que l'on ait à lui dire constamment quoi faire => autonomie (caractéristique essentielle) <= ie franche autonomie (si ce n'est l'utilité cf suite) capable de prendre des décisions => pro-activité besoin d'une entité capable de communiquer capable de gérer des connaissances et des ressources (persistantes : possessions / non persistantes : temps, énergie, argent ...) Agent = entité en relation avec son environnement (boucle perception action en psychologie cognitive) Rationalité limitée = maximiser satisfaction selon les ressources disponibles On termine par : Notre BUT : On veut fournir des services utiles (selon une approximation sat U + couts) Notre IDEE : C'est l'agent qui doit maximiser de son utilité dans le service COMMENT : On a choisi de ramener cette utilité à la satisfaction d'un agent rationnel au sens de Russel et Norvig POURQUOI : on sait que l'on a des méthodes pour le pousser à l'optimiser (apprentissage par renforcement ...) Conclusion : Nous nous sommes donc penchés la façon dont un agent rationnel pouvait prendre en charge les services adaptatifs

10 Utilité et évaluation des services
1 Utilité et évaluation des services Nombreux indices possibles  difficile à définir Réussite de la tâche accomplie du point de vue du concepteur Un choix classique : Coûts d'utilisation des ressources (propres / détenues par des tiers) U = R - C Réussite de la tâche accomplie du point de vue des utilisateurs Notre choix plus "orienté" vers les services adaptatifs Problème : Comment mesurer la satisfaction de l'utilisateur ? Intro : Pourquoi parler de l'utilité dans les services ? Si on cherche à laisser l'agent décider de façon autonome, il faut toutefois le guider. L'utilité est un moyen (de le guider par les besoins) => il faut définir l'utilité pour les des services Conclusion : il prend en compte les autres ... => domaine des SMA Approximation : une valeur numérique associée actions de l'utilisateur  Idée que l'agent estime son utilité à partir de ses perceptions des autres ...

11 Systèmes Multi-Agents (Ferber 1995)
Réaliser un service de façon collective Un Système Multi-Agent (SMA) Interaction objets Environnement Interaction Coopération Collaboration coordonnée buts compatibles capacités individuelles insuffisantes L'agent est naturellement en relation avec d'autres (utilisateurs, partenaires fournisseurs de service) => et les Systèmes multiagents sont des outil de choix, car l'interaction y tient une place essentielle On voit alors que la communication entre agents est explicitement modélisée par les interaction c'est la grande force des SMA Pour réaliser le service, l'agent n'est pas seul, il le fournit à un utilisateur et Si on regarde dans quel cas d'interaction on se place : selon Ferber, c'est de la collaboration coordonnée Mais encore faut-il que les agents puissent se comprendre ...

12 Communication et hétérogénéité
1 Communication et hétérogénéité A quelle heure mon avion part-t-il ? Et si A est un humain ?   ? Langage L A Agent A Agent B ,? Langage L B Contrainte : Sachant que A et B ne sont pas "modifiables" Comment faire interagir A et B ? Pose le problème de l'hétérogénéité dans les SMA Difficultés de l'interaction Homme-SMA (Grislin-LeSturgeon et Peninou 1998) comment déterminer ce que A veut ? comment prévoir son comportement ? que préfère-t-il ? ...

13 Problématique générale
1 Problématique générale Scientifique Comment coordonner un ensemble d'agents hétérogènes pour réaliser coopérativement une tâche ? Applicative Comment faciliter la conception et le contrôle de services adaptatifs ? Difficultés à prendre en compte Interaction avec des agents humains Applications réelles  environnements incertains Réponse à des besoins industriels

14 Partie 2 - Approche Théorique
1 Contexte et problématique Approche théorique 2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 5 Conclusion et perspectives

15 Les Systèmes Multi-Agents hétérogènes (h-SMA)
2 Les Systèmes Multi-Agents hétérogènes (h-SMA) Ensemble A d'agents de nature très différente : humains, logiciels, etc. Partition selon la nature des agents et de leur environnement Partition selon l'influence et le degré de connaissance que l'on a sur les agents Environnement physique A P Environnement logiciel A L N Agents non-contrôlés A NC Utilisateurs, clients, ... Liens d'interaction Agents contrôlés A C Comparables à UniMédia C P Agents partiellement contrôlés A PC Experts, sites partenaires, ...

16 Une solution au problème de l'hétérogénéité
2 Une solution au problème de l'hétérogénéité Introduire un agent coordinateur pour amener A et B à coopérer en modifiant leurs interactions. Langage L B Langage L A Agent A Besoins Agent C Coordinateur Agent B Capacités Solution proposée au problème de l'hétérogénéité Coordinateur (Médiateur dans le manuscrit) Cet agent coordinateur, c'est typiquement UniMédia ! Comment travaille-t-il ? Coordination : colle qui lie des activités (Gelernter et Carriero 1992)

17 Comment obtenir le comportement du coordinateur ?
2 Comment obtenir le comportement du coordinateur ? Statique Dynamique Monde de l'agent Automates : programmes, scripts, règles, etc. Connaissances implicites du concepteur Planification Modèle connu explicitement Apprentissage Expériences ou traces progressif classe assimilable à des automates écrits par un concepteur : statique, à refaire si modifications planification : + réutilisable car on peut changer les conditions du problème

18 D'un coordinateur à base de scripts ...
2 D'un coordinateur à base de scripts ... Debut : SEQ{ send, NULL, "debut.mod", SEQ {PARAMS}, SEQ {BRANCH} }; Etape_Demande : SEQ { getstrings, NULL, "demande.mod", SEQ{ BRANCH , SEQ { ReturnCode, SEQ{"Media_IF_TypeUnknown", Etape_Demande }, SEQ{"Media_UserInactivity", Etape_Demande }} } }; ... Langage de scénarisation UniMédia Attente Réponse Connue Transmettre question Automate de comportement Demande à traiter Recevoir demande ... Échec Analyse FAQ Envoyer réponse Recevoir réponse Abstraction

19 ... à des schémas d'interaction
2 ... à des schémas d'interaction Attente ... Besoin Poser question G 1 : Comportement de l'utilisateur Recevoir réponse Utilisateur (A PC) Attente Réponse Connue Transmettre question G 2 : Comportement du coordinateur Demande à traiter Recevoir demande ... Échec Analyse FAQ Envoyer réponse Recevoir réponse Coordinateur (A LC) Attente G 3 : Comportement d'un expert Traiter la demande Recevoir demande ... Envoyer réponse Réponse trouvée Expert (A PPC) Liens d'interaction Lien avec le suivant : On a des rôles typiques et des interactions et en particulier le coordinateur qui va être la clef dans l'organisation d'un h-SMA (c'est la colle !)

20 Comment structurer les relations ?
2 Comment structurer les relations ? Organisation : agencement de relations entre composants ou individus qui produit une unité, ou système, dotée de qualités inconnues au niveau des composants ou individus. (Ferber 1995) Structure organisationnelle subordination Rôles ? Organisation concrète instanciation Endosser un rôle : satisfaire des contraintes sur ses capacités adopter un comportement typique

21 Structures organisationnelles et classes de service
2 Structures organisationnelles et classes de service Rôles génériques U C S T Utilisateur Coordinateur Source Traitement U C Coordination simple S Recherche d'informations et assistance à la navigation U C U C S Télé-réunion T U C S Traitement intelligent de l'information Diagnostic, filtrage ... avec le rôle de coordinateur et celui d'utilisateur 2 rôles supplémentaires Rôle de Source Rôle de Traitement les classes de service La liste présentée n'est pas exhaustive Je présente ici celles que j'ai retenues Je vais me focaliser sur l'une d'entre-elles : la recherche d'informations

22 Partie 3 - Les services de recherche d'informations
1 Contexte et problématique Approche théorique 2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 5 Conclusion et perspectives

23 Assistance à la recherche d'information
3 Assistance à la recherche d'information Source Utilisateur Coordinateur Source Source Contraintes : Utilisateurs : occasionnel, novice Sources d'informations : non propriété, coût Objectif : Améliorer la qualité du service fourni par rapport à la recherche classique

24 Exemple de problème : le choix d'un vol
3 Exemple de problème : le choix d'un vol Souhait : réserver un vol de Paris à Moscou Source d'informations Ne sait pas formuler sa requête Fournit trop de résultats, bruits ... Client Interaction Requête Résultats Coordinateur

25 Rôle de l'agent coordinateur
3 Rôle de l'agent coordinateur Ses buts : Construire une requête correspondant le plus au besoin de l'utilisateur Fournir des résultats appropriés à l'utilisateur Maximiser son utilité : Maximiser la satisfaction de l'utilisateur Minimiser les coûts liés à la source d'information A tout moment, il peut Poser une question à l'utilisateur au sujet de la requête Envoyer la requête à la source d'information Proposer des résultats à l'utilisateur en nombre limité En retour, il perçoit les réponses des autres agents : valeurs, résultats, sélections, rejets …

26 Coordination et stratégies de coordination
3 Coordination et stratégies de coordination Coordination : Contrôle d'une séquence d'interactions (questions-réponses) Réussie : • Sélection d'un résultat • Absence de résultat constatée au niveau de la source Stratégie de coordination : Façon de choisir les actions pour coordonner la suite des interactions. Problème : Comment obtenir le comportement de coordination adéquat ? Solution proposée : Trouver une stratégie de coordination optimale

27 Caractéristiques du coordinateur
3 Caractéristiques du coordinateur Gérer l'incertitude et les connaissances incomplètes Utilisateurs : Mauvaise compréhension des questions Connaissance partielle de leurs besoins Environnement : Bruits pendant la communication Capteurs imparfaits Proposition : Modéliser la coordination avec un Processus de Décision Markovien Calculer un comportement stochastique de coordination

28 Processus de Décision Markovien (MDP)
3 Processus de Décision Markovien (MDP) Modèle Stochastique <S,A,T,R> 0.3 0.7 0.2 0.8 0.4 0.6 0.9 0.1 0.5 Transition T : S  A  S  [0;1] avec T(s,a,s') = P (s'|s,a) s2 s0 s1 États S={s0,s1,s2} a0 a1 Actions A={a0,a1} Récompense R : S  A  S  IR Décider selon une politique  : S  A  [0;1] Un critère possible Optimiser la récompense espérée  : Attenuation Calculer une stratégie de coordination revient à Calculer une politique stochastique

29 Un MDP pour contrôler les interactions
3 Un MDP pour contrôler les interactions Environnement du coordinateur Définir S : L'espace d'états A : Les actions du coordinateur T : Les transitions R : Les récompenses Utilisateur Source Suite d'interactions (MDP à contrôler) T S, R A Coordinateur

30 Etats : Comment décrire les requêtes et les objets ?
3 Etats : Comment décrire les requêtes et les objets ? Approche de remplissage de formulaire (Goddeau et al. 1996) :  Référentiel construit sur un ensemble d'attributs Ref = { At 1, … , At m } Exemple de référentiel : Départ : { Londres, Genève, Paris, Berlin, … } Arrivée: { Pékin, Moscou, New-York, … } Classe : {Première, Affaire, Économique, ... }

31 Espace d'états S s R s U 3 Utilisateur Source Coordinateur S=S US R
L'ensemble des objets connus qui correspondent à la requête courante s R = { vol 1; ... ; vol r} s R La requête partielle courante de l'utilisateur s U = { ( ea 1 , val 1 ) ; ... ; ( ea m , val m ) } État d'un attribut : Ouvert ea = ‘?’ val est inconnue Affecté ea = ‘A’ val est affectée Fermé ea = ‘F’ val est inconnue et ne peut plus être demandée s U Coordinateur  Espace d'états S = S U  S R S U est l'ensemble des requêtes partielles utilisateur S R est l'ensemble des parties des objets de la source d'informations S=S US R

32 Abstraction des états (S  S)
3 Abstraction des états (S  S) Taille de l'espace d'états S : (2 n +1) (2+i) m n : nombre total d'objets de la source d'information m : nombre d'attributs i : nombre moyen de valeurs par attribut Nombre de réponses nrmax qr = 0 qr = + qr = * qr = ? Inconnu (vide)  Une idée : une abstraction S de l'espace d'états S pour définir le MDP en conservant : s U  {?, A, F} m l'état d'affectation des m attributs dans s U s R  {?, 0, +, *} la quantité de réponses sur s R  Taille de l'espace d'états abstrait S : 4  3m

33 Actions du coordinateur
3 Actions du coordinateur Utilisateur Source Poser une question sur un attribut à l'utilisateur Exemple pour la classe de voyage : Valuation : “En quelle classe souhaitez-vous voyager ?” Proposition : “Voulez-vous voyager en classe [affaire] ?” Confirmation : “Êtes-vous sûr de vouloir voyager en classe [économique] ?” Question Requête Interroger la source d'informations Demander à l'utilisateur de sélectionner un résultat ou résultats Coordinateur

34 Sélection, déconnexion
3 Récompenses Utilisateur Source Sélection, déconnexion par l'interaction avec l'utilisateur + R selection l'utilisateur sélectionne une proposition - R timeout l'interaction est trop longue (déconnexion / seuil) Réponses par l'interaction avec la source d'informations + R noresp pas de réponses pour une requête totalement spécifiée - R overnum trop de réponses (quantité de réponses s R = *) Elles sont obtenues : Coordinateur

35 Exemple de coordination pour la réservation de vol
3 Exemple de coordination pour la réservation de vol État s Abstraction s Action du coordinateur Réponses Récompense <?, ?, ? | ?> Demander ville départ Paris <Paris, ?, ? | ?> <A, ?, ? | ?> Envoyer la requête 1700 vols - R Overnum <Paris, ?, ? | {nr Max premiers vols} > <A, ?, ? | *> Demander destination Moscou <Paris, Moscou, ? | ?> <A, A, ? | ?> Demander classe de vol Ne sait pas <Paris, Moscou, F | ?> <A, A, F | ?> 4 vols <Paris, Moscou, F | {4 vols}> <A, A, F | +> Demander une sélection Sélection 2 + R Sélection Légende : Utilisateur Coordinateur Source

36 Calculer la stratégie de coordination
3 Calculer la stratégie de coordination Problème : Deux parties du modèle restent inconnues ! T = f (utilisateur, source d'information) R = f (utilisateur, source d'information)  Apprendre la stratégie de coordination par renforcement

37 Apprentissage par Renforcement (Sutton et Barto 1998)
3 Apprentissage par Renforcement (Sutton et Barto 1998) Transition Observation Système Dynamique Renforcement (récompenses) Action Faire le lien entre le signal de renforcement et l'utilité Besoin d'une méthode d'apprentissage en ligne  Algorithme du Q-Learning (Watkins 1989) qui fonctionne par la mise à jour de Q-Valeurs (Q : S  A  IR) s Q(s,a) a s' V(s) V(s')

38 Architecture du coordinateur
3 Architecture du coordinateur Agent Coordinateur Module de Décision (Q-Learning) Récompenses Réponses et sélections Mise à jour Résultats Etat Abstrait Gestionnaire des profils utilisateurs Préférences Questions et résultats Actions sélectionnées Requêtes Module de Représentation (état réel) Gestionnaire d'Interactions Agent Utilisateur Agent Source d'Information

39 Gestion des préférences des utilisateurs
3 Gestion des préférences des utilisateurs Ensemble de profils Prof = { prof 0 , prof 1 , ... , profn } avec un profil par défaut prof 0 pour les nouveaux utilisateurs. Un profil prof i mémorise, pour chaque attribut At i , la probabilité p ( v k | prof i , At j ) que cet utilisateur préfère la valeur v k est initialisé avec des distributions uniformes est mis à jour à la sélection d'une proposition Première Affaire Economique 0, , ,75 p(classe) L'utilisation de profils personnels nécessite l'identification de l'utilisateur

40 Partie 4 -Mise en œuvre 1 Contexte et problématique Approche théorique
2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 5 Conclusion et perspectives

41 Modélisation d'UniMédia
4 Modélisation d'UniMédia Objectif : Se doter d'un modèle conceptuel pour fournir les services dans les h-SMA Proposition : Une modélisation agent à 4 niveaux UniMédia Modélisation Service (rôles et classes de service) U C S T Applications Agent (nature / contrôlabilité) Moteurs et pilotes Ressource (capteurs / effecteurs) Média (canaux média et "prises") Utilisation : • sur les services Dialoca • pour des applications de l'équipe MAIA (Diatélic, Cycab, ...)

42 Implantation de la maquette SmallMu
4 Implantation de la maquette SmallMu Objectifs : Pouvoir travailler sur un agent logiciel contrôlé reproduisant ou émulant les fonctionnalités nécessaires Réalisation : Une bibliothèque fournissant un corps d'agent capable d'accueillir un cerveau pour le comportement, des membres pour percevoir et agir. Un ensemble de membres dédiés à l'environnement multimédia : Reconnaissance et synthèse de parole, , SMS (émulé) Utilisation : Prototype de coordinateur pour la réservation de vol

43 Expérimentations sur l'application de réservation de vol
4 Expérimentations sur l'application de réservation de vol Entraînement du coordinateur avec 3 attributs (villes de départ/arrivée et classe) 4 attributs (+ période de la journée de départ) 5 attributs (+ la compagnie aérienne) Croissance de la complexité en fonction du nombre des attributs : Nb. d'attributs (m) Nb. états abstraits (4.3 m) Nb. d'actions (3.m+2) Nb. de Q-Valeurs ((12.m+8).3 m) 3 108 11 1 188 4 324 14 4 536 5 972 17 16 524

44 Résultats d'apprentissage taux de coordinations réussies
4 Résultats d'apprentissage taux de coordinations réussies 3 et 4 attributs 99% de coordinations réussies (proche de l'optimum) 5 attributs 90% de réussite (plus de temps nécessaire pour converger)

45 Résultats d'apprentissage longueur moyenne de coordination
4 Résultats d'apprentissage longueur moyenne de coordination 3 et 4 attributs longueur minimale de la coordination atteinte 5 attributs coordination plus longue

46 Critique des comportements obtenus
4 Critique des comportements obtenus Grand nombre d'interactions nécessaires besoin d'une phase d'apprentissage préalable Problème : difficulté d'obtenir un corpus de traces d'interaction réelles utilisation d'un utilisateur simulé avec un comportement naïf Constats : + stratégie optimale obtenue / adaptation au comportement simulé - manque de richesse dans les stratégies de coordination Rigidité Futur : Simulateur d'utilisateurs réels  comportements plus intéressants

47 Partie 5 – Conclusion et perspectives
1 Contexte et problématique Approche théorique 2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 5 Conclusion et perspectives

48 Aspect stratégie de coordination Aspect modélisation logicielle
5 Conclusion Rattachement à un mouvement récent utilisant l'apprentissage par renforcement pour des applications réelles avec des humains. Aspect stratégie de coordination Apports Possibilité d'apprendre ces stratégies par renforcement en utilisant des MDP Réponse aux besoins du plus grand nombre comme du particulier avec les profils Limites Observabilité partielle de l'utilisateur au travers des perceptions de l'agent Baisse des performances pour des tâches plus complexes Aspect modélisation logicielle Apports : Passage à une approche "orientée utilisateur" pour les services Solution incrémentale

49 Perspectives Utiliser d'autres modèles/méthodes probabilistes :
5 Perspectives Utiliser d'autres modèles/méthodes probabilistes : Apprendre à partir de politiques pré-établies Apprendre en généralisant le modèle (DynaQ, Classifieurs) Approche POMDP (Q-learning modifié, Gradient de Baxter) Pour résoudre des tâches plus complexes Reformuler l'espace d'états abstrait pour mieux guider le processus dans l'espace réel. Décomposition hiérarchique (H-MPD et H-POMDP) avec une gestion des dépendances entre les attributs Passage à plusieurs sources et aux autres classes de services Composition de services (plusieurs coordinateurs)

50 5 Références (Ferber 1995) Ferber J., Les Systèmes Multi-Agents. Vers une intelligence collective. Interéditions, 1995. (Gelernter et Carriero 1992) Gelernter D. et Carriero N., Coordination Languages and Their Significance. Communications of the ACM, n°35(2), pp , 1992. (Grislin-LeSturgeon et Peninou 1998) Grislin-Le Sturgeon E. et Péninou A., Les interactions Homme-SMA : réflexions et problématiques de conception. Systèmes Multi-Agents de l'interaction à la Socialité. Dans JFIADSMA'98, Hermès, pp , 1998. (Goddeau et al. 1996) Goddeau D., Meng H., Polifroni J., Seneff S., Busayapongchaiy S., A Form-Based Dialogue Manager For Spoken Language Applications, In Proceedings of ICSLP'96, Philadelphia, 1996. (Larousse 1998) Le petit Larousse 1998, Larousse-Bordas, 1998. (Russell et Norvig 1995) Russell S. et Norvig P., Artificial Intelligence: A Modern Approach, The Intelligent Agent Book. Prentice Hall Series in Artificial Intelligence, 1995. (Sutton et Barto 1998) R. S. and Barto A. G. Reinforcement Learning: An Introduction. MIT Press Cambridge MA, 1998. (Watkins 1989) Watkins C., Learning from Delayed Rewards. PhD Thesis of the King's College, University of Cambridge, England, 1989.

51 Merci de votre attention
Avez-vous des questions ?


Télécharger ppt "Des agents intelligents dans un environnement de communication multimédia : vers la conception de services adaptatifs Romaric CHARTON Directeurs de thèse."

Présentations similaires


Annonces Google