Équilibre de satisfaction

Slides:



Advertisements
Présentations similaires
Théorie des graphes.
Advertisements

Fabrice Lauri, François Charpillet, Daniel Szer
Gestion de portefeuille
Gestion de portefeuille
GESTION DE PORTEFEUILLE chapitre n° 7
STATISTIQUE INFERENTIELLE L ’ESTIMATION
3. Variantes de l’algorithme
Modèle des jeux et des mécanismes
1 Modèles Economiques en Informatique Michel de Rougemont Université Paris II.
Algorithmes et structures de données avancés
Inférence statistique
Les TESTS STATISTIQUES
La théorie des jeux.
Les TESTS STATISTIQUES
Journée Francilienne de recherche Opérationnelle Politiques de gestion de coûts de transit dans lInter domaine basé sur BGP Loubna ECHABBI Dominique BARTH,
Fabio Cozman, 30/12/1999 Présenté par Antoine Penciolelli 17/04/2001 Introduction à la théorie des ensembles de distributions.
F. Pascual - Laboratoire d’Informatique de Grenoble
Dr DEVILLE Emmanuelle J D V 12/07/2006
M. EL Adel & M. Ouladsine LSIS – UMR-CNRS 6168 Marseille - France
Les tests d’hypothèses
LI.A ça ressemble à ça… des fois…. Ou pas… Rappels et définition de lIA – Lidée quon sen fait – Jusquoù on va aujourdhui / dans le futur? – Petit Etat.
Modélisation Bayésienne par chaines de Markov Monte Carlo
Chapitre VII :Commande par retour d’état
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Un neurone élémentaire
CHALLENGE ROADEF 2001 Résolution par une métaheuristique à base de recherche à voisinage variable et propagation par contraintes Fabrice BUSCAYLET Fabrice.
Algorithmes Branch & Bound
RÉSOLUTION DE PROBLÈMES
Optimisation linéaire
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
Optimisation non linéaire sans contraintes
La pensée du jour « Il faut rendre mesurable ce qui est réellement important plutôt que de rendre important ce qui est facilement mesurable. » Source inconnue.
Microéconomie et Finance
Les réseaux de neurones
Universté de la Manouba
Algorithmes d ’approximation
Vincent Thomas Christine Bourjot Vincent Chevrier
Mathématiques et Théorie des Jeux
Eléments de correction du galop
REGLAGE ECONOMIQUE DES PRODUCTIONS Le réglage tertiaire.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Programmation linéaire en nombres entiers
L’économie de concurrence parfaite
Présentation du marché obligataire
Algorithmes Branch & Bound
Cours 11 - Théorie des jeux et stratégies en concurrence
Jeux répétés.
Initiation à la conception des systèmes d'informations
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Programmation fonctionnelle Preuve
Sujets spéciaux en informatique I
TIPE Les dames chinoises
Recherche de motifs par projections aléatoires
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC.
Quinze règles.
Préambule Problématique générale.
1 Logiciels de confection automatique d’horaires.
Post-optimisation, analyse de sensibilité et paramétrage
1 Gestion des voitures médecins d'Urgences-Santé Michel Gendreau Émilie Frot¹ Gilbert Laporte Frédéric Semet¹ Centre de recherche sur les transports Université.
Résolution des équations différentielles
Ordonnancement en présence d’agents individualistes
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Critères d’Aide à la Décision. Nouvelle Ligne de Produit Actions possibles quelles quantités produire? Etats de l’environnement quels niveaux de demande?
ECHANTILLONAGE ET ESTIMATION
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Introduction aux statistiques Intervalles de confiance
Algorithmes Branch & Bound Module IAD/RP/RO Master d ’informatique Paris 6 Philippe Chrétienne.
1 Théorie de la finance Gestion de portefeuille Moyenne-variance Master Sciences de Gestion – Semestre II - Université Mohammed V Faculté des Sciences.
Transcription de la présentation:

Équilibre de satisfaction Stéphane Ross

© Stéphane Ross – Janvier 2006 Plan Motivation Modèle de jeu Équilibre de satisfaction Algorithmes d’apprentissage et résultats Conclusion et travaux futurs © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Motivation Dans le monde réel, les agents font face à des problèmes où : ils ne connaissent pas leur environnement ils ont peu ou pas d’informations sur les autres agents évoluant dans cet environnement La théorie des jeux offre un bon modèle d’interaction entre agents mais assume que : tous les agents ont des connaissances et/ou observations communes sur les autres agents (actions, récompenses, etc.) tous les agents connaissent ou sont capables de déduire correctement la stratégie des autres agents © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Motivation Afin de rendre applicable la théorie des jeux à des problèmes réels et complexes, nous cherchons à : définir des équilibres ne nécessitant pas de connaissances ni d’observations sur les autres agents s’assurer que ces concepts de solutions soient aussi bon, au sens de Pareto, que les équilibres classiques (équilibre de Nash) trouver des algorithmes permettant d’atteindre ces équilibres © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Modèle de jeu Pour représenter les contraintes d’observations des agents nous proposons un modèle de jeu modifié : G = < n, A, Ω, O, R1, …, Rn > n : Le nombre d’agents A = A1x…xAn : L’espace d’actions conjointes Ω : L’ensemble des observations possibles O : A  Ω une fonction qui définit l’observation des agents en fonction de l’action conjointe Ri : Ω   la fonction de récompenses de l’agent i © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Modèle de jeu Chaque agent i ne connaît que : son ensemble d’actions possibles Ai son ensemble d’observations possibles Ω sa fonction de récompenses Ri Après chaque tour de jeu, chaque agent observe une observation oΩ correspondant à l’action conjointe de tous les agents. Cependant, ils sont incapables de déterminer cette action conjointe puisqu’ils ne connaissent pas la fonction O. © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Concept de solution Les agents ne connaissent pas la matrice de jeu. Un équilibre classique issue uniquement d’un processus délibératif est donc impossible. Les agents ne pourront raisonner que sur leur propre historique d’observations et de récompenses. Le jeu est donc répété un nombre fini de fois et on cherche à atteindre un équilibre qui sera le résultat d’un processus d’apprentissage. A a,? b,? B c,? d,? a,b,c,d  Ri © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Solution proposée Le principe de la satisfaction : Si un agent est satisfait par sa récompense, alors il ne change pas de stratégie Sinon il peut décider de modifier sa stratégie À partir de ce principe, un équilibre surviendra si tous les agents sont satisfaits, puisque aucun agent ne changera de stratégie. © Stéphane Ross – Janvier 2006

Équilibre de satisfaction Plus formellement, nous introduisons les notions suivantes afin de rendre cet équilibre possible : Si :   {0,1} une fonction de satisfaction pour tout agent i tel que pour une récompense ri: Si(ri) = 1 si ri  i (l’agent i est satisfait) Si(ri) = 0 si ri < i (l’agent i est insatisfait) i est la constante de satisfaction qui définit la borne inférieure à partir de laquelle l’agent i devient satisfait par ses récompenses. © Stéphane Ross – Janvier 2006

Équilibre de satisfaction Une stratégie conjointe s est un équilibre de satisfaction si : Si(Ri(O(s))) = 1 i sit+1 = sit i,t : Si(Ri(O(st))) = 1 © Stéphane Ross – Janvier 2006

Exemple Le dilemme du prisonnier : On peut transformer la matrice de jeu à l’aide des fonctions de satisfaction : C D -1,-1 -10,0 0,-10 -8,-8 Éq. de Nash : (D,D) Pareto-optimal : (C,C), (D,C), (C,D) (C,C) pareto-domine (D,D) i = -1 i C D 1,1 0,1 1,0 0,0 i = -8 i C D 1,1 0,1 1,0 © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Remarques Les équilibres de satisfaction ne sont pas toujours des équilibres de Nash. En fait, toute stratégie conjointe sera un équilibre de satisfaction si on définit i = minoΩ Ri(o) i Nous chercherons donc plutôt à définir i de sorte à atteindre des équilibres de satisfaction Pareto-optimaux, qui sont aussi individuellement rationnel pour tous les agents par rapport aux équilibres de Nash d’un jeu. Dans le dilemme du prisonnier, seulement (C,C) est Pareto-optimal et individuellement rationnel par rapport à l’équilibre de Nash (D,D) © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Jeux problématiques Toutefois, il n’est pas toujours possible d’atteindre un équilibre de satisfaction Pareto-optimal : i = 1 i A B C 1,1 0,1 1,0 Éq. de Nash faible : (A,A) Pareto-optimal : (A,A) © Stéphane Ross – Janvier 2006

Jeux problématiques Les jeux possédant des stratégies dans lequel un agent est toujours satisfait : i = 1 i A B 1,0 1,1 0,0 Éq. de Nash faible : (A,A), (A,B), (B,A) Pareto-optimal : (B,A) © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Jeux problématiques Certains jeux à somme nulle Dans le jeu de pile ou face, il est impossible d’obtenir un équilibre de satisfaction en stratégie pure excepté si on défini les constantes de satisfactions à la récompense minimale… H T 1,1 i = -1 i H T 1,-1 -1,1 H T 1,0 0,1 i = 1 i © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Solutions possibles Permettre à la constante de satisfaction de varier dans le temps On cherchera à ce que la constante converge vers l’optimal tout en allouant à l’équilibre optimal d’être atteignable. Permettre des équilibres de satisfaction en stratégie mixte : Si(Ei(p)) = 1 i pit+1 = pit i,t : Si(Ei(pt))) = 1 © Stéphane Ross – Janvier 2006

Apprentissage de l’équilibre Cas de base : on cherche à atteindre un équilibre de satisfaction en stratégie pure sous des constantes de satisfaction fixées : © Stéphane Ross – Janvier 2006

Stratégie d’exploration Exploration aléatoire : Distribution de probabilité uniforme sur toutes les actions possibles Exploration ciblée : Distribution de probabilité qui favorise les actions qui ont été explorées moins souvent: P(a) = (1/n(a)) © Stéphane Ross – Janvier 2006

Stratégie satisfaisante Jeux de tests Dilemme du prisonnier Jeu coopératif Jeu problématique C D -1,-1 -10,0 0,-10 -8,-8 A B C 0,0 1,1 2,2 3,3 A B C 1,1 0,1 1,0 Bataille des sexes Grand jeu A B C D E F G H 0,0 -1,4 2,-2 3,0 1,2 0,3 1,1 3,3 2,2 4,4 5,1 0,2 1,4 0,1 5,5 2,1 0,4 5,3 -1,3 2,-1 2,4 -3,2 C D 2,1 0,0 1,2 Stratégie satisfaisante A B 1,0 1,1 0,0 © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Résultats avec PSEL Jeux |A| nES Taux de conv. Expl. aléatoire Rép. moy. Expl. ciblée Amélioration Dilemme du prisonnier 4 1 100 % 8,67 ± 0,23 6,72 ± 0,18 22,49 % Batailles des sexes 2 1,97 ± 0,04 1,95 ± 0,04 1,02 % Jeu coopératif 9 8,92 ± 0,23 7,82 ± 0,19 12,33 % Grand jeux 64 67,95 ± 1,89 61,51 ± 1,65 9,48 % Jeu problématique 10,88 % - Jeu avec stratégie satisfaisante 33,26 % © Stéphane Ross – Janvier 2006

Convergence théorique de PSEL Dans tous jeux où Si(Ri(O(s))) = Sj(Rj(O(s))) i,j,s et en utilisant l’exploration aléatoire, nous avons démontré que : L’algorithme PSEL convergera vers un équilibre de satisfaction en moins de K répétitions avec une probabilité P(kK) = 1-qK où q = 1-nES/|A| Pour K, P(kK)1 si nES > 0 Le nombre de répétitions espéré (moyen) requis par l’algorithme PSEL afin de converger vers un équilibre de satisfaction est donné par E(k) = |A|/nES Ceci est valide dans tous jeux où Ri et i sont identiques pour tout agent i. © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Discussion sur PSEL L’algorithme PSEL donne de bons résultats dans des jeux « non-problématiques ». Toutefois, si on veut s’assurer d’atteindre un équilibre de satisfaction Pareto-optimal, il nécessite que les agents connaissent a priori leur récompense dans cet équilibre. On cherchera donc à apprendre la valeur de la constante de satisfaction menant à un équilibre de satisfaction Pareto-optimal. © Stéphane Ross – Janvier 2006

Apprentissage de la constante L’algorithme LHSL utilise les idées suivantes : Si l’agent est satisfait, on augmente la constante Sinon on la diminue et on explore une nouvelle action On diminue l’incrément avec le temps de sorte à ce qu’il tende vers 0 et ainsi que la constante converge vers une certaine valeur fixe On s’assure aussi de ne pas surévaluer la constante en vérifiant dans l’historique de l’agent s’il a été insatisfait à partir du moment où sa constante dépassait une certaine valeur © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Résultats avec LHSL Jeux |A| Avec historique Sans historique Taux de conv. i ni Dilemme du prisonnier 4 100% 0,99 64 89,96% 0,90 Batailles des sexes 16 97,60% 0,80 Jeux coopératifs 9 99,66% 0,995 128 97,62% 0,95 Grand jeux 93,88% Jeu problématique 9,86% 7,88% 0,50 Jeu avec stratégie satisfaisante 98,06% 38,78% © Stéphane Ross – Janvier 2006

Comparaisons des résultats Dilemme du prisonnier © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Discussion sur LHSL L’algorithme LHSL n’est pas garanti d’atteindre l’équilibre de satisfaction Pareto-optimal En pratique, il a toutefois offert des taux de convergences près de 100% dans les jeux « non-problématiques ». Il ne nécessite pas que les constantes de satisfaction « optimales » soit connues a priori Toutefois, les paramètres de l’algorithme doivent être ajustés « à la main » pour s’assurer d’obtenir des performances optimales © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Conclusion Nous avons vu que des équilibres résultant d’un processus d’apprentissage et ne nécessitant pas de connaissances et d’observations sur les autres agents sont possibles. L’approche proposée rend possible des équilibres étant meilleur, au sens de Pareto, que l’équilibre de Nash dans certains jeux. Toutefois, nous avons vu certains jeux où l’équilibre de satisfaction Pareto-optimal en stratégie pure n’est pas atteignable. © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Conclusion Les algorithmes proposées offrent de bonnes performances en pratique dans des jeux où l’équilibre de satisfaction est toujours atteignable. Ils sont toutefois limités dans la mesure où ils nécessitent que certaines constantes soient bien définies afin d’assurer des performances optimales. © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Travaux futurs Explorer des approches alternatives pour apprendre l’équilibre et la constante de satisfaction Approches à non-regret Approches basées sur la stabilité des observations Développer des algorithmes qui peuvent converger vers des équilibres de satisfaction mixtes Approches évolutionnaires Approches par intervalle de confiance sur l’espérance Étendre le modèle pour l’appliquer à différents types de jeux : Jeux bayésiens Jeux stochastiques © Stéphane Ross – Janvier 2006

© Stéphane Ross – Janvier 2006 Travaux futurs Il faut garder en perspective que si nous faisons face à des agents inconnus, ils n’utiliseront peut-être pas un raisonnement basée sur la satisfaction. Il faut donc évaluer si ce raisonnement peut garantir des performances optimales face à d’autres type d’agents : Meilleure réponse contre agents stationnaires Équilibre de Nash contre agents rationnels Minimax contre agents quelconques © Stéphane Ross – Janvier 2006