La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

IFT 615 – Intelligence artificielle Processus décisionnels markoviens (MDP) Jean-François Landry Département dinformatique Université de Sherbrooke

Présentations similaires


Présentation au sujet: "IFT 615 – Intelligence artificielle Processus décisionnels markoviens (MDP) Jean-François Landry Département dinformatique Université de Sherbrooke"— Transcription de la présentation:

1 IFT 615 – Intelligence artificielle Processus décisionnels markoviens (MDP) Jean-François Landry Département dinformatique Université de Sherbrooke

2 IFT 615Processus de décision de Markov2 Sujets couverts Processus de décision de Markov (MDP). Algorithme ditération par valeurs (value-iteration) Algorithme ditération par politiques (policy-iteration)

3 Rappel: Utility-based agents IFT615 Processus de décision de Markov 3 Les actions peuvent avoir des effets incertains! Les capteurs peuvent être bruités… État incertain.

4 Incertitude Soit A t laction daller à laéroport t minutes avant le départ de lavion. A t me permettra-t-il darriver à temps? Problèmes: –Observabilité partielle (conditions routières, etc.) –Senseurs bruités (annonces du trafic, etc.) –Incertitude dans leffet des actions (crevaisons, pannes, etc.) –Immense complexité pour modéliser les actions et le trafic. Un raisonnement purement logique –Risque de tirer des conclusions erronées: « A 25 me permettra darriver à temps », ou –Risque de tirer des conclusions peu exploitable du point de vue « prise de décision »: « A 25 me permettra darriver à temps, sil ne pleut pas, sil ny a pas daccident, si mes pneus ne crèvent pas, etc. » « A 1440 me permettra raisonnable darriver à temps, mais je devrai passer une nuit à laéroport. » IFT615 Processus de décision de Markov 4

5 IFT 615Processus de décision de Markov5 Grille (occupancy grid) Actions: E: Go east W: Go west S: Go south N: Go north Example 0 Degré de désirabilité -0.4 : +1 But

6 Actions aux effets incertains 6 État courantAction Go South (S) 50 % 25 % États successeurs possibles

7 IFT 615Processus de décision de Markov7 Une décision est un choix dune action dans un état. Cest une règle if state then action (21,12) (20,11) S (20,12) (20,13) W W Une décision est un choix daction pour un état S 0.1 (21,13) W 0.3 (20,10)(1,1) (21,12) W ou (21,12) E Exemples:

8 IFT 615Processus de décision de Markov8 Un plan est une stratégie : choix dune action pour chaque état. Un plan est également appelé une politique (policy) Cest un ensemble de règles if state then action. Un plan est un ensemble de décisions (politique) (21,12) (20,11) S (20,12) (20,13) W W S 0.1 (21,13) W 0.3 (20,10) (1,1) Plan π1 { (21,12) W, (20,13) S, (21,13) S, (20,12) E, … } Exemples:

9 IFT 615Processus de décision de Markov9 Un plan est une stratégie : choix dune action pour chaque état. Un plan est également appelé une politique (policy) Cest un ensemble de règles if state then action. Un plan est un ensemble de décisions (policy) (21,12) (20,11) S (20,12) (20,13) W W S 0.1 (21,13) W 0.3 (20,10) (1,1) Plan π1 { (21,12) W, (20,13) S, (21,13) S, (20,12) E, …} Exemples: Plan π2 { (21,12) S, (20,11) S, (21,10) E, ….}

10 IFT 615Processus de décision de Markov10 Exécution dun plan (politique) Un plan est un ensemble de règles if state then action. Notons π(s) laction désignée par le plan π dans létat s. Voici un algorithme dexécution, interprétation ou application dun plan While (1) { 1. s = état courant du système s; 2.a = π(s); 3.execute a; } Létape 1 peut impliquer de la détection (sensing) et la localisation. Létat résultant de lexécution de laction à létape 3 est imprévisible. Linterprétation (ensemble de séquences possibles) est un arbre infini. Lexécution est une séquence infini (une parmi celles de larbre).

11 IFT 615Processus de décision de Markov11 Interprétation/application dun plan Lapplication dun plan à un automate stochastique donne une chaîne de Markov (un graphe). La chaîne se déroule en un arbre infini. (21,12) (20,11) S (20,12) (20,13) W W S 0.1 (21,13) W 0.3 (20,10) (1,1) Plan 1 { (21,12) W, (20,13) S, (21,13) S, (20,12) E, (20,11) S, …} Exemples: Plan 2 { (21,12) S, (20,11) S, (21,10) E, ….}

12 IFT 615Processus de décision de Markov12 La qualité dun plan est déterminée par lensemble des séquences détats qui peuvent potentiellement en résulter. C-à-d., les séquences déroulables de la chaîne de Markov correspondante. La qualité peut être formalisée selon : –Une approche logique classique : chaque séquence doit satisfaire une condition de succès (conduire au but ou satisfaire une formule de logique temporelle) –Une approche de théorie de la décision: fonction dutilité ou de récompense. –Une combinaison des deux. Chaque approche donne lieu à une méthode de calcul du plan différente. –Recherche dans un graphe et/ou pour lapproche logique classique –Programmation dynamique pour lapproche de théorie de la décision. Des prototypes existent pour les différentes approches Interprétation/application dun plan

13 IFT 615Processus de décision de Markov13 Fonction de récompense/utilité et qualité des plans Une fonction de récompense/utilité, R(s), assigne un nombre réel à chaque état s. –R(s) désigne le degré de désirabilité de létat s. Le but et le coût des actions sont indirectement modélisés par la fonction de récompense/utilité. Ainsi, la qualité dun plan est déterminée par lespérance des récompenses quon peut potentiellement obtenir en suivant/exécutant le plan –Un plan optimal est celui qui maximise les récompenses. –Plus un plan est proche de loptimal optimal, plus il est de qualité. Ainsi un plan fait un compromis entre: –La maximisation de la probabilité datteindre le but (réduction de la probabilité déchec). –La maximisation des récompenses (optimisation du coût des actions).

14 IFT 615Processus de décision de Markov14 Valeur dun plan R(s) : récompense pour létat s; c-à-d., utilité de létat s. V(π,s) : valeur du plan π dans létat s V(π,s) = R(s) + df × P(s, π(s),s) × V(π, s) –df : facteur de pondération (0 < df <= 1) –S : espace détats –π(s) : action dans s –P(s, π(s),s) : probabilité de la transition s in S

15 IFT 615Processus de décision de Markov15 Plan optimal Un plan π domine un plan π si les deux conditions suivantes sont réunies: –V(π,s) >= V(π,s) pour tout état s –V(π,s) > V(π,s) pour au moins un s Un plan est optimal sil nest pas dominé par un autre. Il peut y avoir plusieurs plans optimaux, mais ils ont tous la même valeur. On peut avoir deux plans incomparables (la dominance induit une fonction dordre partiel sur les plans) Deux algorithmes différents pour le calcul du plan : –Itération par valeurs (value iteration) –Itération par politique (policy iteration)

16 IFT 615Processus de décision de Markov16 Équations de Bellman pour la valeur optimale Les équations de Bellman nous donnent la valeur V* des plans optimaux V*(s)= R(s) + max df × P(s,a,s) × V*(s) Si nous pouvons calculer V*, nous pourrons calculer un plan optimal aisément: –Il suffit de choisir dans chaque état s une action qui maximise V*(s). s in S a

17 IFT 615Processus de décision de Markov17 Algorithme Value iteration 1. Initialiser V(s) à 0 pour chaque état s. 2. Répéter (jusquà ce que le changement en V soit négligeable). a. Pour chaque état s V(s) = R(s) + max df × P(s,a,s) × V(s) b. V=V (ou |V - V| tolérance) 3. Le plan optimal est obtenu en choisissant pour chaque s état laction a telle que la valeur df × P(s,a,s) × V(s) est la plus élevée. (En dautres mots, on choisit laction qui maximise lespérance des valeurs des successeurs). Converge au plan optimal en O(|S| 3 ) s dans S a

18 IFT 615Processus de décision de Markov18 Démonstration de Value iteration

19 IFT 615Processus de décision de Markov19 Algorithme Policy iteration 1. Choisir un plan arbitraire π 2. Répéter jusquà ce que π devienne inchangé : a. π := π; b. Pour tout s dans S, calcule V(π,s) en résolvant le système de |S| équations en |S| inconnus V(π,s) = R(s) + df × P(s, π(s),s) × V(π,s) c. Pour tout s dans S, sil existe une action a telle que [ R(s) + df × P(s,a,s) × V(π,s)] > V(π,s) alors π(s) := a sinon π(s) := π(s) 3. retourne π Converge au plan optimal en O(|S| 3 ) s in S

20 IFT 615Processus de décision de Markov20 Algorithme de planification Markovienne Étendre lautomate stochastique en un graphe (de manière incrémentale): –Les actions peuvent être exprimées en un langage comme PPDDL. –Étant donné un état initial: On détermine les actions permises (dont les préconditions sont vraies). Pour chaque action on génère les successeurs non déterministes ainsi que les récompenses et les probabilités correspondantes –On répète pour chacun des successeurs et ainsi des suite … A différents étapes, applique lalgorithme policy iteration ou value iteration –Par exemple, chaque fois quon a généré m états de plus, où m est un p aramètre empirique Des heuristiques sont utilisées lorsque on génère le graphe pour favoriser les états les plus prometteurs. Des techniques de représentation compacte et/ou hiérarchique du graphe sont utilisées. Par exemple des Ordered Binary Decision Diagrams (OBDD).

21 IFT 615Processus de décision de Markov21 Grille (occupancy grid) Actions: E: Go east W: Go west S: Go south N: Go north Exemple 0 Fonction de récompenses -0.4 : +1 But

22 IFT 615Processus de décision de Markov22 Actions But: S2 0.8 S2 S1 S0 a3 a1 1 a2 a4 a Exemple (policy iteration)

23 IFT 615Processus de décision de Markov23 Le but (atteindre S2) est exprimé par une fonction de récompenses: S0 : 0, S1: 0, S2: 1 et le facteur de pondération df=0.5 a1 a S2 S1 S0 a3 a1 1 a2 a Exprimer le but

24 IFT 615Processus de décision de Markov24 Notons r i =R(s i ) et v i =V(π,s i ) : v i = r i + df × P(s i, π(s i ),s j ) × v j a1a S2 S1 S0 a3 a1 1 a2 a sj in S Rappel : équation de la valeur dun plan V(π,s) = R(s) + df × P(s, π(s),s) × V(π,s) s in S

25 IFT 615Processus de décision de Markov25 Plan initial choisi arbitrairement : π = { S0 a2, S1 a2, S2 a4 } 0.8 S2 S1 S0 a3 a1 1 a2 a4 a Initialisation

26 IFT 615Processus de décision de Markov26 a. π = π Équations : v0=0+0.5*(1*v0); v1=0+0.5*(1*v0); v2=1+0.5*(1*v1) b. Solution : v0=v1=0, v2=1 c. s0 a1 : 0+0.5*(0.2*0+0.8*0)=0; ne change pas s1 a3 : 0+0.5*(1*1)=0.5 > 0; change s2 a5 : 1+0.5*(1*1)=1.5 > 1; change π = { S0 a2, S1 a3, S2 a5 } 0.8 S2 S1 S0 a3 a1 1 a2 a4 a Itération #1

27 IFT 615Processus de décision de Markov27 a. π = π Équations : v0=0+0.5*(1*v0); v1=0+0.5*(1*v2); v2=1+0.5*(1*v2) b. Solution : v0=0, v1=1, v2=2 c. s0 a1 : 0+0.5(0.2*0+0.8*1)=0.4 > 0; change s1 a2 : 0+0.5(1*0)=0 < 1; ne change pas s2 a4 : 1+0.5(1*1)=1.5 < 2; ne change pas π = { S0 a1, S1 a3, S2 a5 } Itération #2 0.8 S2 S1 S0 a3 a1 1 a2 a4 a

28 IFT 615Processus de décision de Markov28 a. π = π Équations : v0=0+0.5(0.2*v0+0.8*v1); v1=0+0.5(1*v2); v2=1+0.5(1*v2) b. Solution : v0=0.4, v1=1, v2=2 c. s0 : a2: 0+0.5(1*0.4)=0.2 < 0.4; ne change pas s1 : a2: 0+0.5(1*0.4)=0.2 < 1; ne change pas s2 : a4: 1+0.5(1*1)=1.5 < 2; ne change pas π = { S0 : a1, S1 : a3, S2 : a5 }, c-à-d. π Solution finale : π Itération # S2 S1 S0 a3 a1 1 a2 a4 a

29 IFT 615Processus de décision de Markov29 Notons : « R=i » le fait que le robot est dans le local numéro i, G={i,..,k} le but spécifiant que le robot doit visiter les locaux {1, …, k} Ainsi G={1,2} signifie que le robot doit inévitablement visiter le local 1 (c-à-d., R=1) et inévitablement visiter le local 2 (c-à-d., R=1) Ce genre de but nécessite détendre au préalable lespace détats de manière à attribuer des récompenses à des comportements. Une façon élégante de le faire est dattribuer les récompenses à des formules de logique temporelle satisfaisant les comportements désirés [Thiébaux et al., JAIR 2006] R=1 G={2} R=3 G={1,2} R=2 G={1} goto(1) goto(3) goto(2) Fonctions de récompenses complexes

30 Un peu plus loin … Les algorithmes value-iteration et policy-iteration so nt lents sur des grands espaces détats. Amélioration s: –Real-Time Dynamic Programming (RTPD). –Labeled RTDP. Les MDP supposent un observation totale. –Partially Observable MDP (PoMDP). Les MDP sont limités à des décisions séquentielles. Pour des actions simultanés: –Concurrent MDP (CoMPD) –Concurrent Probabilistic Temporal Planning (CPTP) IFT 615Processus de décision de Markov30

31 IFT 615© Éric Beaudry & Froduald Kabanza31 Résumé Lapproche Markovienne est très attrayante parce quelle combine raisonnement probabiliste et optimisation avec élégance. Cest une des approches les plus étudiées actuellement pour : –La planification –Lapprentissage par renforcement. Elle est notamment populaire dans les applications de robots mobiles.


Télécharger ppt "IFT 615 – Intelligence artificielle Processus décisionnels markoviens (MDP) Jean-François Landry Département dinformatique Université de Sherbrooke"

Présentations similaires


Annonces Google