La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

IFT 702 – Planification en Intelligence Artificielle Planification avec des processus de décision de Markov Froduald Kabanza Département dinformatique.

Présentations similaires


Présentation au sujet: "IFT 702 – Planification en Intelligence Artificielle Planification avec des processus de décision de Markov Froduald Kabanza Département dinformatique."— Transcription de la présentation:

1 IFT 702 – Planification en Intelligence Artificielle Planification avec des processus de décision de Markov Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza Modifications par Simon Chamberland

2 IFT 702© Froduald Kabanza2 Sujets couverts Introduction Processus de décision de Markov –Algorithme value-iteration –Algorithme policy-iteration –Autres algorithmes Généralisations

3 IFT 702© Froduald Kabanza3 Sujets couverts Introduction Processus de décision de Markov –Algorithme value-iteration –Algorithme policy-iteration –Autres algorithmes Généralisations

4 IFT 702© Froduald Kabanza4 Exemple Room 1 Room 2 Room 5 Room 4 Room 3 Goal

5 IFT 702© Froduald Kabanza5 Architecture de contrôle Environnement Capteurs Effecteurs État du système Planificateur de tâches Modèles: -actions -environnement - stratégies de planification - heuristiques But Plan = règles « étataction» Suivi de lexécution Module dapprentissage Action Planificateur de trajectoires Trajectoire

6 IFT 702© Froduald Kabanza6 Grille (occupancy grid) Actions: E: Go east W: Go west S: Go south N: Go north Exemple 0 Degré de désirabilité -0.4 : +1 But

7 IFT 702© Froduald Kabanza7 Une décision est un choix dune action dans un état. Cest une règle if state then action (21,12) (20,11) S (20,12) (20,13) W W Décision S 0.1 (21,13) W 0.3 (20,10)(1,1) (21,12) W ou (21,12) S Exemples:

8 IFT 702© Froduald Kabanza8 Un plan (policy) est une stratégie : choix dune action pour chaque état Cest un ensemble de règles if state then action. Plan (policy) (21,12) (20,11) S (20,12) (20,13) W W S 0.1 (21,13) W 0.3 (20,10) (1,1) Plan 1 { (21,12) W, (20,13) S, (21,13) S, (20,12) E, …} Exemples:

9 IFT 702© Froduald Kabanza9 Un plan (policy) est une stratégie : choix dune action pour chaque état Cest un ensemble de règles if state then action. Plan (policy) (21,12) (20,11) S (20,12) (20,13) W W S 0.1 (21,13) W 0.3 (20,10) (1,1) Plan 1 { (21,12) W, (20,13) S, (21,13) S, (20,12) E, …} Exemples: Plan 2 { (21,12) S, (20,11) S, (21,10) E, ….}

10 IFT 702© Froduald Kabanza10 Exécution dun plan Un plan est un ensemble de règles if state then action. Notons P(s) laction désignée par le plan P dans létat s. Voici un algorithme dexécution, interprétation ou application dun plan While (1) { 1 s = état courant du système s; 2 a = P(s); 3 execute a; } Létape 1 implique observation : détection (sensing), localisation, classification, tracking Létat résultant de lexécution de laction à létape 3 est imprévisible. Linterprétation (ensemble de séquences possibles) est un arbre infini. Lexécution est une séquence infinie (une parmi celles de larbre). Exemple de P(S) S : P(S) { (21,12) : W, (20,13) : S, (21,13) : S, (20,12) : E, …}

11 IFT 702© Froduald Kabanza11 Interprétation/application dun plan Lapplication dun plan à un automate stochastique donne une chaîne de Markov (un graphe). La chaîne se déroule en un arbre infini. (21,12) (20,11) S (20,12) (20,13) W W S 0.1 (21,13) W 0.3 (20,10) (1,1) Plan 1 { (21,12) W, (20,13) S, (21,13) S, (20,12) E, (20,11) S, …} Exemples: Plan 2 { (21,12) S, (20,11) S, (21,10) E, ….}

12 IFT 702© Froduald Kabanza12 La qualité dun plan est déterminée par lensemble des séquences détats qui peuvent potentiellement en résulter. –C-à-d., les séquences déroulables de la chaîne de Markov correspondante. La qualité peut être formalisée selon : –Une approche logique classique : chaque séquence doit satisfaire une condition de succès (conduire au but ou satisfaire une formule de logique temporelle) –Une approche de théorie de lutilité/théorie de la décision: fonction dutilité ou de récompense. –Une combinaison des deux. Chaque approche donne lieu à une méthode de calcul du plan différente. –Recherche dans un graphe et/ou pour lapproche logique classique –Programmation dynamique pour lapproche de théorie de la décision Des prototypes existent pour les différentes approches Interprétation/application dun plan

13 IFT 702© Froduald Kabanza13 Sujets couverts Introduction Processus de décision de Markov –Algorithme value-iteration –Algorithme policy-iteration –Autres algorithmes Généralisations

14 IFT 702© Froduald Kabanza14 Théorie de lutilité Relations de désirabilité entre des états Axiomes contraignant les relations –Par exemple, transitivité: s 1 s 1 < s 3 Des axiomes découle lexistence dune fonction dutilité u: S -> R –Telle que s x < s y ssi u(s x ) < u(s y ) –Et s x = s y ssi u(s x ) = u(s y ) s1s1 s2s2 s3s3 <<

15 IFT 702© Froduald Kabanza15 Théorie de lutilité Principe de rationalité –Maximiser lutilité espérée –Par opposition à maximiser le meilleur cas, minimiser le pire cas, etc. –Dans les MDPs, on veut discriminer la désirabilité de séquences détats plutôt que détats individuels i p(i)*u(x i ) s1s1 s2s2 s3s3 t1t1 t2t2 t3t3 <

16 IFT 702© Froduald Kabanza16 Processus de décision de Markov État initial: s 0 Modèle de transition: pr(s,a,s) Fonction de récompense: R(s) Hypothèses Environnement totalement observable Un seul agent Modèles de transition/récompense indépendant du temps

17 IFT 702© Froduald Kabanza17 Fonction dutilité/récompense et qualité des plans Une fonction récompense, R(s), assigne un nombre réel à chaque état s. –R(s) désigne le degré de désirabilité de létat s. Le but et le coût des actions sont indirectement modélisés par la fonction de récompense. Ainsi, la qualité dun plan est déterminée par lespérance des récompenses quon peut potentiellement obtenir en suivant/exécutant le plan –Un plan optimal est celui qui maximise les récompenses. –Plus un plan est proche de du plan optimal, plus il est de qualité. Ainsi un plan fait un compromis entre: –La maximisation de la probabilité datteindre le but (réduction de la probabilité déchec). –La maximisation des récompenses (optimisation du coût des actions).

18 IFT 702© Froduald Kabanza18 Horizon Fini –Politique non-stationnaire (dépend du temps) Infini (pas de deadline fixe) –Politique stationnaire (plus simple) Les prochaines slides vont traiter le cas infini.

19 IFT 702© Froduald Kabanza19 Valeur dun plan R(s) : récompense pour létat s Hypothèses: –Processus Markovien –Récompenses temporairement atténués (discounted rewards) U(P,s) : Valeur dutilité du plan P dans létat s U(P,s) = R(s) + df × pr(s,P(s),s) × U(P,s) –df : facteur de pondération (0 <= df < 1) –S : espace détats –P(s) : action dans s donnée par le plan P –pr(s,P(s),s) : probabilité de la transition s in S (21,12) (20,11) S (20,12) (20,13) W W S 0.1 (21,13) W 0.3 (20,10)

20 IFT 702© Froduald Kabanza20 Plan optimal Un plan P domine un plan P si les deux conditions suivantes sont réunies: –U(P,s) >= U(P,s) pour tout état s –U(P,s) > U(P,s) pour au moins un s Un plan est optimal sil nest pas dominé par un autre. Il peut y avoir plusieurs plans optimaux, mais ils ont tous la même valeur On peut avoir deux plans incomparables (la dominance induit une fonction dordre partiel sur les plans) Deux algorithmes différents pour le calcul du plan (parmi plusieurs) : –value iteration –policy iteration

21 IFT 702© Froduald Kabanza21 Équations de Bellman pour la valeur optimale Les équations de Bellman nous donnent la valeur dutilité U* des plans optimaux U*(s)= R(s) + max df × pr(s,a,s) × U*(s) Si nous pouvons calculer U*, nous pourrons calculer un plan optimal aisément: –Il suffit de choisir dans chaque état s une action qui maximise U*(s) s in S a

22 IFT 702© Froduald Kabanza22 Sujets couverts Introduction Processus de décision de Markov –Algorithme value-iteration –Algorithme policy-iteration –Autres algorithmes Généralisations

23 IFT 702© Froduald Kabanza23 Algorithme Value iteration 1. Initialiser U(s) à 0 pour chaque état s 2. Répéter (jusquà ce que le changement en U soit négligeable) a. Pour chaque état s U(s) = R(s) + max df × pr(s,a,s) × U(s) b. U=U (ou |U| - |U| tolérance) 3. Le plan optimal est obtenu en choisissant pour chaque s état laction a telle que la valeur df × pr(s,a,s) × V(s) est la plus élevée. (En dautres mots, on choisit laction qui maximise lespérance des valeurs des successeurs). Complexité: O(N 4 M) où N est le nombre détats et M le nombre dactions. s dans S a

24 IFT 702© Froduald Kabanza24 Démonstration de Value iteration Démo de lalgorithme value iteration:

25 IFT 702© Froduald Kabanza25 Sujets couverts Introduction Processus de décision de Markov –Algorithme value-iteration –Algorithme policy-iteration –Autres algorithmes Généralisations

26 IFT 702© Froduald Kabanza26 Algorithme Policy iteration 1. Choisir un plan arbitraire P 2. Répéter jusquà ce que P devienne inchangé : a. P := P; b. Pour tout s dans S, calcule U(P,s) en résolvant le système de |S| équations en |S| inconnus U(P,s) = R(s) + df × pr(s,P(s),s) × U(P,s) c. Pour tout s dans S, sil existe une action a telle que [ R(s) + df × pr(s,a,s) × U(P,s)] > U(P,s) alors P(s) := a sinon P(s) := P(s) 3. retourne P Converge au plan optimal en temps pseudopolynomial. s in S

27 IFT 702© Froduald Kabanza27 Actions But: S2 0.8 S2 S1 S0 a3 a1 1 a2 a4 a Exemple (policy iteration)

28 IFT 702© Froduald Kabanza28 Le but (atteindre S2) est exprimé par une fonction de récompenses: S0 : 0, S1: 0, S2: 1 et le facteur de pondération df=0.5 a1 a S2 S1 S0 a3 a1 1 a2 a Exprimer le but

29 IFT 702© Froduald Kabanza29 Notons ri=R(si) et vi=U(P,si) : ui = ri + df × pr(si,P(si),sj) × uj a1a S2 S1 S0 a3 a1 1 a2 a s in S Rappel : équation de la valeur dutilité dun plan U(P,s) = R(s) + df × pr(s,P(s),s) × U(P,s) s in S

30 IFT 702© Froduald Kabanza30 Plan initial choisi arbitrairement : P = { S0 a2, S1 a2, S2 a4 } 0.8 S2 S1 S0 a3 a1 1 a2 a4 a Initialisation

31 IFT 702© Froduald Kabanza31 a. P = P Équations : u0=0+0.5*(1*u0); u1=0+0.5*(1*u0); u2=1+0.5*(1*u1) b. Solution : u0=u1=0, u2=1 c. s0 a1 : 0+0.5*(0.2*0+0.8*0)=0; ne change pas s1 a3 : 0+0.5*(1*1)=0.5 > 0; change s2 a5 : 1+0.5*(1*1)=1.5 > 1; change P = { S0 a2, S1 a3, S2 a5 } 0.8 S2 S1 S0 a3 a1 1 a2 a4 a Itération #1

32 IFT 702© Froduald Kabanza32 a. P = P Équations : u0=0+0.5*(1*u0); u1=0+0.5*(1*u2); u2=1+0.5*(1*u2) b. Solution : u0=0, u1=1, u2=2 c. s0 a1 : 0+0.5(0.2*0+0.8*1)=0.4 > 0; change s1 a2 : 0+0.5(1*0)=0 < 1; ne change pas s2 a4 : 1+0.5(1*1)=1.5 < 2; ne change pas P = { S0 a1, S1 a3, S2 a5 } Itération #2 0.8 S2 S1 S0 a3 a1 1 a2 a4 a

33 IFT 702© Froduald Kabanza33 a. P = P Équations : u0=0+0.5(0.2*u0+0.8u1); u1=0+0.5(1*u2); u2=1+0.5(1*u2) b. Solution : u0=0.4, u1=1, u2=2 c. s0 : a2: 0+0.5(1*0.4)=0.2 < 0.4; ne change pas s1 : a2: 0+0.5(1*0.4)=0.2 < 1; ne change pas s2 : a4: 1+0.5(1*1)=1.5 < 2; ne change pas P = { S0 : a1, S1 : a3, S2 : a5 }, c-à-d. P Solution finale : P Itération # S2 S1 S0 a3 a1 1 a2 a4 a

34 IFT 702© Froduald Kabanza34 Sujets couverts Introduction Processus de décision de Markov –Algorithme value-iteration –Algorithme policy-iteration –Autres algorithmes Généralisations

35 IFT 702© Froduald Kabanza35 Autres algorithmes RTDP (Real-Time Dynamic Programming) LRTDP (Labelled Real-Time Dynamic Programming) UCT (Upper-Confidence Bounds for Trees) Q-Learning (si modèles de transition/récompense pas connu)

36 IFT 702© Froduald Kabanza36 Sujets couverts Introduction Processus de décision de Markov –Algorithme value-iteration –Algorithme policy-iteration –Autres algorithmes Généralisations

37 IFT 702© Froduald Kabanza37 Notons : « R=i » le fait que le robot est dans le local numéro i, G={i,..,k} le but spécifiant que le robot doit visiter les locaux {1, …, k} Ainsi G={1,2} signifie que le robot doit inévitablement visiter le local 1 (c-à-d., R=1) et inévitablement visiter le local 2 (c-à-d., R=1) Ce genre de but nécessite détendre au préalable lespace détats de manière à attribuer des récompenses à des comportements. Une façon élégante de le faire est dattribuer les récompenses à des formules de logique temporelle satisfaisant les comportements désirés [Thiébaux et al., JAIR 2006] R=1 G={2} R=3 G={1,2} R=2 G={1} goto(1) goto(3) goto(2) Fonctions de récompenses complexes

38 IFT 702© Froduald Kabanza38 Environnement partiellement observable –POMDP (Partially-Observable MDP) –Réseaux de décision / diagrammes dinfluence Plusieurs joueurs –Jeux stochastiques (SG – Stochastic Game) Environnement partiellement observable + plusieurs joueurs –Jeux stochastiques partiellement observables (POSG – Partially Observable Stochastic Game) Autres généralisations

39 IFT 702© Froduald Kabanza39 Résumé Lapproche Markovienne est très attrayante parce quelle combine raisonnement probabiliste et optimisation avec élégance. Cest une des approches les plus étudiées actuellement pour : –La planification –Lapprentissage par renforcement. Elle est notamment populaire dans les applications de robots mobiles.


Télécharger ppt "IFT 702 – Planification en Intelligence Artificielle Planification avec des processus de décision de Markov Froduald Kabanza Département dinformatique."

Présentations similaires


Annonces Google