1 Décisions dans lincertain Eric Sanlaville ISIMA 3 F3, master SIAD novembre 2008
Partie 3 Processus de décision markoviens
3 Modèles markoviens pour la prise de décision en horizon lointain Soit un système dont les états sont : Soit un système dont les états sont : E 1, E 2,… E N Une suite de décisions doit être prise, à chaque période de temps (seconde, jour, mois, année,…) Une suite de décisions doit être prise, à chaque période de temps (seconde, jour, mois, année,…) Létat du système à la période suivante, ainsi que le coût de la transition dépendent uniquement de létat présent, de la décision prise Létat du système à la période suivante, ainsi que le coût de la transition dépendent uniquement de létat présent, de la décision prise
4 Rappels sur chaînes de markov On connaît la probabilité de transition dun état à un autre en une période p ij. On connaît la probabilité de transition dun état à un autre en une période p ij. Etats récurrents : quand on les quitte, on est sûr dy revenir Etats récurrents : quand on les quitte, on est sûr dy revenir Etats transitoires : ce nest pas certain. Etats transitoires : ce nest pas certain.
5 Rappels sur chaînes de markov P est la matrice des probas de transition P est la matrice des probas de transition G =(V,E) est le graphe associé. G =(V,E) est le graphe associé. (i,j) est dans E si et seulement si p ij >0 (i,j) est dans E si et seulement si p ij >0 Une chaîne ergodique a tous ses états récurrents. Son graphe est alors fortement connexe Une chaîne ergodique a tous ses états récurrents. Son graphe est alors fortement connexe
6 Rappels sur chaînes de markov Résultat en horizon fini : Soit q(n) le vecteur ligne des probabilités des états après n transitions. On a q(n+1) = q(n)P.
7 Rappels sur chaînes de markov Résultat en horizon infini : Si la chaîne est ergodique, le vecteur des probabilités des états admet une limite quand le nombre de transitions tend vers linfini, Et = P.
8 chaînes de markov avec coûts On associe à chaque arc (i,j)un coût Aij. Lespérance du coût en une transition à partir de létat i est notée a i et vaut : a i = A ij. P ij Lespérance du coût en n transitions à partir de létat i est noté v i (n) et vaut (écriture vect): v(n) = a + P v(n-1) = v(n-1) + P n a.
9 chaînes de markov avec coûts Si la chaîne admet une distribution limite, Lespérance du coût en une transition en régime stationnaire vaut : g = lim v i (n) –v i (n-1) = lim p. a j g = lim v i (n) –v i (n-1) = lim p ij n. a jdoù g =.a
10 Chaînes avec coûts et décisions On associe à chaque état i un ensemble de décisions : K i. On associe à chaque état i un ensemble de décisions : K i. Proba de transition : p ijk : proba daller de i à j sachant que lon a pris la décision k. Proba de transition : p ijk : proba daller de i à j sachant que lon a pris la décision k. Coût de transition A ijk : coût de la transition de i vers j si lon a pris la décision k. Coût de transition A ijk : coût de la transition de i vers j si lon a pris la décision k.
11 exemples Marketing Marketing Système : ventes dun produit. Système : ventes dun produit. Décisions : publicité, changement de produit,… Décisions : publicité, changement de produit,… parc de ressources (machines, camions, etc…) parc de ressources (machines, camions, etc…) Gestion de stock : décisions dachat. Coût de stockage. Gestion de stock : décisions dachat. Coût de stockage.
12 Horizon fini On note maintenant v(n) le vecteur des espérances des coûts minimaux en n périodes. On note maintenant v(n) le vecteur des espérances des coûts minimaux en n périodes. v i (n)= min k {aik + p ijk.v j (n-1)} v i (n)= min k {aik + p ijk.v j (n-1)} On peut donc calculer ce vecteur par une récurrence arrière. On peut donc calculer ce vecteur par une récurrence arrière.
13 Horizon infini
14 Horizon infini Après résolution du PL Après résolution du PL Si ik > 0, cela signifie que lon doit prendre la décision k dans létat i. de plus ik est alors la proba de létat i pour la politique optimale. Si ik > 0, cela signifie que lon doit prendre la décision k dans létat i. de plus ik est alors la proba de létat i pour la politique optimale. Si ik = 0 pour tout k : létat i est transitoire pour la politique optimale Si ik = 0 pour tout k : létat i est transitoire pour la politique optimale
15 Taux dactualisation = 1/1+i, i taux dintérêt = 1/1+i, i taux dintérêt Horizon fini : Horizon fini : v i (n)= min k {a ik + p ijk.v j (n-1)} Horizon infini ? Horizon infini ? Vi : espérance du coût total passage à la limite : V i = min k {a ik + p ijk.V j }
16 Actualisation en horizon infini Où les j sont des valeurs strictt positives.
17 Actualisation en horizon infini Pour connaître les décisions associées à ces coûts, Il faut regarder les variables duales: Une variable duale strictement positive associée à Un couple (i,k) signifie que la décision optimale pour Létat i est k