La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 1. Introduction Description du problème Modélisation proposée Conclusion 2.

Présentations similaires


Présentation au sujet: "1 1. Introduction Description du problème Modélisation proposée Conclusion 2."— Transcription de la présentation:

1 1 1

2 Introduction Description du problème Modélisation proposée Conclusion 2

3 Les processus décisionnels de Markov (MDPs: Markov Decision Processes) sont une formalisation mathématique qui permet de modéliser les problèmes de décision séquentiels sous incertitude. Ils intègrent les concepts détat qui résume la situation de lagent à chaque instant, daction qui influence la dynamique de létat, de récompense qui est associée à chacune des transitions détat. Cependant, ces modèles nintègrent pas dhypothèse sur les durées des actions ni de contraintes temporelles ou de précédence sur les actions. Le but de notre travail est la prise en considération des contraintes temporelles et de précédence lors de lordonnancement de tâches ayant des durées dexécution probabilistes 3 3

4 Notre problème consiste à la prise en considération des contraintes temporelles et de précédence lors de lordonnancement de tâches ayant des durées dexécution probabilistes. Ce problème a été soulevé par Baki et Bouzid mais aucune modélisation du problème na été proposée. En effet, les auteurs ont proposé des algorithmes qui génèrent tous les plans possibles et calculent les coûts de chaque plan avec les utilités respectives de chaque plan. Notre proposition est différente, car notre objectif est de modéliser le problème en un MDP. Cette modélisation, que nous voulons représentative du problème soulevé, revient à définir lensemble des états, la fonction de transition et la fonction de récompense. Le MDP du problème ainsi modélisé, sera par la suite soumis à lun des résolveurs des MDPs. La résolution du MDP nous fournira pour chaque état la politique optimale. 4

5 5 Différents plans sont possibles: (t 1, t 2, t 4, t 8 ); (t 1, t 2, t 3, t 5, t 8 ); (t 1, t 2, t 3, t 6, t 7 ); (t 1, t 3, t 6, t 7 ) une stratégie dordonnancement pour compléter la mission avec des coûts réduits en respectant les contraintes 5

6 Une tâche t est définie par sa fenêtre temporelle, une distribution des probabilités sur ses durées dexécution, le coût dexécution associé à chaque durée. Exemple: t1 [2,6]: fenêtre temporelle de la tâche t1, 2 est la date de début au plus tôt, 6 est la date de fin au plus tard de t1. (2, 0.6), (3, 0.4): lexécution de t1 dure 2 unités de temps avec une probabilité de 0.6 et 3 unités de temps avec une probabilité de 0.4. (5,8): 5 représente le coût associé à la durée dexécution 2 et 8 représente le coût associé à la durée dexécution 3. Une tâche t ne peut pas être exécutée que si tous ses prédécesseurs sont exécutés en respectant les contraintes. Des contraintes de précédence conjonctives et des contraintes de précédence disjonctives sont envisagées. On suppose que lensemble des tâches est connu à lavance. On ne considère pas les tâches qui viennent dynamiquement. 6 6

7 La modélisation de ce problème en un MDP revient à définir lespace détats, les actions, la fonction de récompense. Quant aux actions, elles correspondent aux actions de notre problème (tâches), les autres éléments nécessitent une modélisation spécifique au problème à traiter. Construction de lespace détats Le problème présente des contraintes temporelles et de précédence conserver la dernière tâche exécutée La tâche peut être exécutée dans différents intervalles dexécution conserver lintervalle dexécution Maintenant, comment peut-on modéliser les contraintes de précédence? 7 7

8 Puisque létat dun MDP doit être Markovien (résume lhistorique), lidée que nous proposons consiste à lutilisation dun état factorisé Etat factorisé dernière tâche exécutée + intervalle dexécution + variable aléatoire pour chaque tâche. Où chaque variable prend ses valeurs dans: {E: Enable, D: Disable, S: Success, F: Failure} La construction des intervalles dexécution possibles de chaque tâche se fait en appliquant à la première tâche toutes les durées possibles et en propageant les durées dexécution dans le graphe des tâches. 8 8

9 Exemple: État de succès: Deux premières tâches: exécution avec succès t 3 :E;t 4 :E État déchec: État initial: (,[start_time,start_time],(E,D,D,…)) Les états peuvent être classés en état de succès quand les contraintes temporelles sont respectées, état déchec correspond à une exécution avec violation des contraintes temporelles, état terminal avec succès de la mission et état terminal avec échec de la mission. 9 9

10 Construction de la fonction de transition Nous rappelons que notre problème est stochastique à cause des durées probabilistes de chaque action. Ainsi, à partir des distributions de probabilité sur la durée de chaque action on peut aisément calculer les probabilités de transiter dun état factorisé à un autre. En effet, la probabilité quune tâche t transite dun état s à un état s correspond à la probabilité de lintervalle dexécution de s. Cette probabilité est obtenue à partir des probabilités sur les dates de début dune tâche t ainsi que les probabilités de ses durées dexécution. 10

11 La fonction de récompense La récompense est donnée en se basant sur le coût qui est dans notre cas relatif aux durées dexécution possibles de chaque tâche. On distingue état de succès (S), état déchec partiel (Fp) et état déchec total (Ft). S, r(s) = scalaire-coût, avec 0 < coût

12 Le but de ce travail était de prendre en compte les contraintes temporelles et de précédence envisagées lors de lexécution des tâches ayant des durées dexécution probabilistes. Pour ce faire, nous avons proposé de modéliser ce problème en un MDP qui est un formalisme puissant pour représenter les problèmes séquentiels et stochastiques, afin de pouvoir le résoudre et trouver la politique optimale. La gestion des contraintes et des incertitudes sur les durées dexécution des actions a nécessité lamélioration de la modélisation du temps et des actions réalisées usuellement dans les modèles Markoviens. Actuellement, des expérimentations sont en cours pour tester la résolution de ce MDP, dautres travaux seront aussi réalisés pour tester le passage à léchelle de la construction de lespace détats et la fonction de transition. 12

13 13


Télécharger ppt "1 1. Introduction Description du problème Modélisation proposée Conclusion 2."

Présentations similaires


Annonces Google