La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

IFT 702 – Planification en intelligence artificielle Extraction automatique dheuristiques à partir dun modèle Froduald Kabanza Département dinformatique.

Présentations similaires


Présentation au sujet: "IFT 702 – Planification en intelligence artificielle Extraction automatique dheuristiques à partir dun modèle Froduald Kabanza Département dinformatique."— Transcription de la présentation:

1 IFT 702 – Planification en intelligence artificielle Extraction automatique dheuristiques à partir dun modèle Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift702

2 Contenu Graphe de planification Générer un plan à partir dun graphe de planification Extraction automatique dheuristique à partir dun graphe de planification Au-delà de lextraction dheuristiques – Planification avec des balises – Apprentissage dheuristiques IFT702© Froduald Kabanza2

3 RAPPEL Modèle STRIPS ou PDDL IFT702© Froduald Kabanza3

4 Langage STRIPS Un problème en STRIPS est un tuple P= (F, O, I, G) F est un ensemble de propositions (variables booléenes) O est un ensemble dopérateurs (actions) I F est létat initial (conjonction de faits vrai) G F est le but (conjonction de fait à rendre vrai) Des opérateurs STRIPS o O représentés par: – La liste des préconditions Pre(o) ) F – La liste des effets positifs Add(o) F – La liste des effets négatifs Del(o) F – Optionnellement, la durée et le coût de laction. IFT702© Froduald Kabanza4

5 Transformation – Du langage au modèle Un problème STRIPS P =(F,O,I,G) détermine un modèle détats S(P) (avec des transitions entre les états ) tel que: Les états s S sont des ensembles de propositions de F Les états buts s sont tel que G s Les actions a A(s) sont des opérateurs tel que Pre(a) s Létat successeur est s = S- Del(a) + Add(a) Par défaut les coûts c(a,s) sont tous égaux à 1. Par défaut les durées d(a,s) sont tous égaux à 1. La solution (optimale) de P est la solution (optimale) de S(P) Plusieurs extensions de STRIPS : – Patrons dactions – PDDL – Probabilités IFT702© Froduald Kabanza5

6 Comment résoudre un modèle STRIPS Deux approches traditionnelles : – Exploration de lespace détats –que nous avons vu – Exploration de lespace de plans –que nous verrons plus tard Deux rôle joués par le langage de modélisation: – Expression concise du modèle – Révèler des informations heuristiques IFT702© Froduald Kabanza6

7 IDÉE DE BASE Extraction dheuristiques à partir dun modèl IFT702© Froduald Kabanza7

8 Extraction dheuristique à partir dun modèle Une heuristique peut être expliquée comme étant une fonction de coût optimale pour un problème relaxé (simplifiée) (Minsky 19961; Pearl 1983). Une façon de relaxer un problème de planification P est de supprimer les delete-lists des opérateurs de P. Le problème ainsi relaxé est noté P +. Si c*(P + ) est le coût de la solution optimale de P, alors c*(P + ) est une heuristique admissible pour P. o Dans un état s, on peut utiliser h(s) = C*(P)(s) (le coût de la solution optimale en partant de létat initial s). Lalgorithme Fast Forward (implémenté dans MetricFF et JavaFF) est basé sur cette idée. IFT702© Froduald Kabanza8

9 GRAPHE DE PLANIFICATION Relaxation dun problème de planification IFT702© Froduald Kabanza9

10 Graphe de planification - Idée Étant donné un problème P=(F, O, I, G), un algorithme de planification par exploration de lespace détats consiste à – Vérifier sil existe une séquence dactions permettant datteindre un état satisfaisant le but G à partir de létat initial I. Un graphe de planification est une structure, représentant une relaxation du problème P et permettant destimer efficacement quel ensemble de propositions est atteignable par quelles actions. Effacement parce que le graphe est de taille polynomiale par r rapport à P et est construit en temps polynomial par rapport à P. Si on relaxe le graphe de planification à son tour (en ignorant les delete- lists), on obtient une relaxation P+ du problème P permettant de calculer des heuristiques efficacement. IFT702© Froduald Kabanza10

11 Graphe de planification – Définition Formelle Étant donné un problème P=(F, O, I, G), le graphe de planification pour P, noté P +, est un graphe constitué de: a) Deux types de nœuds (propositions, actions), organisés par niveaux qui alternent, et b) Un ensemble de paires de propositions (dactions) exclusivement mutuelles, appelé mutex. IFT702© Froduald Kabanza11 Le niveau proposition approxime les état atteignables par les actions du niveau précédent. Le niveau action approxime les actions permises (exécutables) dans les états approximés par le niveau précédent. Arcs: »Préconditions »Effets positifs (ligne continue) et négatives (ligne pointillée) Precond.PropositionlevelPropositionlevelActionLevel Add/Del

12 Algorithme de génération du graphe de planification Premier niveau : état initial Répétitivement, ajouter le niveau suivant: – Action : toutes les actions dont les préconditions sont satisfaites par le niveau proposition précédent. – Proposition (littéraux): Tous les effets des actions du niveau précédent et de laction no-op. Construction de lensemble mutex: à venir …. © Froduald Kabanza12 IFT702

13 Exemple 1 [Russel and Norvig, 2009, Chapître 10] © Froduald Kabanza13 IFT702

14 © Froduald Kabanza IFT Construction de lensemble mutex Deux actions sont mutuellement exclusives (mutex) si: – Inconsistance : lune nie leffet dune autre – Interférence :lune supprime la précondition dune autre – Ressources conflictuels : elles ont des préconditions mutex Deux propositions sont mutuellement exclusives (mutex) si: o Lune est la négation de lautre ou o Support inconsistant: toutes les paires dactions ayant ces propositions comme effets sont mutex.

15 Algorithme GRAPHPLAN © Froduald Kabanza15 IFT702 Russel and Norvig. Artificial Intelligence : A Modern Approach, 2009, chapitre 10.

16 Algorithme Extract Solution Recherche à rebours (backwards) – Niveau-par-niveau pour mieux exploiter les mutex – Pour chaque but à litération n, trouver une action ayant ce but dans ses effets et non mutex avec une action déjà choisie – Les préconditions de ces actions deviennent les (sous-)buts à létape n-1 – Trouver les actions ayant pour effets les (sous-)buts de létape n-1. – Sil ny en a pas Backtrack – Memoisation © Froduald Kabanza 16 IFT702

17 Exemple 2 [Russel and Norvig, 2009, Chapître 10] © Froduald Kabanza17 IFT702

18 Exemple 2 [Russel and Norvig, 2009, Chapître 10] © Froduald Kabanza18 IFT702

19 EXTRACTION DHEURISTIQUES IFT702© Froduald Kabanza19

20 Extraction dheuristiques- Idée Pour extraire des heuristiques dun problème P=(F, O, I, G), on relaxe le problème en ignorant les delete-lists dans les opérateurs O. On construit un graphe de planification relaxé P + dans lequel on ignore les delete-lists On na plus les mutex, puisquil ne peut y avoir des conflits sans les delete- lists. Lestimation heuristique (h) du coût optimal pour arriver au but G à partir dun état s est alors le premier niveau contenant toutes les propositions de G dans le graphe relaxé P + à partir de létat S. IFT702© Froduald Kabanza20

21 Formellement Étant donné un P=(F, O, I, G), pour calculer h(s): Construit le graphe de planification relaxé P + avec les niveau P 0, A 0, A 1, … – P 0 = {p s} – A i = {a O | Pre(a) P i } – P i+1 = Pi U {p Add(a) | a A i } P + représente implicitement lheuristique h max (s) = min i such that G Pi – Approche utilisée par MetricFF et JavaFF Il existe des heuristiques plus précise obtenues de P + de façon additive (plutôt que max) en faisant une recherche à rebours danss P +. IFT702© Froduald Kabanza21

22 AU-DELÀ DE LEXTRACTION DHEURISTIQUES Planification avec des balises, apprentissage dheuristiques IFT702© Froduald Kabanza22

23 EHC, Actions Utiles, Balises Dans la formulation précédente de la planification par exploration de lespace détats, lheuristique h(s) est utilisé comme une boite noire. Des planificateurs comme FF et LAMA vont plus loin. Elles exploitent la structures de lheuristique et/ou du problème à résoudre: – Concept dactions utiles – Concept de balises (propositions qui doivent être vrais à certains dans chaque plan satisfaisant le but) Utilisent de nouveau algorithmes (mieux que A*) – Enforced Hill Climbing (EHC) – Multi-queue Best First Search Cela donne des planificateurs bien plus efficaces … jusquà un certain point (Devoir 1). IFT702© Froduald Kabanza23

24 Référence – Algorithme FF Voir le lien de Java FF IFT702© Froduald Kabanza24

25 Référence –Algorithm LAMA Article de référence: S. Richter and M. Westphal (2010). The LAMA Planner: Guiding Cost-Based Anytime Planning with Landmarks. Journal of Artificial Intelligence Research (JAIR), Volume 39, pages URL: Exposé en anglais par Ritcher : Système : – Documentation très rudimentaire (réfère à larticle) IFT702© Froduald Kabanza25

26 Références –Apprentissage dheuristiques Référence 1: Xu et al. Discriminative Learning of Beam-Search Heuristics for Planning. IJCAI URL: beam.pdfhttp://www2.parc.com/isl/members/syoon/ijcai07- beam.pdf Référence 2: (Learning Track)http://ipc.icaps-conference.org/ IFT702© Froduald Kabanza26

27 Exemple de projet 1 Objectif: maîtrise la planification par des balises Méthodologie: – Lire et maîtriser larticle sur LAMA ou autre plus récent de même genre (Google) – Appliquer LAMA sur un problème simple non traité par les auteurs ni dans o Valider le domaine avec moi pour être sûr o Ne pas coder lalgorithme – utiliser une implémentation existante. Leffort doit aller dans la modélisation, la compréhension et lexpérimentation. – Comparer avec un autre planificateur (par exemple : JavaFF). Critères dévaluations: La maîtrise de la théorie, la qualité des expérimentations et de leur présentation (inclut la description/explication de LAMA par rapport au background du cours). IFT702© Froduald Kabanza27

28 Exemple de projet 2 Objectif: Utiliser JavaFF, LAMA ou autre pour lIA dun ou plusieurs agents Méthodologie: – Trouver une implémentation dun planificateur (exemple: Java FF) – Se choisir une application où la planification joue un rôle et utiliser lalgorithme– Par exemple, on verra des agents de simulation de robots; ce pourrait être un jeu (sinspirer de GOAP avec un meilleur planificateur) Critères dévaluation: originalité de lapplication en fonction du degré dautonomie que la planification confère à lIA; qualité de lintégration du planificateur avec lIA; compréhension de la théorie derrière lalgorithme utilisé. – Lexigence sur la maîtrise de la théorie serait moindre par rapport au projet précédent pour compenser avec leffort dintégration. IFT702© Froduald Kabanza28

29 Exemple de projet 3 Objectif: maîtrise une approche dapprentissage dheuristiques Méthodologie: – Choisir un article (par exemple, (Xu et al., IJCAI 2007)) – Valider avec moi – En reproduire les résultats, idéalement dans un domaine différent – Optionnelle: utiliser une technique dapprentissage différente. Critères dévaluations: La maîtrise de la théorie, la qualité des expérimentations et de leur présentation. IFT702© Froduald Kabanza29

30 Ce quil faut retenir Lidée de base, couverte ici, est que étant donné un problème P, on peut relaxer le problème pour définir une fonction heuristique pour une recherche dans un espace détats. Le graphe de planification est un des concepts de base utilisé pour relaxer un problème. – Vous devez être capable dexpliquer comment une heuristique est défini à partir dun graphe de planification relaxé en ignorant les delete-lists. Les approches récentes, non couvertes ici, vont au-delà en exploitant la structure du problème (exemple, les balises) et en utilisant de nouveaux algorithmes de recherche (exemple, Enfonced Hill Climbing). IFT702© Froduald Kabanza30

31 Vous devriez être capable de … Définir ce quun graphe de planification Décrire le graphe de planification pour un problème donné Expliquer comment une plan est généré à partir dun graphe de planification Expliquer comme est heuristique pour une recherche dans un espace détats est défini à partir dun graphe de planification relaxé en ignorant les delete-lists. IFT702© Froduald Kabanza31


Télécharger ppt "IFT 702 – Planification en intelligence artificielle Extraction automatique dheuristiques à partir dun modèle Froduald Kabanza Département dinformatique."

Présentations similaires


Annonces Google