La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

INTELLIGENCE ARTIFICIELLE

Présentations similaires


Présentation au sujet: "INTELLIGENCE ARTIFICIELLE"— Transcription de la présentation:

1 INTELLIGENCE ARTIFICIELLE
IAR-1001

2 Apprentissage par renforcement
Retour sur les notions d’agents intelligents Retour sur les notions d’apprentissage Retour sur les notions d’inférence (réaction à l’environnement) Q-Learning LECTURES: Chapitre 21 Russell & Norvig Notes de cours (site ftp UQTR)

3 Retour sur les notions d’agents intelligents
Agent réflexe (sans apprentissage continue)

4 Retour sur les notions d’agents intelligents
Agent Utility-based Inconnus et doivent être appris

5 Retour sur les notions d’agents intelligents
Agent avec apprentissage continue

6 Retour sur les notions d’apprentissage
Comment déterminer l’état le plus vraisemblable d’un agent à partir de son environnement ? Comment l’agent apprend t-il de ses expériences ?

7 Retour sur les notions d’apprentissage
Notions d’inférence: Règle de Bayes (exemple)

8 Retour sur les notions d’apprentissage
Notions d’inférence: Règle de Bayes (exemple)

9 Retour sur les notions d’apprentissage
Exemples d’utilisation des réseaux Bayesien (contexte de jeu vidéo)

10 Retour sur les notions d’apprentissage
Exemples d’utilisation des réseaux Bayesien

11 Retour sur les notions d’apprentissage
Exemples d’utilisation des réseaux Bayesien: inférence des états d’un agent

12 Retour sur les notions d’apprentissage
Exemples d’utilisation de l’apprentissage supervisé (Drivatar)

13 Retour sur les notions d’apprentissage
Apprentissage basées sur le renforcement

14 Retour sur les notions d’apprentissage
Apprentissage basées sur le renforcement

15 Q-Learning

16 Q-Learning

17 Q-Learning Formule du renforcement

18 Q-Learning Q-Learning pour l’apprentissage de combat agressif

19 Q-Learning Q-Learning pour l’apprentissage de combat d’Aikido

20 Q-Learning Algorithme d’apprentissage Fonction d’exploration

21 Q-Learning Algorithme d’apprentissage

22 SARSA Algorithme d’apprentissage

23 Q-Learning Exemple de fonction d’exploration
R+ est une estimation optimiste de la meilleure récompense possible de chaque état avec Ne un paramètre dont la valeur est fixée. Cette fonction f() permet à l’agent d’explorer chaque paire action-state au moins Ne fois. u représente dans certaines approches une fonction d’utilité, mais dans l’algorithme d’apprentissage basé sur le Q-Learning u devient une une fonction Q(s,a) qui est une valeur de la combinaison (s,a) appelée fonction valeur-action

24 Q-Learning Exemple d’application du Q-Learning: path planning

25 Q-Learning Exemple d’application du Q-Learning: path planning
Graphe des états-actions possibles: passage d’une pièce à l’autre

26 Q-Learning Exemple d’application du Q-Learning: path planning
Graphe des états-actions possibles: passage d’une pièce à l’autre avec les récompenses associées: 100 correspondant à une récompense importante pour accéder à l’extérieur

27 Q-Learning Exemple d’application du Q-Learning: path planning
Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5)

28 Q-Learning États Actions
Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): graphe états-actions États Actions

29 Q-Learning -1: valeur nulle correspondant à l’absence de lien
Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): matrice de récompenses -1: valeur nulle correspondant à l’absence de lien

30 Q-Learning Exemple d’application du Q-Learning: path planning
Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): La règle de transition du Q-learning est: Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

31 Q-Learning Exemple d’application du Q-Learning: path planning
Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): Algorithme Q-Learning 1. Initialiser le paramètre  et la matrice R. 2. Initialiser la matrice Q à zéro. 3. POUR chaque épisode: Selectionner un état initial. TTQ l’état but n’est pas atteint. Choisir 1 des actions possibles pour cet état. Avec cette action, amenant au prochain état s’. Trouver Q max pour les combinaisons s’-a’ possibles. Calculer: Q(state, action) = R(state, action) +  Max[Q(next state, all actions)] L’état courant est fixé au prochain état (next state). FIN TTQ FIN POUR

32 Q-Learning Exemple d’application du Q-Learning: path planning
Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Matrice Q initiale: "Q", est ajoutée au cerveau de l’agent, représente la mémoire de ce que l’agent apprend de ses expériences.  Les rangées de Q représentent s actuel de l’agent, les colonnes représentent les actions possibles permettant de passer au prochain s (s’) (passage entre les noeuds).

33 Q-Learning Exemple d’application du Q-Learning: path planning
Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Matrice R initiale

34 Q-Learning Exemple d’application du Q-Learning: path planning
Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): En observant la rangée 1 (state 1) de R.  2 actions sont possibles pour l’état actuel 1: aller vers les états 3, ou 5. Par une sélection aléatoire, 5 est l’action choisie et ce sachant que Q(1,3) = Q(1,5) = 0;

35 Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Mise à jour de Q(1,5): Sachant que le prochain état est le 5 et en consultant la matrice R à la rangée 5. 3 actions sont alors possibles: aller à l’état 1, 4 ou 5. Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)] Q(1, 5) = R(1, 5) * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = * 0 = 100

36 Q-Learning Exemple d’application du Q-Learning: path planning
Autre exemple de planification d’évacuation de la pièce 3 vers l’extérieur (5): En observant la rangée 3 (state 3) de R.  3 actions sont possibles pour l’état actuel 3: aller vers les états 1, 2, ou 4. Par une sélection aléatoire, 1 est l’action choisie et ce sachant que Q(3,1) = Q(3,2) = Q(3,4) = 0;

37 Q-Learning Exemple d’application du Q-Learning: path planning
Autre exemple de planification d’évacuation de la pièce 3 vers l’extérieur (5): Mise à jour de Q(3,1): Sachant que le prochain état est le 1 et en consultant la matrice R à la rangée 1. 2 actions sont alors possibles: aller à l’état 3 ou 5. Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)] Q(3, 1) = R(3, 1) * Max[Q(1, 3), Q(1, 5)] = * 100 = 80

38 Q-Learning Exemple d’application du Q-Learning: path planning
Autre exemple de planification d’évacuation de la pièce 3 vers l’extérieur (5): N’ayant pas atteint le nœud terminal 5, nous répétons la boucle de l’algorithme Q-Learning et ce à partir du nœud 1: En observant la rangée 1 (state 1) de R.  2 actions sont possibles pour l’état actuel 1: aller vers les états 3, ou 5. Par une sélection aléatoire, 5 est l’action choisie et ce sachant que Q(1,3) = 0, Q(1,5) = 100;

39 Q-Learning Exemple d’application du Q-Learning: path planning
Autre exemple de planification d’évacuation de la pièce 3 vers l’extérieur (5): Mise à jour de Q(1,5): Sachant que le prochain état est le 5 et en consultant la matrice R à la rangée 5. 3 actions sont alors possibles: aller à l’état 1, 4 ou 5. Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)] Q(1, 5) = R(1, 5) * Max[Q(5, 1), Q(5, 4) , Q(5, 5)] = * 0 = 100

40 Q-Learning Forme normalisée en %
Exemple d’application du Q-Learning: path planning, après la phase d’apprentissage, donc après l’apprentissage de plusieurs chemins, l’agent possède une base de connaissances représentée par la matrice Q Forme normalisée en %

41 Q-Learning Exemple d’application du Q-Learning: path planning, après la phase d’apprentissage, l’agent peut utiliser la matrice Q pour déterminer les chemins optimum


Télécharger ppt "INTELLIGENCE ARTIFICIELLE"

Présentations similaires


Annonces Google