INTELLIGENCE ARTIFICIELLE

INTELLIGENCE ARTIFICIELLE
IAR-1001

Apprentissage par renforcement
Retour sur les notions d’agents intelligents Retour sur les notions d’apprentissage Retour sur les notions d’inférence (réaction à l’environnement) Q-Learning LECTURES: Chapitre 21 Russell & Norvig Notes de cours (site ftp UQTR)

Retour sur les notions d’agents intelligents
Agent réflexe (sans apprentissage continue)

Agent Utility-based Inconnus et doivent être appris

Agent avec apprentissage continue

Retour sur les notions d’apprentissage
Comment déterminer l’état le plus vraisemblable d’un agent à partir de son environnement ? Comment l’agent apprend t-il de ses expériences ?

Notions d’inférence: Règle de Bayes (exemple)

Exemples d’utilisation des réseaux Bayesien (contexte de jeu vidéo)

Exemples d’utilisation des réseaux Bayesien

Exemples d’utilisation des réseaux Bayesien: inférence des états d’un agent

Exemples d’utilisation de l’apprentissage supervisé (Drivatar)

Apprentissage basées sur le renforcement

Q-Learning

Q-Learning Formule du renforcement

Q-Learning Q-Learning pour l’apprentissage de combat agressif

Q-Learning Q-Learning pour l’apprentissage de combat d’Aikido

Q-Learning Algorithme d’apprentissage Fonction d’exploration

Q-Learning Exemple de fonction d’exploration
R+ est une estimation optimiste de la meilleure récompense possible de chaque état avec Ne un paramètre dont la valeur est fixée. Cette fonction f() permet à l’agent d’explorer chaque paire action-state au moins Ne fois. u représente dans certaines approches une fonction d’utilité, mais dans l’algorithme d’apprentissage basé sur le Q-Learning u devient une une fonction Q(s,a) qui est une valeur de la combinaison (s,a) appelée fonction valeur-action

Q-Learning Exemple d’application du Q-Learning: path planning

Graphe des états-actions possibles: passage d’une pièce à l’autre

Graphe des états-actions possibles: passage d’une pièce à l’autre avec les récompenses associées

Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5)

Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): graphe états-actions

Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): matrice de récompenses

Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): La règle de transition du Q-learning est: Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): Algorithme Q-Learning 1. Initialiser le paramètre  et la matrice R. 2. Initialiser la matrice Q à zéro. 3. POUR chaque épisode: Selectionner un état initial. TTQ l’état but n’est pas atteint. Choisir 1 des actions possibles pour cet état. Avec cette action, amenant au prochain état s’. Trouver Q max pour les combinaisons s’-a’ possibles. Calculer: Q(state, action) = R(state, action) +  Max[Q(next state, all actions)] L’état courant est fixé au prochain état (next state). FIN TTQ FIN POUR

Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Matrice Q initiale

Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Matrice R initiale

Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): En observant la rangée 1 (state 1) de R. 2 actions sont possibles pour l’état actuel 1: aller vers les états 3, ou 5. Par une sélection aléatoire, 5 est l’action choisie et ce sachant que Q(1,3) = Q(1,5) = 0;

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Mise à jour de Q(1,5): Sachant que le prochain état est le 5 et en consultant la matrice R à la rangée 5. 3 actions sont alors possibles: aller à l’état 1, 4 ou 5. Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)] Q(1, 5) = R(1, 5) * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = * 0 = 100

INTELLIGENCE ARTIFICIELLE

Présentations similaires

Présentation au sujet: "INTELLIGENCE ARTIFICIELLE"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

INTELLIGENCE ARTIFICIELLE

Présentations similaires

Présentation au sujet: "INTELLIGENCE ARTIFICIELLE"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back