INTELLIGENCE ARTIFICIELLE

Slides:



Advertisements
Présentations similaires
GRAPHISME PAR ORDINATEUR SIF Contenu du cours 13 Introduction à l’intelligence artificielle dans les environnements de jeux 3D –Notions d’agents.
Advertisements

Nouveau programme de 3ème Probabilités Document de travail – Académie de Rouen
Inter académiques Orléans 2007 Analyse d'activités pouvant donner lieu à développement dans et hors la classe. Durée : 1h30 ● Problématique ● Présentation.
FSA/INGI - 5 septembre 2006 Application du Reinforcement Learning à un jeu de Markov de type évasion-poursuite Lionel Dricot Promoteur : Professeur Marco.
Calcul de probabilités
Années 90’ > Renaissance de l’IA avec le Machine Learning
Application des lois de probabilité -Variable aléatoire discrète-
Ecriture collaborative d’une dissertation en classe
Entraînement et évaluation d’une méthode de régression
Les Bases de données Définition Architecture d’un SGBD
Niveau 2 : Tables de plongée
IFT 615 – Intelligence artificielle Recherche heuristique
Chapitre 13 : Echantillonnage
La refondation de l’école
Simuler des probabilités
Domaine: Relations R.A.:
Plans d’expériences: Plans factoriels
Domaine: Relations R.A.:
Les Plans d’expériences: Plans Factoriels
Organisation des Données et Représentations Graphiques
Domaine: Relations R.A.:
Semaine #4 INF130 par Frédérick Henri.
INTELLIGENCE ARTIFICIELLE
INTELLIGENCE ARTIFICIELLE
Les hélices des protéines transmembranaires
INTELLIGENCE ARTIFICIELLE
Régularité et algèbre 3.1 L’élève doit pouvoir explorer des relations : a) à partir de suites non numériques à motif croissant impliquant les notions d’aire.
Cartes mentales & schémas conceptuels
Apprentissage profond Q
Les diagrammes de quartiles
INTELLIGENCE ARTIFICIELLE
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
Réseaux de neurones appliqués à la reconnaissance de caractères
Techniques du Data Mining
LOG770 Annexe A Éléments de probabilité
Exercice : le jeu. Vous devez concevoir l’algorithme permettant de jouer avec votre calculatrice : elle détermine au hasard un nombre caché entier entre.
Tâches Tâches antérieures Durée A -- 6 B 5 C 4 D E F A D G E F Niveaux
Des mathématiques derrière l’intelligence artificielle
Chapitre 3 : Caractéristiques de tendance centrale
Adaptive Neuro Fuzzy Inference System (ANFIS)
Les méthodes non paramétriques
Lois de Probabilité Discrètes
Lois de Probabilité Discrètes
Etude de la commande du système à inertie
Les Contenus en Orientation Scolaire et Professionnelle (COSP)
Le courant alternatif périodique
Les opérations intellectuelles et le dossier documentaire
De Scratch à Python : une transition douce… COMMUNICATION
Prélude ERP 7 Présentation 09/12/2018 © Gérard Baglin,
BIO1130 LAB 4 MICROÉVOLUTION.
Présentation 9 : Calcul de précision des estimateurs complexes
Reconnaissance de formes: lettres/chiffres
SUJETS SPÉCIAUX EN INFORMATIQUE II
Programmation Scratch
GRAPHISME PAR ORDINATEUR
INTELLIGENCE ARTIFICIELLE
INTELLIGENCE ARTIFICIELLE
INTELLIGENCE ARTIFICIELLE
Le Chronométreur doit posséder une licence d’Officiel Technique
INTELLIGENCE ARTIFICIELLE
MOUVEMENT 2015 SIAM via IPROF
Réflexion sur l’apprentissage
INTELLIGENCE ARTIFICIELLE
Principales stratégies de compréhension en lecture
INTELLIGENCE ARTIFICIELLE
Evaluation partenariat: Organisation X + organisation Y
I. Aouichak, I. Elfeki, Y. Raingeaud, J.-C. Le Bunetel
Type Tableau Partie 1 : Vecteurs
Transcription de la présentation:

INTELLIGENCE ARTIFICIELLE IAR-1001

Apprentissage par renforcement Retour sur les notions d’agents intelligents Retour sur les notions d’apprentissage Retour sur les notions d’inférence (réaction à l’environnement) Q-Learning LECTURES: Chapitre 21 Russell & Norvig Notes de cours (site ftp UQTR)

Retour sur les notions d’agents intelligents Agent réflexe (sans apprentissage continue)

Retour sur les notions d’agents intelligents Agent Utility-based Inconnus et doivent être appris

Retour sur les notions d’agents intelligents Agent avec apprentissage continue

Retour sur les notions d’apprentissage Comment déterminer l’état le plus vraisemblable d’un agent à partir de son environnement ? Comment l’agent apprend t-il de ses expériences ?

Retour sur les notions d’apprentissage Notions d’inférence: Règle de Bayes (exemple)

Retour sur les notions d’apprentissage Notions d’inférence: Règle de Bayes (exemple)

Retour sur les notions d’apprentissage Exemples d’utilisation des réseaux Bayesien (contexte de jeu vidéo)

Retour sur les notions d’apprentissage Exemples d’utilisation des réseaux Bayesien

Retour sur les notions d’apprentissage Exemples d’utilisation des réseaux Bayesien: inférence des états d’un agent

Retour sur les notions d’apprentissage Exemples d’utilisation de l’apprentissage supervisé (Drivatar)

Retour sur les notions d’apprentissage Apprentissage basées sur le renforcement

Retour sur les notions d’apprentissage Apprentissage basées sur le renforcement

Q-Learning

Q-Learning

Q-Learning Formule du renforcement

Q-Learning Q-Learning pour l’apprentissage de combat agressif

Q-Learning Q-Learning pour l’apprentissage de combat d’Aikido

Q-Learning Algorithme d’apprentissage Fonction d’exploration

Q-Learning Algorithme d’apprentissage

SARSA Algorithme d’apprentissage

Q-Learning Exemple de fonction d’exploration R+ est une estimation optimiste de la meilleure récompense possible de chaque état avec Ne un paramètre dont la valeur est fixée. Cette fonction f() permet à l’agent d’explorer chaque paire action-state au moins Ne fois. u représente dans certaines approches une fonction d’utilité, mais dans l’algorithme d’apprentissage basé sur le Q-Learning u devient une une fonction Q(s,a) qui est une valeur de la combinaison (s,a) appelée fonction valeur-action

Q-Learning Exemple d’application du Q-Learning: path planning http://mnemstudio.org/path-finding-q-learning-tutorial.htm

Q-Learning Exemple d’application du Q-Learning: path planning Graphe des états-actions possibles: passage d’une pièce à l’autre

Q-Learning Exemple d’application du Q-Learning: path planning Graphe des états-actions possibles: passage d’une pièce à l’autre avec les récompenses associées: 100 correspondant à une récompense importante pour accéder à l’extérieur

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5)

Q-Learning États Actions Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): graphe états-actions États Actions

Q-Learning -1: valeur nulle correspondant à l’absence de lien Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): matrice de récompenses -1: valeur nulle correspondant à l’absence de lien

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): La règle de transition du Q-learning est: Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): Algorithme Q-Learning 1. Initialiser le paramètre  et la matrice R. 2. Initialiser la matrice Q à zéro. 3. POUR chaque épisode: Selectionner un état initial. TTQ l’état but n’est pas atteint. Choisir 1 des actions possibles pour cet état. Avec cette action, amenant au prochain état s’. Trouver Q max pour les combinaisons s’-a’ possibles. Calculer: Q(state, action) = R(state, action) +  Max[Q(next state, all actions)] L’état courant est fixé au prochain état (next state). FIN TTQ FIN POUR

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Matrice Q initiale: "Q", est ajoutée au cerveau de l’agent, représente la mémoire de ce que l’agent apprend de ses expériences.  Les rangées de Q représentent s actuel de l’agent, les colonnes représentent les actions possibles permettant de passer au prochain s (s’) (passage entre les noeuds).

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Matrice R initiale

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): En observant la rangée 1 (state 1) de R.  2 actions sont possibles pour l’état actuel 1: aller vers les états 3, ou 5. Par une sélection aléatoire, 5 est l’action choisie et ce sachant que Q(1,3) = Q(1,5) = 0;

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Mise à jour de Q(1,5): Sachant que le prochain état est le 5 et en consultant la matrice R à la rangée 5. 3 actions sont alors possibles: aller à l’état 1, 4 ou 5. Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)] Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * 0 = 100

Q-Learning Exemple d’application du Q-Learning: path planning Autre exemple de planification d’évacuation de la pièce 3 vers l’extérieur (5): En observant la rangée 3 (state 3) de R.  3 actions sont possibles pour l’état actuel 3: aller vers les états 1, 2, ou 4. Par une sélection aléatoire, 1 est l’action choisie et ce sachant que Q(3,1) = Q(3,2) = Q(3,4) = 0;

Q-Learning Exemple d’application du Q-Learning: path planning Autre exemple de planification d’évacuation de la pièce 3 vers l’extérieur (5): Mise à jour de Q(3,1): Sachant que le prochain état est le 1 et en consultant la matrice R à la rangée 1. 2 actions sont alors possibles: aller à l’état 3 ou 5. Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)] Q(3, 1) = R(3, 1) + 0.8 * Max[Q(1, 3), Q(1, 5)] = 0 + 0.8 * 100 = 80

Q-Learning Exemple d’application du Q-Learning: path planning Autre exemple de planification d’évacuation de la pièce 3 vers l’extérieur (5): N’ayant pas atteint le nœud terminal 5, nous répétons la boucle de l’algorithme Q-Learning et ce à partir du nœud 1: En observant la rangée 1 (state 1) de R.  2 actions sont possibles pour l’état actuel 1: aller vers les états 3, ou 5. Par une sélection aléatoire, 5 est l’action choisie et ce sachant que Q(1,3) = 0, Q(1,5) = 100;

Q-Learning Exemple d’application du Q-Learning: path planning Autre exemple de planification d’évacuation de la pièce 3 vers l’extérieur (5): Mise à jour de Q(1,5): Sachant que le prochain état est le 5 et en consultant la matrice R à la rangée 5. 3 actions sont alors possibles: aller à l’état 1, 4 ou 5. Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)] Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4) , Q(5, 5)] = 100 + 0.8 * 0 = 100

Q-Learning Forme normalisée en % Exemple d’application du Q-Learning: path planning, après la phase d’apprentissage, donc après l’apprentissage de plusieurs chemins, l’agent possède une base de connaissances représentée par la matrice Q Forme normalisée en %

Q-Learning Exemple d’application du Q-Learning: path planning, après la phase d’apprentissage, l’agent peut utiliser la matrice Q pour déterminer les chemins optimum