INTELLIGENCE ARTIFICIELLE

Slides:



Advertisements
Présentations similaires
Trajectory Tree [1] Patrick Cinq-Mars. © Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William.
Advertisements

GRAPHISME PAR ORDINATEUR SIF Contenu du cours 13 Introduction à l’intelligence artificielle dans les environnements de jeux 3D –Notions d’agents.
Domaine: géométrie analytique R.A.: Je détermine si deux droites sont parallèles, sécantes ou perpendiculaires à partir de leur pente, de leur équations.
Active Learning for Natural Language Parsing and Information Extraction, de Cynthia A. Thompson, Mary Elaine Califf et Raymond J. Mooney Philippe Gambette.
L’ environnement informé Six*principes de base (*plus ou moins) Robin Johnson et John Conolly 17e Octobre, Paris L’ environnement informé: Six principes.
Les rprésentation des signaux dans le cadre décisionnel de Bayes Jorge F. Silva Shrikanth S. Narayanan.
Domaine: Relations R.A.:
Cours d’Econométrie de la Finance (Stat des choix de portf. IV 1-2)
Analyse, Classification,Indexation des Données ACID
Apprendre à comprendre à partir de textes littéraires au cycle 2
Les piliers de la cognition
Nouveaux programmes Éducation Musicale BO spécial août 2008
Domaine: Relations R.A.:
Résolution de problèmes au cycle 3
Chimie Chapitre IX : Bilan de matière (livre ch.13)
COURS DE L’OACI SUR LA MISE EN OEUVRE D’UN PROGRAMME NATIONAL DE SÉCURITÉ (SSP) GROUPE Nº 3 Exercice N°2 – Développement de valeurs d’indicateurs.
IVAN PAVLOV BURRHUS FREDERIC SKINNER Faculté des Sciences et de la Santé 1 ère Année Psychologie Imane Benssouda Koraichi Hiba Guilich.
Domaine: Mesure R.A.: Je peux expliquer la formule de la circonférence et de l’aire d’un disque. Je calcule le périmètre et l’aire de figures comportant.
Commande show ip eigrp topology
Domaine: Relations R.A.:
Domaine: Mesure R.A.: Je peux additionner et soustraire des monômes.
Échantillonnage non-aléatoire
Domaine: Relations R.A.:
Domaine: Relations R.A.:
Domaine: Relations R.A.:
Les plans d’expérience: plans factoriels
Domaine: Relations R.A.:
Comment donner du relief à un document plan
Concepts avancés en mathématiques et informatique appliquées
INTELLIGENCE ARTIFICIELLE
INTELLIGENCE ARTIFICIELLE
L E C ORPS D ’ UN A LGORITHME / P ROGRAMME – L A PARTIE I NSTRUCTION Réalisé par : OUZEGGANE Redouane Département de Technologie Faculté de Technologie.
Apprentissage profond Q
INTELLIGENCE ARTIFICIELLE
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
APPROCHE D’AMÉLIORATION DE LA QUALITÉ APPLIQUÉE A LA PF
LOG770 Systèmes Intelligents
Pierre Dumouchel 20 juillet 2009
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
Optimisation statistique de stratifiés composites
Compter avec ses doigts
Les méthodes non paramétriques
CHAPTER 10: Discrimination Linéaire
Etude de la commande du système à inertie
Domaine: Mesure R.A.: Je peux expliquer la formule de la circonférence et de l’aire d’un disque. Je calcule le périmètre et l’aire de figures comportant.
Simulation Multi-Agent (SMA)&plateforme Netlogo 1.
Rappels sur le grafcet Normes NF EN CEI /01/2019
Les Contenus en Orientation Scolaire et Professionnelle (COSP)
Reconnaissance de formes: lettres/chiffres
Les situations de formation
GRAPHISME PAR ORDINATEUR
INTELLIGENCE ARTIFICIELLE
Programme d’appui à la gestion publique et aux statistiques
INTELLIGENCE ARTIFICIELLE
INTELLIGENCE ARTIFICIELLE
INTELLIGENCE ARTIFICIELLE
Contenu Introduction à Python
Les graphiques des relations linéaires
INTELLIGENCE ARTIFICIELLE
INTELLIGENCE ARTIFICIELLE
Chapitre 2 Résolution des Problèmes et Jeux. Objectifs  Comment ? – Modéliser un Problème. – Modéliser un Jeu.  Comment ? – Passer d’un état à un autre.
AMPHI interactif.
IFT 615 – Intelligence artificielle Consignes pour l’examen final
INTELLIGENCE ARTIFICIELLE
Apprentissage de la lecture au cycle 2
Nouveau programme SES Seconde
PROGRAMMATION SCIENTIFIQUE EN C
Un exemple en classe de 5ème Un exemple de sujet d’actualité
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Transcription de la présentation:

INTELLIGENCE ARTIFICIELLE IAR-1001

Apprentissage par renforcement Retour sur les notions d’agents intelligents Retour sur les notions d’apprentissage Retour sur les notions d’inférence (réaction à l’environnement) Q-Learning LECTURES: Chapitre 21 Russell & Norvig Notes de cours (site ftp UQTR)

Retour sur les notions d’agents intelligents Agent réflexe (sans apprentissage continue)

Retour sur les notions d’agents intelligents Agent Utility-based Inconnus et doivent être appris

Retour sur les notions d’agents intelligents Agent avec apprentissage continue

Retour sur les notions d’apprentissage Comment déterminer l’état le plus vraisemblable d’un agent à partir de son environnement ? Comment l’agent apprend t-il de ses expériences ?

Retour sur les notions d’apprentissage Notions d’inférence: Règle de Bayes (exemple)

Retour sur les notions d’apprentissage Notions d’inférence: Règle de Bayes (exemple)

Retour sur les notions d’apprentissage Exemples d’utilisation des réseaux Bayesien (contexte de jeu vidéo)

Retour sur les notions d’apprentissage Exemples d’utilisation des réseaux Bayesien

Retour sur les notions d’apprentissage Exemples d’utilisation des réseaux Bayesien: inférence des états d’un agent

Retour sur les notions d’apprentissage Exemples d’utilisation de l’apprentissage supervisé (Drivatar)

Retour sur les notions d’apprentissage Apprentissage basées sur le renforcement

Q-Learning

Q-Learning

Q-Learning Formule du renforcement

Q-Learning Q-Learning pour l’apprentissage de combat agressif

Q-Learning Q-Learning pour l’apprentissage de combat d’Aikido

Q-Learning Algorithme d’apprentissage Fonction d’exploration

Q-Learning Exemple de fonction d’exploration R+ est une estimation optimiste de la meilleure récompense possible de chaque état avec Ne un paramètre dont la valeur est fixée. Cette fonction f() permet à l’agent d’explorer chaque paire action-state au moins Ne fois. u représente dans certaines approches une fonction d’utilité, mais dans l’algorithme d’apprentissage basé sur le Q-Learning u devient une une fonction Q(s,a) qui est une valeur de la combinaison (s,a) appelée fonction valeur-action

Q-Learning Exemple d’application du Q-Learning: path planning http://mnemstudio.org/path-finding-q-learning-tutorial.htm

Q-Learning Exemple d’application du Q-Learning: path planning Graphe des états-actions possibles: passage d’une pièce à l’autre

Q-Learning Exemple d’application du Q-Learning: path planning Graphe des états-actions possibles: passage d’une pièce à l’autre avec les récompenses associées

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5)

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): graphe états-actions

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): matrice de récompenses

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): La règle de transition du Q-learning est: Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 2 vers l’extérieur (5): Algorithme Q-Learning 1. Initialiser le paramètre  et la matrice R. 2. Initialiser la matrice Q à zéro. 3. POUR chaque épisode: Selectionner un état initial. TTQ l’état but n’est pas atteint. Choisir 1 des actions possibles pour cet état. Avec cette action, amenant au prochain état s’. Trouver Q max pour les combinaisons s’-a’ possibles. Calculer: Q(state, action) = R(state, action) +  Max[Q(next state, all actions)] L’état courant est fixé au prochain état (next state). FIN TTQ FIN POUR

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Matrice Q initiale

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Matrice R initiale

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): En observant la rangée 1 (state 1) de R.  2 actions sont possibles pour l’état actuel 1: aller vers les états 3, ou 5. Par une sélection aléatoire, 5 est l’action choisie et ce sachant que Q(1,3) = Q(1,5) = 0;

Q-Learning Exemple d’application du Q-Learning: path planning Exemple de planification d’évacuation de la pièce 1 vers l’extérieur (5): Mise à jour de Q(1,5): Sachant que le prochain état est le 5 et en consultant la matrice R à la rangée 5. 3 actions sont alors possibles: aller à l’état 1, 4 ou 5. Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)] Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * 0 = 100