Titre de la diapositive Les systèmes de classifieurs une brève introduction Stéphane Sanchez IRIT-UT1 Equipe Synthèse d’Images et Réalité Virtuelle (SIRV) Séminaire IRIT-UT1
Titre de la diapositive 2 Un point commun ? Sanza, 2001 Heguy, 2003 Sanchez, 2004 Les comportements des entités virtuelles : Non codés explicitement Générés par apprentissage à l’aide de systèmes de classifieurs
Titre de la diapositive 3 Types de problèmes Problèmes de classification Ex : établir les règles qui permettent de déterminer exactement si des champignons sont comestibles ou vénéneux. SIvert ET petit ALORScomestible SI(vert ET petit) OU à poisALORSvénéneux SIpetit ET roseALORSvénéneux SIpetit ET roseALORScomestible … Problèmes non-séquentiels Les décisions n’affectent pas les entrées Ex : Identifier un objet en fonction de caractéristiques observables.
Titre de la diapositive 4 Types de problèmes Problème d’apprentissage par renforcement En fonction de capteurs et d’effecteurs, produire un contrôleur comportemental adaptatif pour une grenouille artificielle (en utilisant uniquement des récompenses numériques) Jeu de règles Si-Alors pour définir le contrôleur SIpetit ET noir ET bourdonneALORSmanger SIgrand ET blanc ET a un becALORSse cacher … Problèmes séquentiels Les actions affectent les conditions futures Ex : La navigation d’un robot
Titre de la diapositive 5 Définition Bases théoriques : Holland 1975 Premier système de classifieurs : Holland et Rickell 1978 Système d’apprentissage incrémental adapté à l’apprentissage supervisé ou par renforcement Basé sur les Algorithmes Génétiques Evolution d’une population de règles de production (les classifieurs) de type SI condition ALORS action activées par des messages Messages et règles codés sous la forme de génomes Valeur scalaire associée = utilité du classifieur (force)
Titre de la diapositive 6 Représentation des données Langage ternaire (trits) : le plus utilisé Chaque règle est composée d’une partie condition et d’une partie action. Les messages entrants et les actions sont des chaînes de bits de longueur fixe. Les conditions sont des chaines ternaire {0,1,#} de longueur fixe. Message : Classifieur : :: Principe d’activation des règles # est un joker qui peut être activé par les entrées 0 ou 1. Le message 010 active les conditions ###, ##0, #1#, 0##, #10, 0#0, 01#, 010. Permet théoriquement de définir tout type de problème. Inconvénient Traduction des données Difficulté de conception Sensibilité aux opérations génétiques Difficulté d’analyse du système produit
Titre de la diapositive 7 Représentation des données Représentations hétérogènes : Sanchez 2004 Un alphabet de gènes valués : bits, trits, entiers, réels, intervalles, listes. Les messages, conditions et actions sont des vecteurs hétérogènes de gènes. Intérêts Gain en expressivité et en lecture des règles produites Réutilisation directe des opérateurs génétiques Amélioration des performances (préservation des blocs pertinents)
Titre de la diapositive 8 Fonctionnement #11#1:: #00:: :: ##01:: :: ###:: Capteurs Effecteurs ExécutionRécompense R ##01:: Environnement Population de classifieurs 0#11#1::11 00##01::11 Algorithme génétique 0#11 #1::11 01::11 00## 00###1:: #1101:: ###1:: Covering :: #0#01:: :: #0#01:: Situation 1Situation 2 Arbitrage A priori : règle ayant l’utilité la plus forte renforcement Apprentissage : existe-t-il une meilleure alternative ? Dilemme exploration/exploitation Sélection issue des AG (tournoi, roulette pipée) ou aléatoire Distribution des crédits Q-Learning : f i (t+1) = f i (t) + β(R – f i (t)) Séquentiel : R = λ.f j (t+1) j = classifieur suivant activé Découverte de nouvelles règles Un algorithme génétique Meilleures performances si appliqué aux classifieurs activés
Titre de la diapositive 9 Intérêts Problèmes complexes : parfois l’apprentissage automatique est la seule solution Difficulté d’appréhender toutes les situations Impossible de proposer une solution analytique complète Difficile de proposer un jeu complet de tests Plus facile de concevoir une forme de solution une fonction de récompense Système évolutionniste Adapté aux systèmes dynamiques Adaptabilité à de nouvelles conditions environnementales Connaissance acquise explicite à travers la population de classifieurs Analyse a posteriori des solutions générées
Titre de la diapositive 10 Intérêts Généralisation automatique des entrées ABCSortie Hiérarchie par défaut Meilleures actions 00# :: 0 1#0 :: 0 ### :: 1 00# :: 0 01# :: 1 1#0 :: 0 1#1 :: 1 Multiplexeur-3 Solutions possibles Solutions compactes Bonnes performances (temps réel) Robustesse en cas de sur-spécification des problèmes Une entrée non pertinente sera automatiquement ignorée (généralisée).
Titre de la diapositive 11 Implantation des problèmes En trois étapes Modélisation du problème et de ses données pertinentes sous forme de messages. Mise en forme des règles activables par les messages et des actions associées : un classifieur de référence. Mise en place d’une fonction de rémunération. Attention : De nombreux paramètres influencent la convergence Taille de la population Fréquence d’application de l’algorithme génétique, des alternances exploration/exploitation Valeurs des coefficients d’apprentissage, du taux de croisement, etc. Nécessite une certaine expertise...
Titre de la diapositive 12 Un exemple : Maze ou Woods Problème de type Animat But : atteindre une case nourriture dans un labyrinthe composé de cases vides et d’obstacles Intérêt : formation de séquences d’actions plus ou moins longues Récompense : Lorsque l’animat atteint la case nourriture Case : états discrétisés 0 : case vide, 1 : nourriture, 2 : obstacle Message : état des 8 cases adjacentes à l’animat : 8 gènes Integer Classifieur : Condition : 8 gènes List {0,1,2} Action : 1 gène Integer [1,8]
Titre de la diapositive 13 Maze 6 Moyennes sur 10 expériences d’exploitation
Titre de la diapositive 14 Woods 14-18
Titre de la diapositive 15 Points faibles Problème lié à la généralisation des entrées Si une règle trop générale apparait, elle peut dominer les règles plus spécifiques et empêcher leur renforcement ou leur apparition. Problème de la formation des longues chaînes Si la récompense arrive tardivement, les classifieurs en début de séquence peuvent rester trop faibles et risquent de disparaitre avant sa formation complète. Problème des environnements Non-Markoviens Prise de décision ambigüe : conditions identiques mais décision erronée selon la situation Pas de convergence avec les systèmes de classifieurs standards
Titre de la diapositive 16 Conclusion Systèmes performants à la fois en classification et en planification Présents dans de nombreux domaines applicatifs Data-mining Bioinformatique, sciences de la vie Réalité virtuelle, robotique, ingénierie logicielle De nombreux problèmes théoriques subsistent Paramétrage Généralisation Formation des séquences Temporalité des décisions Domaine de recherche très actif Nouvelles représentations Nouveaux algorithmes d’apprentissage Nouvelles architectures de fonctionnement De très nombreuses variantes
Titre de la diapositive 17 Perspectives Améliorations dans le domaine de la Réalité Virtuelle Prise de décision en environnement continu ou à long terme Action non instantanée Algorithme de rémunération temporel Différenciation automatique des situations a priori identiques Mémoire Croyances Capteurs adaptatifs/actifs entités virtuelles toujours plus réalistes et plus autonomes Exploitation des entités virtuelles Jeux vidéos Simulateurs de missions
Titre de la diapositive 18
Titre de la diapositive 19 Prise de décisions ambigue : même conditions mais décision erronée selon la situation Pas de convergence avec les systèmes de classifieurs standards
Titre de la diapositive 20
Titre de la diapositive 21 3 sous-problèmes La génération des règles de décision (classifieurs) Comment générer les règles adaptées au problème à résoudre ? Le dilemme Exploration/Exploitation Pour évaluer si une règle a obtenu une récompense adaptée : Rencontrer plusieurs fois la même situation Essayer de nouvelles actions Plus le système explore l’environnement, plus il apprend. Mais … … plus il explore, moins il met à profit ses acquis. Il est difficile de trouver un compromis entre « faire ce que je pense être le mieux » et « essayer une alternative qui pourrait être meilleure ». L’arbitrage en règles de décision concurrentes Comment choisir ?
Titre de la diapositive 22 3 sous-systèmes Distribution des crédits Evaluer l’utilité d’une règle afin de pouvoir gérer les conflits L’estimation de l’utilité est appelée force F d’un classifieur Typiquement Non séquentiel : algorithme de Q-Learning (Widrow-Hoff) Séquentiel : « Brigade des seaux »
Titre de la diapositive 23 Sélection d’une règle En mode exploitation Toujours la règle la plus forte En mode exploration Une règle choisie aléatoirement Utilisation des opérateurs de sélection issus des AG Roulette pipée Tournoi Favorise les règles les plus performantes en laissant la possibilité d’essayer une règle alternative moins forte Alternance des deux modes
Titre de la diapositive 24 Génération des nouvelles règles Covering Génère une plusieurs règles en fonction du message si ce dernier n’a pas de classifieur lui correspondant.
Titre de la diapositive 25
Titre de la diapositive 26 Types de problèmes Problèmes de classification Etablir les règles qui permettent de déterminer exactement si des champignons sont comestibles ou vénéneux. A l’aide de règles Si-Alors pour établir des décisions de tri : SIvert ET petit ALORScomestible SI(vert ET petit) OU à poisALORSvénéneux SIpetit ET roseALORSvénéneux SIpetit ET roseALORScomestible …
Titre de la diapositive 27 Acteurs autonomes ? Modélisation usuelle [Terzopoulos, Thalmann, …] Perception et cognition Système de décision (sélection de l’action) Système moteur (exécution de l’action) Boucle perception – décision - action Conception des système de décision Agencer des comportements élémentaires pour obtenir une fonctionnalité plus complexe (Minsky 1985) 3 approches de construction des comportements Approche descriptive Par apprentissage A l’aide de systèmes évolutionnistes