Apprentissage du contrôle moteur : architectures

Slides:



Advertisements
Présentations similaires
12 règles d’ergonomie web
Advertisements

Model de control optimal vs model de système dynamique
Modèle de contrôle optimal vs. modèle de système dynamique
E-learning Evolutif Albarelli Corinne Behem Patrice Guillot Jérôme
________ EM < 2001 – Séminaire construction Académie dAix-Marseille Situation pratique dapprentissage 1) Cadre de la réflexion préparatoire.
Les lésions du cortex Prémoteur
Apprentissage et béhaviorisme
10/31/02 Leïla Merghem - LIP6 Une approche Multi-Agents pour la Simulation de Réseaux de Télécommunications Leïla Merghem (LIP 6) Dominique Gaïti (LIP.
Présentation des programmes de terminale STG Juin 2006.
3. Analyse et estimation du mouvement dans la vidéo
Evaluer des compétences
Visualisation d’information interactive 5 : Graphes
CAO & ASSERVISSEMENTS Cette présentation a été faite lors du séminaire inter-académique de Limoges, le 07 octobre Elle montre une utilisation possible.
Dossier Technique et Pédagogique
Modélisation des systèmes non linéaires par des SIFs
Pédagogie par Objectifs
ELE6207 Commande de systèmes robotiques
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Le filtrage au cours des âges Du filtre de Kalman au filtrage particulaire André Monin.
Introduction à l’Intelligence Artificielle
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Si vous n’êtes pas sûr de l’endroit où vous voulez aller, vous risquez de vous retrouver ailleurs… et de ne pas le savoir ! (R.F. Mager) Master ISIF.
Les Systèmes Multi-Agents pour la Gestion de Production
RÉSOLUTION DE PROBLÈMES
Du diagnostic à l’acquisition des compétences.
1. La formation des compétences
Unité de Logopédie Clinique
Formation des moniteurs 2008 LA CONDUITE SOUS VOILE PREMIERE PARTIE Le cadre de pratique Le rôle du moniteur Les principes pédagogiques.
Modélisation d'un comportement addictif à l'aide de réseaux de neurones artificiels Modèles Constat biologique: Les comportements addictifs avec recompense.
Journée ConecsSdF 27 janvier 2011 ATELIER BENCHMARK Mise en œuvre du cas-test sur le simulateur Samovar Adrien GUENARD, INRIA Nancy, France Date.
Techniques d’optimisation
La pensée du jour « Il faut rendre mesurable ce qui est réellement important plutôt que de rendre important ce qui est facilement mesurable. » Source inconnue.
LES PROGRAMMES ET LÉVALUATION EN PHYSIQUE CHIMIE 24 mars
B Souda Abdelhafidh Mai 2006 Lévaluation est-elle une innovation en Tunisie B souda Abdelhafidh Élève inspecteur au CENAFFE.
Les réseaux de neurones
CDP Introduction Définie comme «un savoir-agir fondé sur la mobilisation et l utilisation efficaces d un ensemble de ressources», la compétence dépasse.
introduction à la sociologie, cours 12, 13 & 14
ÉLÉMENTS GÉNÉRAUX POUR LA CONSTRUCTION DUN MODULE DAPPRENTISSAGE ACTIVITÉS ATHLÉTIQUES DANS LA COUR DE LÉCOLE.
L’adaptativité pour un solveur de l’équation de Vlasov
Caractérisation inverse de sources pour l'interaction du champ électromagnétique avec l'environnement Azeddine GATI Y. ADANE, M.F. Wong, J. Wiart, V. Fouad.
Des théories d'apprentissage
Modèle neuromimètique de l’apprentissage par renforcement Les aspects temporels (réponse retardée) peuvent être facilement intégrés au niveau cortical.
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
Apprentissage du contrôle moteur : le geste élémentaire
Christelle Scharff IFI 2004
- Une demande institutionnelle : loi d’orientation de 2005 : le socle - Les piliers 1 et 5 mais aussi 4, 6 et 7 - L’Histoire des Arts Pour télécharger.
STATISTIQUES – PROBABILITÉS
Rééducation et réadaptation en neurologie Carlo BERTONCELLI.
Les réseaux de neurones à réservoir en traitement d’images
Institut de sciences et technologies Département d’informatique
3.La pédagogie par objectif
Spécialités Gestion et Finance Ressources humaines et communication
Recherches locales et méta-heuristiques
Structures de données avancées : LH (Hachage linéaire) D. E ZEGOUR Institut National d ’Informatique.
Les réseaux de neurones à réservoir en traitement d’images
Écrire au cycle 2.
Vers des comportements robotiques complexes par enchaînement de tâches référencées capteur Nicolas Mansard LAAS, Toulouse IRISA, Rennes.
Le chaos pourquoi ? Permet de modéliser un type de mouvement récent qui n’est ni uniforme, ni accéléré. Des dynamiques chaotiques ont été mises en évidence.
Commande optimale linéaire quadratique de Lunar Lander
Efférences: noyaux oculo-moteurs : réflexe vestibulo-oculaire
CQP ALS Apprentissage.
Démarche d’enseignement de l’APL : analyser
Michel BRETON IEN-ET Académie de LYON
Modélisation des Actions Mécaniques Première sti2d
REEDUCATION DE L’HEMIPARESIE PAR UN PROTOCOLE STIMULANT LE ‘PILOTE’ AUTOMATIQUE INSERM « Espace et Action » Hôpital Henry Gabrielle « Les nouveaux protocoles.
MES STRATÉGIES DE LECTURE
CandidatCédric Favre ProfesseurReymond Clavel AssistantsYves Stauffer Ludovic Righetti.
CONCEPTS FONDAMENTAUX Concepts liés au développement humain
Plan du cours Les neurosciences sociales 1.Un nouveau champ de recherche 2.La perception des visages et du regard 3.L’empathie 4.Les neurones miroirs et.
Transcription de la présentation:

Apprentissage du contrôle moteur : architectures Olivier Sigaud ISIR Olivier.Sigaud@lip6.fr

PLAN Adaptation du geste élémentaire Coordination posture-tâche Système comportemental découplage des tâches/ commande optimale Acquisition de compétences motrices nouvelles Apprentissage par renforcement Ajustements posturaux anticipatifs Apprentissage de modèles dynamiques Adaptation motrice Adaptation du geste élémentaire Coordination posture tâche Gestion de l’équilibre Enchaînement complexes de tâches Verticalisation locomotion Rééducation du geste moteur

Coordination posture-tâche

Commande prédictive Minimiser sur un intervalle [0,n] la fonction f(x,u) Sous les contraintes : X1 = AX0+BU0 X2 = AX1+BU1 X3 = AX2+BU2 … XN = AXN-1+BUN-1 Un solveur cherche les Ui. Horizon glissant. Fast NMPC : prédire les commandes suivantes pendant qu’on exécute les commandes courantes Contraintes linéaires

Gestion de l’équilibre Filtre dynamique Programme quadratique

Quantification de l'équilibre

Etude de la verticalisation Outils d’analyse du mouvement humain Mise en évidence des phénomènes clefs Quantification nécessaire à la validation des modèles 7

Ajustements posturaux anticipatifs Etude fine de la dynamique du pas Freinage de la chute du centre de masse Perte de la capacité d’anticipation chez le sujet âgé Welter et al. (2007) Control of vertical components of gait during initiation of walking in normal adults and patients with progressive supranuclear palsy. Gait Posture. 26(3):393-9 8

Architecture de commande Contrôleur pour les ajustements posturaux réactifs (feedback) Contrôleur prédictif pour les ajustements posturaux anticipatifs (feedforward) Commande optimale en feedback (OFC) Harris&Wolpert Todorov Guigon (2007) Maîtrise de la taille du problème Difficulté à apprendre la dynamique (M,B,G) en ligne

Décomposition modulaire

Travaux en cours Plutôt que de chercher des méthodes de pointe pour les grandes dimensions Décomposer en modules qui ont une représentation partielle Instanciés par une brique de base Apprentissage de forward models par LWPR Commande optimale simple (LQC/Operational space control) Focalisation sur la coordination des modules pour gérer les couplages

Jacobienne dX = J(Q) dQ dx Déplacement d’un point de fonctionnement dans un référentiel lié à un but dy dq3 dq2 Déplacement des angles articulaires dq1 X=(x,y) Q=(q1,q2,q3) dX = J(Q) dQ

Operational Space Control Equation de la dynamique Pour une tâche donnée, on sait calculer les couples pour obtenir dX via J(q)# Permet de faire proprement de la composition de tâches Pour une seconde tâche, on projette dans le noyau de la jacobienne de la première tâche, du coup la première tâche n’est pas altérée Et ainsi de suite tant qu’il reste des degrés de liberté

Composition de tâches Tâches dans l’espace opérationnel : réduit la dimension du problème Découpler des tâches triées par priorité : projeter dans le noyau de la jacobienne Problèmes : trier, connaître la jacobienne tâches incompatibles

Optimal Control Bon cadre pour apprendre la dynamique Attention, xt = (Q,dQ) Si critère = ∫xQx+uRu dxdu, LQC => Ricatti

Adaptation motrice Apprendre J(q)# Apprendre A et B Optimal control Operational Space Control Optimal control Commande optimale asservie à la trajectoire Mouvement dans l’espace de la tâche Apprendre J(q)# Apprendre A et B

biologiquement fondée Décomposition biologiquement fondée

Système nerveux central

Connaissances neurophysiologiques

MOSAIC (Haruno, Wolpert…98-03) Chaque module répond au mieux pour un sous-domaine de l’espace d’états Commande = somme pondérée des IM Le cervelet réalise un ensemble de couples FM/IM Les FM sont construits par apprentissage supervisé Qualité de la prédiction du FM => Responsibility Signal (RS)

Décomposition modulaire : MOSAIC La force de l’apprentissage % au RS Principe de spécialisation émergente Proche des mixtures d’experts, sauf que softmax plutôt que WTA Pb : signal de correction pour le modèle inverse (?)

MOSAIC : vue d’ensemble Responsibility predictor = entrée visuelle (stabilise) Feedback controller (hardwired) pour corriger IM Nombreux choix « lourds » (HMM, bayésien, nb modules)

APG (Barto 99) : pulse step control Ajustement anticipatif durée et amplitude de commande Pas de forward model explicite

APG : vue d’un module du cervelet Corriger le poids des PF de façon à faire décroitre l’erreur Erreur connue plus tard => traces d’éligibilités Plus proche du niveau cellulaire Focalisé sur les délais Restreint à 1D, et correcteur ad hoc

APG + MOSAIC On corrige plus celui qui répond davantage dans la direction de la correction On retrouve les directions préférées Mais on a toujours besoin d’un correcteur ad hoc

AR indirect : MMRL Remplace les IM par Proche de Salaün RL (discret) commande optimale (continu) Proche de Salaün Plus clair que MOSAIC Pb clé : RL dans le cas continu…

Séquences motrices

Séquences motrices Modèle associant contextes sensori-moteurs et répertoires d’objectifs opérationnels Apprentissage par renforcement de séquences complexes de tâches élémentaires Gabalda et al. (2007) Learning postures through sensorimotor training: a human simulation case study. 7th Epigenetic Robotics, 29-36

Cartes auto-organisatrices de Kohonen Représentation en deux dimensions de données à plusieurs dimensions Conservation du voisinage topologique Extension des domaines par entraînement

Etudes neurophysiologiques chez le singe Graziano (2006) Graziano et al. (2005) Stimulation du gyrus précentral Mouvements vers une posture finale Répertoire de postures au niveau du gyrus précentral

Etudes neurophysiologiques chez le singe Interaction de trois cartes somatotopie type de posture position de la main Aflalo & Graziano (2006)

Séquence de contextes fruit à portée fruit en main fruit décortiqué agression attraper manipuler manger se protéger

Initialisation initialisation carte 1 carte 2 attraper manipuler manger se protéger Obtenues à partir de 2 millions de postures aléatoires (dans des ordres différents)

Liens contextes - neurones 384 cellules de posture-but Chaque cellule de contexte est liée aux 384 cellules de but Contexte = état, Cellule de but = action La force d’un lien est une Q-valeur

Sélection d’un but L’activation d’un contexte déclenche l’activation de la cellule but la plus fortement liée (sans exploration)

Détermination de la posture visée La cellule but code un objectif dans l’espace des tâches

Mouvement vers la posture cible Une loi de commande bas-niveau réalise le geste vers le but

Vérification des contraintes Durant le déroulement du geste, on vérifie si une récompense est reçue

Posture récompensée Si une posture but est atteinte, on touche une récompense locale

Apprentissage (1) augmentation du lien contexte -but

Apprentissage (2) entraînement de la carte

Carte apprise

Vue globale du modèle

Synthèse Un processus bas niveau pour la commande motrice et l’adaptation motrice (cf. cours sur le geste élémentaire) Une couche intermédiaire correspondant à un répertoire d’objectifs opérationnels Une couche supérieure assurant la sélection de ces objectif et l’enchaînement des gestes correspondant Travaux de modélisation plus fine aux 3 niveaux Focalisation sur la couche de sélection de l’action

Ganglions de la base

Modèle Samejima-Doya étendu

Modèle Frank-Claus [Frank2006]

Robotique développementale

Au-delà du contrôle moteur : robotique développementale Projet iCub français classé 2ième sur 31 (ISIR porteur) : apprentissage moteur et interaction sociale

La perception comme action simulée Le système moteur est actif lors de la perception des actions d’autrui Les « neurones miroirs » déchargent à la fois quand nous faisons une action et quand nous l’observons chez autrui (Rizzolati 98) Une aire pré-motrice est activée lorsqu’on observe des outils ou qu’on lit/entend des verbes d’action Idée que la simulation interne d’une action observée ou de l’usage d’un outil perçu sert à l’interprétation

Un modèle pour l’interprétation du geste Demiris : perception d’autrui et imitation

Vers l’IA symbolique Le système moteur est impliqué dans un mécanisme d’interprétation Les « neurones miroirs » sont dans F5 chez le singe, qui correspond à l’aire de Broca (langage) chez l’homme L’action simulée comme racine des représentations de l’action d’autrui, puis des pensées d’autrui (théorie de l’esprit) puis du langage Fournit un ancrage aux « symboles » de l’IA symbolique

Approche animat et contrôle moteur Raisonnement Langage, symboles Planification Navigation Sélection de l’action Commande motrice

Stages non pourvus

Commande prédictive Minimiser sur un intervalle [0,n] la fonction f(x,u) Sous les contraintes : X1 = AX0+BU0 X2 = AX1+BU1 X3 = AX2+BU2 … XN = AXN-1+BUN-1 Un solveur cherche les Ui. Horizon glissant. Fast NMPC : prédire les commandes suivantes pendant qu’on exécute les commandes courantes Contraintes linéaires

Optimisation de paramètres pour OSC/LQC : application aux mouvements capturés Trouver les paramètres qui permettent de coller au mouvement capturé Comparer le cadre OSC et le cadre LQC Recherche du « bon » formalisme pour le contrôle moteur humain Thèse possible : à l’interface entre l’animation et la commande robotique

LWPR temps réel pour Bioloid Porter le code MATLAB de Camille Salaün sous URBI for Bioloid, puis mettre au point la manip d’apprentissage du geste

Bon courage pour vos stages… … et pour le projet Animat ! ;)