La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage du contrôle moteur : architectures

Présentations similaires


Présentation au sujet: "Apprentissage du contrôle moteur : architectures"— Transcription de la présentation:

1 Apprentissage du contrôle moteur : architectures
Olivier Sigaud ISIR

2 PLAN Adaptation du geste élémentaire Coordination posture-tâche
Système comportemental découplage des tâches/ commande optimale Acquisition de compétences motrices nouvelles Apprentissage par renforcement Ajustements posturaux anticipatifs Apprentissage de modèles dynamiques Adaptation motrice Adaptation du geste élémentaire Coordination posture tâche Gestion de l’équilibre Enchaînement complexes de tâches Verticalisation locomotion Rééducation du geste moteur

3 Coordination posture-tâche

4 Commande prédictive Minimiser sur un intervalle [0,n] la fonction f(x,u) Sous les contraintes : X1 = AX0+BU0 X2 = AX1+BU1 X3 = AX2+BU2 XN = AXN-1+BUN-1 Un solveur cherche les Ui. Horizon glissant. Fast NMPC : prédire les commandes suivantes pendant qu’on exécute les commandes courantes Contraintes linéaires

5 Gestion de l’équilibre
Filtre dynamique Programme quadratique

6 Quantification de l'équilibre

7 Etude de la verticalisation
Outils d’analyse du mouvement humain Mise en évidence des phénomènes clefs Quantification nécessaire à la validation des modèles 7

8 Ajustements posturaux anticipatifs
Etude fine de la dynamique du pas Freinage de la chute du centre de masse Perte de la capacité d’anticipation chez le sujet âgé Welter et al. (2007) Control of vertical components of gait during initiation of walking in normal adults and patients with progressive supranuclear palsy. Gait Posture. 26(3):393-9 8

9 Architecture de commande
Contrôleur pour les ajustements posturaux réactifs (feedback) Contrôleur prédictif pour les ajustements posturaux anticipatifs (feedforward) Commande optimale en feedback (OFC) Harris&Wolpert Todorov Guigon (2007) Maîtrise de la taille du problème Difficulté à apprendre la dynamique (M,B,G) en ligne

10 Décomposition modulaire

11 Travaux en cours Plutôt que de chercher des méthodes de pointe pour les grandes dimensions Décomposer en modules qui ont une représentation partielle Instanciés par une brique de base Apprentissage de forward models par LWPR Commande optimale simple (LQC/Operational space control) Focalisation sur la coordination des modules pour gérer les couplages

12 Jacobienne dX = J(Q) dQ dx
Déplacement d’un point de fonctionnement dans un référentiel lié à un but dy dq3 dq2 Déplacement des angles articulaires dq1 X=(x,y) Q=(q1,q2,q3) dX = J(Q) dQ

13 Operational Space Control
Equation de la dynamique Pour une tâche donnée, on sait calculer les couples pour obtenir dX via J(q)# Permet de faire proprement de la composition de tâches Pour une seconde tâche, on projette dans le noyau de la jacobienne de la première tâche, du coup la première tâche n’est pas altérée Et ainsi de suite tant qu’il reste des degrés de liberté

14 Composition de tâches Tâches dans l’espace opérationnel : réduit la dimension du problème Découpler des tâches triées par priorité : projeter dans le noyau de la jacobienne Problèmes : trier, connaître la jacobienne tâches incompatibles

15 Optimal Control Bon cadre pour apprendre la dynamique
Attention, xt = (Q,dQ) Si critère = ∫xQx+uRu dxdu, LQC => Ricatti

16 Adaptation motrice Apprendre J(q)# Apprendre A et B Optimal control
Operational Space Control Optimal control Commande optimale asservie à la trajectoire Mouvement dans l’espace de la tâche Apprendre J(q)# Apprendre A et B

17 biologiquement fondée
Décomposition biologiquement fondée

18 Système nerveux central

19 Connaissances neurophysiologiques

20 MOSAIC (Haruno, Wolpert…98-03)
Chaque module répond au mieux pour un sous-domaine de l’espace d’états Commande = somme pondérée des IM Le cervelet réalise un ensemble de couples FM/IM Les FM sont construits par apprentissage supervisé Qualité de la prédiction du FM => Responsibility Signal (RS)

21 Décomposition modulaire : MOSAIC
La force de l’apprentissage % au RS Principe de spécialisation émergente Proche des mixtures d’experts, sauf que softmax plutôt que WTA Pb : signal de correction pour le modèle inverse (?)

22 MOSAIC : vue d’ensemble
Responsibility predictor = entrée visuelle (stabilise) Feedback controller (hardwired) pour corriger IM Nombreux choix « lourds » (HMM, bayésien, nb modules)

23 APG (Barto 99) : pulse step control
Ajustement anticipatif durée et amplitude de commande Pas de forward model explicite

24 APG : vue d’un module du cervelet
Corriger le poids des PF de façon à faire décroitre l’erreur Erreur connue plus tard => traces d’éligibilités Plus proche du niveau cellulaire Focalisé sur les délais Restreint à 1D, et correcteur ad hoc

25 APG + MOSAIC On corrige plus celui qui répond davantage dans la direction de la correction On retrouve les directions préférées Mais on a toujours besoin d’un correcteur ad hoc

26 AR indirect : MMRL Remplace les IM par Proche de Salaün
RL (discret) commande optimale (continu) Proche de Salaün Plus clair que MOSAIC Pb clé : RL dans le cas continu…

27 Séquences motrices

28 Séquences motrices Modèle associant contextes sensori-moteurs et répertoires d’objectifs opérationnels Apprentissage par renforcement de séquences complexes de tâches élémentaires Gabalda et al. (2007) Learning postures through sensorimotor training: a human simulation case study. 7th Epigenetic Robotics, 29-36

29 Cartes auto-organisatrices de Kohonen
Représentation en deux dimensions de données à plusieurs dimensions Conservation du voisinage topologique Extension des domaines par entraînement

30 Etudes neurophysiologiques chez le singe
Graziano (2006) Graziano et al. (2005) Stimulation du gyrus précentral Mouvements vers une posture finale Répertoire de postures au niveau du gyrus précentral

31 Etudes neurophysiologiques chez le singe
Interaction de trois cartes somatotopie type de posture position de la main Aflalo & Graziano (2006)

32 Séquence de contextes fruit à portée fruit en main fruit décortiqué agression attraper manipuler manger se protéger

33 Initialisation initialisation carte 1 carte 2
attraper manipuler manger se protéger Obtenues à partir de 2 millions de postures aléatoires (dans des ordres différents)

34 Liens contextes - neurones
384 cellules de posture-but Chaque cellule de contexte est liée aux 384 cellules de but Contexte = état, Cellule de but = action La force d’un lien est une Q-valeur

35 Sélection d’un but L’activation d’un contexte déclenche l’activation de la cellule but la plus fortement liée (sans exploration)

36 Détermination de la posture visée
La cellule but code un objectif dans l’espace des tâches

37 Mouvement vers la posture cible
Une loi de commande bas-niveau réalise le geste vers le but

38 Vérification des contraintes
Durant le déroulement du geste, on vérifie si une récompense est reçue

39 Posture récompensée Si une posture but est atteinte, on touche une récompense locale

40 Apprentissage (1) augmentation du lien contexte -but

41 Apprentissage (2) entraînement de la carte

42 Carte apprise

43 Vue globale du modèle

44 Synthèse Un processus bas niveau pour la commande motrice et l’adaptation motrice (cf. cours sur le geste élémentaire) Une couche intermédiaire correspondant à un répertoire d’objectifs opérationnels Une couche supérieure assurant la sélection de ces objectif et l’enchaînement des gestes correspondant Travaux de modélisation plus fine aux 3 niveaux Focalisation sur la couche de sélection de l’action

45 Ganglions de la base

46 Modèle Samejima-Doya étendu

47 Modèle Frank-Claus [Frank2006]

48 Robotique développementale

49 Au-delà du contrôle moteur : robotique développementale
Projet iCub français classé 2ième sur 31 (ISIR porteur) : apprentissage moteur et interaction sociale

50 La perception comme action simulée
Le système moteur est actif lors de la perception des actions d’autrui Les « neurones miroirs » déchargent à la fois quand nous faisons une action et quand nous l’observons chez autrui (Rizzolati 98) Une aire pré-motrice est activée lorsqu’on observe des outils ou qu’on lit/entend des verbes d’action Idée que la simulation interne d’une action observée ou de l’usage d’un outil perçu sert à l’interprétation

51 Un modèle pour l’interprétation du geste
Demiris : perception d’autrui et imitation

52 Vers l’IA symbolique Le système moteur est impliqué dans un mécanisme d’interprétation Les « neurones miroirs » sont dans F5 chez le singe, qui correspond à l’aire de Broca (langage) chez l’homme L’action simulée comme racine des représentations de l’action d’autrui, puis des pensées d’autrui (théorie de l’esprit) puis du langage Fournit un ancrage aux « symboles » de l’IA symbolique

53 Approche animat et contrôle moteur
Raisonnement Langage, symboles Planification Navigation Sélection de l’action Commande motrice

54 Stages non pourvus

55 Commande prédictive Minimiser sur un intervalle [0,n] la fonction f(x,u) Sous les contraintes : X1 = AX0+BU0 X2 = AX1+BU1 X3 = AX2+BU2 XN = AXN-1+BUN-1 Un solveur cherche les Ui. Horizon glissant. Fast NMPC : prédire les commandes suivantes pendant qu’on exécute les commandes courantes Contraintes linéaires

56 Optimisation de paramètres pour OSC/LQC : application aux mouvements capturés
Trouver les paramètres qui permettent de coller au mouvement capturé Comparer le cadre OSC et le cadre LQC Recherche du « bon » formalisme pour le contrôle moteur humain Thèse possible : à l’interface entre l’animation et la commande robotique

57 LWPR temps réel pour Bioloid
Porter le code MATLAB de Camille Salaün sous URBI for Bioloid, puis mettre au point la manip d’apprentissage du geste

58 Bon courage pour vos stages…
… et pour le projet Animat ! ;)


Télécharger ppt "Apprentissage du contrôle moteur : architectures"

Présentations similaires


Annonces Google