Modèle de contrôle optimal vs. modèle de système dynamique Dynamics systems vs. optimal control — a unifying view Edouard Lopez-Sandrine Poupard
Introduction But du contrôle & apprentissage moteur : recherche d'une « stratégie » de contrôle spécifique à une tâche (cf. Bellman, 1957; Dyer and McReynolds, 1970) 3 axes d’opposition: Contrôle optimal vs. système dynamique Mouvement discret vs. mouvement cyclique Ancien point de vue vs. nouveau point de vue
Contrôle optimal Contrôle moteur = résultat de l'évolution du SN qui tente d'optimisé l'organisation générale moteur. modélise tâche précise ; réduction à la trajectoire à effectuer ; optimisation des récompenses accumlées (Reinforcement Learning); Trajectoire parfaite : trajectoire linéaire ; mouvement discret ; mouvement cyclique = cycle de suite mouvement discret. Problèmes difficulté en nombre de « dimensions » élevées. tâche dépendant ; peu flexible ⇒ milieu statique, prédictible (ex. : ballon = trop complexe). RL = reinforcement learning OCT : utilisation de « dynamic programming » (DP), « reinforcement learning » (RL) -> plan en optimisant les récompenses accumulées pblm : ingérable pour un grand nombre de dimensions (muscles concernés) complexité d'apprentissage d'un plan de controle (souvent) réduit à la trajectoire désirée -> OCT et RL = + efficace quand trajectoire facile à définir, environnement static, temps court. faible flexibilité (ex. : trajectoire sur ballon = planifier -> blocage du doigt 10s = rattrapage par chemin le + court -> pas bon) approche par trajectoire désirée = trop limitée -> autres information de départ ?
Système dynamique Contrôle moteur = processus d'auto organisation entre un individu et son milieu modélise : comportement d'entrainement et synchronisation ; cible = point attracteur, ou courbe attractive ; basé sur état cinematique → modification du « paysage attracteur » ; environnement non predictible ou instable ; Trajectoire parfaite pas forcément linéaire ; mouvement périodique ; mouvement discret = mouvement cyclique interrompue ; possibilité de combinaison → mouvement complexes.
Mouvements discret vs. Mouvements rythmiques mvts discrets & rythmiques = fonctions indépendantes (cf. IRMf: activation de zones différentes) mouvement rythmique => zone unilatérale M1, S1, PMdc, SMA, pre-SMA mouvement discret => zone additionnel controlatéral non primaire BA7, BA40, BA44, BA47, |aires rythmiques| < |aires discrètes| ⇏ mouvements rythmiques ajout à mouvements discrets ⇔ mvt rythmiques non composés de mvt discrets
t Bleu= discret- rythmiq Discret rythmique
Nouveau model modéliser: mouvement point à point et rytmique mouvement utilisant plusieur articulations avec phase de blockage compenser par d'autre articulation (marche) mouvement a trajectoire plutot complex pour les 2 (curviligne, avant bras tennisman) aprentissage et optimisation de mouvement phenomen de couplage: 2 mains ou perception action temp (sans representation explicite) mouvement générale pour mouvement apris pour une meme tache mouvemnt robuste non affecter par les perturbation et l'interaction avec l'environnement
- basée sur model system dynamique (car plus mieux pour programmer autonome couplage) puis améliorer par model optimal -chaque membre concue comme élement primaire du mouvement (dans librairy) =>Dynamic Movement Primitives (DMPs) -veut kinematik (positions, velocites,accelerations (parametre 3D pas pris en compte dans un premier temp)) désirer pour atteindre cible pour chaque articulation transform en command motrice - lance action par feedforward ( genalement par un SDT inverser) -moduler un peu stabiliser par feedback controll -peut incorporer toute les techniques et recente théorie qui prenne des entree cinematiques pour plannifier trajectoire - basée sur point attractif ou cycle attractif, limite - probleme: gerer équation non linaire et flexible adaptable pour les comportement complex ainsi que l'instabilité de l'équation -2 équation: -équation canonique tx'=h(x,teta) et équation de sortie ty'=g(y,f,teta) où teta represence (et à la place de) tout les parametre du systeme (but, temp, constante) - eq canonique:donne l'état, la phase, l'avancement, remplace temp et permet incrementation dans eq de sortie qui donne nouvelle positon spatial - peut prendre application sur le deroulement du temp pendant action grace à eq cannonique: tx'=ax*x/(1+ ac(yactuel -y)²) où (yactuel - y)est l'erreur de tracage, plus l'erreur est grande moins l'avancement aucmente ce qui permet un réajustement (resultat conforme) - pour mouvement cyclique, transform eq canonique pour avoir cycle des avancement, plus x mais etat phase de cycle q, r amplitude du cycle, A amplitude esperer - par A t g on peut controleramplitude frequence et point ou on doit passer (setpoint) dans une oscillation indépendante - mouvement multidimensionnel plusieur articulation: meme avancement eq canonique mais eq sortie differentes pour chaque articulation - renforcement aprentissage optimisation= trouver le poid dans le changement la commande, le wi - EXEMPLE MVT tennis apprentissage superviser: on peut définir que f=0 qd x=0,95 95% mvt fait de période T expérimentateur, ce qui nous conduit à situation apprentissage, par régression linéaire on obtient wi - optimization par reduction de bruit ou de calul de moindre résidus, tout calcul d'optimisation possible, peut potimiser differament selon articulation et pour un cycle précis en fct parametre local. -
Conclusion