La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Étude de l ’émergence de facultés d ’apprentissage fiables et prédictibles d ’actions réflexes, à partir de modèles paramétriques soumis à des contraintes.

Présentations similaires


Présentation au sujet: "Étude de l ’émergence de facultés d ’apprentissage fiables et prédictibles d ’actions réflexes, à partir de modèles paramétriques soumis à des contraintes."— Transcription de la présentation:

1 Étude de l ’émergence de facultés d ’apprentissage fiables et prédictibles d ’actions réflexes, à partir de modèles paramétriques soumis à des contraintes internes Étude de l ’émergence de facultés d ’apprentissage fiables et prédictibles d ’actions réflexes, à partir de modèles paramétriques soumis à des contraintes internes Étude de l ’émergence de facultés d ’apprentissage fiables et prédictibles d ’actions réflexes, à partir de modèles paramétriques soumis à des contraintes internes Frédéric Davesne sous la direction de Claude Barret

2 Mise en situation: problème d ’ingénierie
On part d ’un exemple de système artificiel Frédéric Davesne - Soutenance de thèse Environnement Schéma bloc usuel d ’un modèle d ’actions réflexes traitement informatique Introduction 19 Avril 2002 capteurs effecteurs Système artificiel (robot miniature Khepera)

3 Frédéric Davesne - Soutenance de thèse
Mise en situation: problème d ’ingénierie Définitions Frédéric Davesne - Soutenance de thèse Fiabilité Propension à ne pas tomber en panne Mesurée en nombre de pannes par unité de temps Introduction 19 Avril 2002 Prédictibilité Propension à pouvoir déduire de l ’observation d ’un événement les causes de sa survenue

4 Mise en situation: problème d ’ingénierie
Traitement informatique Environnement inconnu, modèles inconnus des capteurs ou des effecteurs Frédéric Davesne - Soutenance de thèse Environnement contraint, modèle connu des capteurs et des effecteurs Le problème n ’est pas modélisable Le problème est modélisable traitement informatique Introduction 19 Avril 2002 Programmation d ’une relation fonctionnelle, déduite du calcul, entre capteurs et effecteurs Programmation d  ’heuristiques, techniques d ’apprentissage ? ? prédictibilité, fiabilité prédictibilité, fiabilité

5 Fondation de la thèse: cœur du débat
Y-a-t-il un lien formel possible ? Frédéric Davesne - Soutenance de thèse Notre thèse: Oui, théoriquement: c ’est une caractéristique majeure du vivant système ouvert, apprentissage/adaptation Non, en pratique: pour des techniques d ’apprentissage usuelles fiabilité, prédictibilité ? Introduction pas de modèle a priori, incertitude 19 Avril 2002 fossé entre le vivant et l ’imitation du vivant

6 Objectif à long terme de la recherche
Frédéric Davesne - Soutenance de thèse Spécifier un outil permettant de répondre à un problème d ’ingénierie Technique d ’apprentissage telle que: Prédictibilité de l ’apprentissage Fiabilité du résultat d ’apprentissage Introduction 19 Avril 2002 En suivant une démarche intellectuelle classique en sciences physiques et pas une démarche d ’ingénierie

7 Frédéric Davesne - Soutenance de thèse
Travail de thèse Frédéric Davesne - Soutenance de thèse 1- Constats expérimentaux 3- Modélisation Choix d ’un modèle Étude mathématique Algorithmes Résultats expérimentaux 2- Postulats de travail Étude et application de techniques d ’Apprentissage par Renforcement Étude bibliographique exploratoire dans le domaine du vivant Retour critique sur les postulats de travail démarche Introduction 19 Avril 2002 P

8 1.1- Problème du pendule inversé
2 3 Frédéric Davesne - Soutenance de thèse 1- Constats expérimentaux 19 Avril 2002

9 1.2- Apprentissage par renforcement
3 Utilisation d ’une technique d ’apprentissage par renforcement: Q(lambda) [Peng1995], dérivée du Q-Learning [Watkins1989] Frédéric Davesne - Soutenance de thèse 1- Constats expérimentaux 19 Avril 2002 Choix de a(t) au centre du dilemme exploration/exploitation Réglage empirique pour ce dilemme

10 Résultat classique d ’apprentissage
1 Résultat classique d ’apprentissage 2 3 Frédéric Davesne - Soutenance de thèse 1- Constats expérimentaux Résultat comparable à celui obtenu dans [Barto et al 1983] 19 Avril 2002 Résultat d ’apprentissage avec un critère d ’arrêt peu exigent MAIS ...

11 Avec des critères de réussite plus sévères
1 Avec des critères de réussite plus sévères 2 3 Premier exemple Frédéric Davesne - Soutenance de thèse Le résultat d ’apprentissage n ’est pas fiable, mais il semble modélisable ... MAIS ... Fonction de répartition 1- Constats expérimentaux 19 Avril 2002 Si on prolonge la durée d ’apprentissage ...

12 Avec des critères de réussite plus sévères
1 Avec des critères de réussite plus sévères 2 3 Deuxième exemple Frédéric Davesne - Soutenance de thèse Pas de prédictibilité !!! réglage du paramètre de température mécanisme d ’association données d ’entrée/état Causes probables: Causes contextuelles 1- Constats expérimentaux 19 Avril 2002 On n ’aboutit pas à un modèle de répartition stationnaire des durées de viabilité

13 Frédéric Davesne - Soutenance de thèse
1 Travail de thèse 2 3 Frédéric Davesne - Soutenance de thèse Étude et application de techniques d ’Apprentissage par Renforcement 1- Constats expérimentaux Étude bibliographique exploratoire dans le domaine du vivant 2- Postulats de travail 19 Avril 2002 Choix d ’un modèle Étude mathématique Algorithmes Résultats expérimentaux 3- Modélisation Retour critique sur les postulats de travail

14 Rappel de la problématique
1 Rappel de la problématique 2 3 Frédéric Davesne - Soutenance de thèse système ouvert, apprentissage/adaptation 2- Postulats de travail fiabilité, prédictibilité ? 19 Avril 2002 2.1- Démarche pas de modèle a priori, incertitude 2.2- Nature de l ’apprentissage 2.3- Types d ’apprentissage 2.4- Nature de la perception

15 2.1- Nature de la démarche utilisée
3 Mise en cause du contexte d ’apprentissage Frédéric Davesne - Soutenance de thèse Traitement informatique traitement informatique Système apprenant effecteurs Environnement 2- Postulats de travail capteurs Effecteurs=f(capteurs) Lien univoque apprentissage capteurs effecteurs 19 Avril 2002 Contexte d ’apprentissage Paramètres ou heuristiques qui guident l ’apprentissage, pré-traitement des données

16 2.1- Nature de la démarche utilisée
3 Ce que nous souhaitons Frédéric Davesne - Soutenance de thèse effecteurs Système ouvert Environnement capteurs interaction 2- Postulats de travail Lien univoque Contexte d ’apprentissage 19 Avril 2002 L ’apprentissage doit pouvoir être déduit exclusivement de l ’étude de l ’interaction système/environnement

17 2.1- Nature de la démarche utilisée
3 La démarche que nous adoptons Frédéric Davesne - Soutenance de thèse 1er Postulat Cette démarche permet d ’obtenir les caractéristiques de fiabilité et de prédictibilité Système abstrait Action de l ’environnement Réaction du système Spécification de l ’interaction 2- Postulats de travail Étude mathématique Évolutions possibles du système 19 Avril 2002 Recherche de propriétés émergentes du système Interprétation Expérimentations Algorithmes

18 2.2- Nature de l ’apprentissage
1 2.2- Nature de l ’apprentissage 2 3 Caractéristiques du système soumis à des contraintes internes structure déformable Frédéric Davesne - Soutenance de thèse 2- Postulats de travail 19 Avril 2002

19 2.2- Nature de l ’apprentissage
1 2.2- Nature de l ’apprentissage 2 3 2ème Postulat L ’apprentissage est une propriété émergente d ’un système soumis à des contraintes internes vérifiées à chaque instant Dynamique du système Frédéric Davesne - Soutenance de thèse temps Système en équilibre Action de l ’environnement Réaction du système Retour à l ’équilibre Système ouvert 2- Postulats de travail interaction 19 Avril 2002 Environnement La réaction du système doit le conduire à respecter ses contraintes internes, quel que soit l ’environnement

20 2.3- Types d ’apprentissage
1 2.3- Types d ’apprentissage 2 3 Frédéric Davesne - Soutenance de thèse 3ème Postulat Apprentissage Perceptif Apprentissage d ’Objectif 2- Postulats de travail non supervisé phase d ’exploration semi-supervisé phase d ’exploitation prédiction catégorisation a posteriori par détection construction procédurale 19 Avril 2002 temps

21 2.3- Types d ’apprentissage
1 2.3- Types d ’apprentissage 2 3 Modèle à deux sous-systèmes Frédéric Davesne - Soutenance de thèse Sous-Système d ’apprentissage d ’Objectif (SSO) état action environnement 2- Postulats de travail Signal de renforcement 19 Avril 2002 Sous-Système d ’apprentissage Perceptif (SSP) état Signaux (hormis renforcement)

22 2.3- Types d’apprentissage
1 2.3- Types d’apprentissage 2 3 Pourquoi deux sous-systèmes ? Associer à chaque problématique un sous-système SSO: apprentissage semi-supervisé (par renforcement) SSP: traitement du signal Montrer la faisabilité de notre approche sur un cas solvable dans la durée d ’une thèse (SSO) Attention !!! Cela ne signifie pas que l ’action ne peut pas être utilisée dans la perception Nous considérons le lien causal entre la formation de la perception et les capacités à effectuer des tâches Frédéric Davesne - Soutenance de thèse 2- Postulats de travail 19 Avril 2002

23 2.4- Nature de la perception
1 2.4- Nature de la perception 2 3 4ème Postulat Frédéric Davesne - Soutenance de thèse À chaque instant, la perception est le résultat d ’un processus d ’anticipation [Berthoz] L ’anticipation est une propriété émergente d ’un système soumis à des contraintes internes ce système est le résultat de l ’Apprentissage Perceptif Ce qui est anticipé est la détection d ’un ou de plusieurs événements rares 2- Postulats de travail 19 Avril 2002

24 2.4- Nature de la perception
1 2.4- Nature de la perception 2 3 Modèle de SSP Frédéric Davesne - Soutenance de thèse SSP 2- Postulats de travail Processus de sélection (détecteur) Signaux capteurs État ? (perception) 19 Avril 2002 Mémoire ? (anticipation) h pas de temps

25 2.4- Nature de la perception
1 2.4- Nature de la perception 2 3 Rôle de la mémoire Permet la détection d ’une structure ordonnée ensemble d ’événements dont la probabilité d ’apparition est très faible entropie associée très faible non détection d ’une structure non ordonnée Contraintes de SSP s’appliquent sur la mémoire Frédéric Davesne - Soutenance de thèse 2- Postulats de travail 19 Avril 2002 La mémoire est définie a priori par un ensemble d’événements détectables tel que la probabilité d’apparition d’au moins un événement est très faible Ordonné ou pas ordonné ? Ordonné ou pas ordonné ? Définition a priori d’un événement

26 Frédéric Davesne - Soutenance de thèse
1 Travail de thèse 2 3 Frédéric Davesne - Soutenance de thèse Étude et application de techniques d ’Apprentissage par Renforcement 1- Constats expérimentaux Étude bibliographique exploratoire dans le domaine du vivant 2- Postulats de travail 19 Avril 2002 3- Modélisation Retour critique sur les postulats de travail

27 3- Modélisation SSO 1 2 3 état action environnement SSP état
Frédéric Davesne - Soutenance de thèse action environnement SSO Signal de renforcement SSP 19 Avril 2002 état Signaux (hormis renforcement) 3.1- étude complète de SSO 3.2- spécification du sous-système SSP

28 3.1.1- Application de notre démarche à SSO
2 3 3.1 Spécification préliminaires système contraintes internes mécanisme d ’action et de réaction Résultats théoriques Algorithmes Expérimentations Frédéric Davesne - Soutenance de thèse 3.1- Modélisation - SSO 19 Avril 2002

29 3.1.2- Spécification du sous-système SS2
Exemple: 4 états et 2 actions a et b Frédéric Davesne - Soutenance de thèse e1,a e1,b e2,a e2,b État actif 3.1- Modélisation - SSO e2 action (e1,e2,e3,e4) e1 e4,a e4,b Renforcement e3,a e3,b (a,b) 19 Avril 2002 (1,-1,0) e4 e3 État ei possédant un marquage Mi État transitoire ei,k = état+choix d ’une action, marquage Mi,k (Q-value) État terminal de marquage -1 État terminal de marquage +1

30 3.1.3- Action - contraintes - réaction
2 3 3.1 Action de l ’environnement sur SSO création de transitions entre les ei,k et les ei Contraintes appliquées à SSO relient les valeurs des marquages Mi des états ei et des marquages Mi,k des états transitoires ei,k Réaction de SSO modification des marquages Mi et Mi,k (phase de propagation) Frédéric Davesne - Soutenance de thèse 3.1- Modélisation - SSO 19 Avril 2002

31 Frédéric Davesne - Soutenance de thèse
1 Dynamique de SSO 2 3 3.1 Exemple d ’évolution de SSO Frédéric Davesne - Soutenance de thèse e1,a e1,b e2,a e2,b État actif 3.1- Modélisation - SSO e2 action e4 a e4 b eS 1 e1 b eE -1 e1 e4,a e4,b Renforcement e3,a e3,b 19 Avril 2002 e4 e3

32 3.1.5- Résultats théoriques
2 3 3.1 Dans tous les cas, la phase de propagation se termine et conduit à un respect des contraintes Sous certaines conditions, la valeur des marquages Mi est interprétable en termes de fiabilité du système Au bout d ’un temps fini, la valeur des marquages reste inchangée si l ’environnement ne varie pas Si on choisit une politique de choix d ’action « Winner Take All », l ’évolution du comportement du système SSO peut être interprétée comme un apprentissage Frédéric Davesne - Soutenance de thèse 3.1- Modélisation - SSO 19 Avril 2002

33 3.1.6- Algorithme CbL 3.1- Modélisation - SSO 1 2 3 oui non Fin Fin
Frédéric Davesne - Soutenance de thèse Réception de l’état initial ei du sous-système SSO 3.1- Modélisation - SSO Choix d’une action ak et exécution jusqu’à détection d’un changement d’état ej 19 Avril 2002 oui La transition ei,k/ej existe-t-elle ? non Si ej terminal Si ej terminal Création de la transition Phase de propagation Fin Fin

34 3.1.7- Résultats expérimentaux
2 3 3.1 Problème jouet du labyrinthe Frédéric Davesne - Soutenance de thèse Un état = une case 4 actions: haut, bas, gauche, droite renforcement 1 = atteinte objectif -1 = cogne mur 0 sinon 3.1- Modélisation - SSO 19 Avril 2002

35 3.1.7- Résultats expérimentaux
2 3 3.1 Premier essai d ’apprentissage Frédéric Davesne - Soutenance de thèse Politique de commande après apprentissage 3.1- Modélisation - SSO Optimalité ??? 19 Avril 2002 Dans ce cas, oui !

36 3.1.7- Résultats expérimentaux
2 3 3.1 Premier essai d ’apprentissage (suite) Frédéric Davesne - Soutenance de thèse 3.1- Modélisation - SSO Optimalité ??? Dans ce cas, non Mais il ne s ’agit pas de notre objectif ! 19 Avril 2002

37 3.1.7- Résultats expérimentaux
2 3 3.1 Comportement de l ’algorithme CbL Frédéric Davesne - Soutenance de thèse exploration exploitation exploration exploitation 3.1- Modélisation - SSO 19 Avril 2002 Phase de propagation Performance du système Découverte de la cible Découverte de la cible

38 3.1.7- Résultats expérimentaux
2 3 3.1 Incrémentalité de CbL Frédéric Davesne - Soutenance de thèse Après ajout d ’une cible ... Après ajouts successifs de trois autres cibles et d ’un obstacle ... On part de cet environnement ... Découverte des cibles et obstacles 3.1- Modélisation - SSO 19 Avril 2002

39 3.1.8- Comparaison avec les techniques d’AR
2 3 3.1 modification des Q-values uniquement lorsque une nouvelle transition est découverte séparation nette entre phase d ’exploration et phase d ’exploitation (au moment de la découverte d ’une cible) l ’optimalité est garantie si la phase d ’exploration est exhaustive avant la découverte d ’une cible temps de convergence très inférieur pour CbL la notion de trace est induite par la propagation qui suit un rétablissement des contraintes internes Frédéric Davesne - Soutenance de thèse 3.1- Modélisation - SSO 19 Avril 2002

40 Frédéric Davesne - Soutenance de thèse
1 Conclusion 2 3 3.1 faisabilité de notre démarche intellectuelle obtention d ’un algorithme CbL de bonne qualité très simple à mettre en œuvre, pas de paramètres à régler Frédéric Davesne - Soutenance de thèse 3.1- Modélisation - SSO 19 Avril 2002

41 SSP 3- Modélisation 1 2 3 état action environnement SSO état
Frédéric Davesne - Soutenance de thèse action SSO environnement Signal de renforcement SSP 19 Avril 2002 état Signaux (hormis renforcement) 3.1- étude complète de SSO 3.2- spécification du sous-système SSP

42 3.2- Rappel du modèle de SSP
1 3.2- Rappel du modèle de SSP 2 3 3.2 En suivant le 4ème postulat Frédéric Davesne - Soutenance de thèse SSP 3.1- Modélisation - SSO Processus de sélection (détecteur) Signaux capteurs État ? (perception) 19 Avril 2002 Mémoire ? (anticipation) h pas de temps

43 3.2.1- Application de notre démarche à SSP
Cas d ’un SSP avec une mémoire à un événement constitution de la mémoire, condition de détection de l ’événement résultats théoriques Cas d ’un SSP avec une mémoire contenant un ensemble paramétrisable d ’éléments exemple de mémoire résolution du problème de détection Frédéric Davesne - Soutenance de thèse 3.1- Modélisation - SSO 19 Avril 2002

44 3.2.2- Cas d’une mémoire à un événément
1 Cas d’une mémoire à un événément 2 3 3.2 Constitution de la mémoire les paramètres fonction f continue par morceaux, à valeurs dans [0,1] trois paramètres l, h et i événement à détecter au plus i valeurs du signal X à l ’extérieur du cylindre Frédéric Davesne - Soutenance de thèse 3.2- Modélisation - SSP 19 Avril 2002 f cylindre de génératrice f, de section l et de longueur h

45 3.2.2- Cas d’une mémoire à un événément
1 Cas d’une mémoire à un événément 2 3 3.2 Résultats théoriques théorème d ’existence pour une probabilité fixée, on montre que sous certaines conditions, il existe des triplets (h,i,l) admissibles. équivalent du théorème de Shannon sur l ’échantillonnage pour un signal fixé et une probabilité donnée, il existe un nombre h de points minimum, en dessous duquel aucun triplet (h,i,l) n ’est admissible Extension à une mémoire composée d ’événements non détectables simultanément Frédéric Davesne - Soutenance de thèse 3.2- Modélisation - SSP 19 Avril 2002

46 3.2.3- Cas où les génératrices sont des fonctions paramétriques
1 Cas où les génératrices sont des fonctions paramétriques 2 3 3.2 Théorie: nous conjecturons des résultats similaires aux précédents Sélection = résolution numérique d ’un problème inverse pour un système de h inéquations analyse par intervalles algorithme SIVIA (Walter et Jaulin) adapté à notre problématique: détection ssi au moins h-i inéquations satisfaites garantit d ’encadrer l ’ensemble des solutions Frédéric Davesne - Soutenance de thèse 3.2- Modélisation - SSP 19 Avril 2002

47 3.2.3- Cas où les génératrices sont des fonctions paramétriques
1 Cas où les génératrices sont des fonctions paramétriques 2 3 3.2 Exemple: une génératrice = une droite de paramètres a et b Frédéric Davesne - Soutenance de thèse a b Une solution pour un signal sinusoïdal à un instant t 3.2- Modélisation - SSP 19 Avril 2002

48 3.2.3- Cas où les génératrices sont des fonctions paramétriques
1 Cas où les génératrices sont des fonctions paramétriques 2 3 3.2 Évolution de la sélection pour un signal carré et signal de densité gaussienne bi-modale Frédéric Davesne - Soutenance de thèse Réponse à un signal carré Réponse à un signal stationnaire de densité gaussienne bi-modale 3.2- Modélisation - SSP 19 Avril 2002 2 états 1 état

49 Frédéric Davesne - Soutenance de thèse
Conclusion théorique Élaboration d ’une base de travail Validation expérimentale Frédéric Davesne - Soutenance de thèse Algorithmes de résolution des problèmes à contraintes Applications de l ’algorithme d ’AO problème jouet robot mobile simulé étude a posteriori du comportement du système apprenant Une méthodologie Un modèle paramétrique à deux niveaux de l ’apprentissage d ’actions réflexes apprentissage d ’objectif (AO) apprentissage perceptif (AP) Des contraintes associées à ce modèle Formalisation du respect des contraintes Étude de la dynamique du système apprenant interaction entre le système apprenant et son environnement Déduction des propriétés émergentes potentielles apprentissage 19 Avril 2002

50 Frédéric Davesne - Soutenance de thèse
Conclusion Idées fortes remplacer la mesure par la détection d ’événements pour SSO: détection d ’une nouvelle transition pour SSP: pour la catégorisation remplacer la précision par la fiabilité grâce à l ’utilisation de contraintes dont on exprime les effets par le calcul Frédéric Davesne - Soutenance de thèse 19 Avril 2002

51 Perspectives: première étape
Système perceptif, signal mono-dimensionnel équilibre de SSP: savoir détecter si les contraintes sont respectées ou non point de vue théorique (conjectures à démontrer) point de vue algorithmique dynamique de SSP: établir le mécanisme d ’apprentissage perceptif modification des génératrices de E pour « coller » à l ’expérience réelle (emploi de réseaux de neurones pour créer des génératrices « adéquates ») attention !!! Cela doit se faire à entropie bornée Frédéric Davesne - Soutenance de thèse 19 Avril 2002

52 Perspectives: deuxième étape
Système perceptif, signal multi-dimensionnel généralisation à partir de l ’étude d ’un SSP utilisation d ’un unique capteur déplaçable dans l ’espace contrôler les mouvements de ce capteur pour intervenir sur la récupération de données de celui-ci problème: critère de sélection des actions pour constituer le mouvement exemple d ’inspiration: saccades occulaires Frédéric Davesne - Soutenance de thèse 19 Avril 2002

53 Frédéric Davesne - Soutenance de thèse
Fin de l ’exposé ! 19 Avril 2002


Télécharger ppt "Étude de l ’émergence de facultés d ’apprentissage fiables et prédictibles d ’actions réflexes, à partir de modèles paramétriques soumis à des contraintes."

Présentations similaires


Annonces Google