La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions.

Présentations similaires


Présentation au sujet: "Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions."— Transcription de la présentation:

1 Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions réflexes, à partir de modèles paramétriques soumis à des contraintes internes Frédéric Davesne sous la direction de Claude Barret Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions réflexes, à partir de modèles paramétriques soumis à des contraintes internes

2 2 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Mise en situation: problème d ingénierie Mise en situation: problème d ingénierie effecteurs Système artificiel (robot miniature Khepera) Environnement capteurs traitement informatique Introduction n On part d un exemple de système artificiel Schéma bloc usuel d un modèle d actions réflexes

3 3 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Introduction Fiabilité Propension à ne pas tomber en panne Mesurée en nombre de pannes par unité de temps Prédictibilité Propension à pouvoir déduire de l observation d un événement les causes de sa survenue Mise en situation: problème d ingénierie Mise en situation: problème d ingénierie n Définitions

4 4 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Mise en situation: problème d ingénierie n Traitement informatique Introduction traitement informatique Le problème est modélisable Le problème n est pas modélisable Environnement contraint, modèle connu des capteurs et des effecteurs Programmation d une relation fonctionnelle, déduite du calcul, entre capteurs et effecteurs prédictibilité, fiabilité Environnement inconnu, modèles inconnus des capteurs ou des effecteurs Programmation d heuristiques, techniques d apprentissage prédictibilité, fiabilité ??

5 5 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Fondation de la thèse: cœur du débat Introduction système ouvert, apprentissage/adaptation pas de modèle a priori, incertitude fiabilité, prédictibilité n Y-a-t-il un lien formel possible ? Notre thèse: Oui, théoriquement: c est une caractéristique majeure du vivant Non, en pratique: pour des techniques d apprentissage usuelles fossé entre le vivant et l imitation du vivant ?

6 6 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Objectif à long terme de la recherche Introduction Spécifier un outil permettant de répondre à un problème d ingénierie Prédictibilité de l apprentissage Fiabilité du résultat d apprentissage En suivant une démarche intellectuelle classique en sciences physiques et pas une démarche d ingénierie Technique d apprentissage telle que:

7 7 Frédéric Davesne - Soutenance de thèse 19 Avril Constats expérimentaux 3- Modélisation Choix d un modèle Étude mathématique Algorithmes Résultats expérimentaux 2- Postulats de travail Étude et application de techniques d Apprentissage par Renforcement Étude bibliographique exploratoire dans le domaine du vivant Retour critique sur les postulats de travail démarche Travail de thèse Introduction P P P

8 8 Frédéric Davesne - Soutenance de thèse 19 Avril Problème du pendule inversé Constats expérimentaux

9 9 Frédéric Davesne - Soutenance de thèse 19 Avril Apprentissage par renforcement Utilisation d une technique d apprentissage par renforcement: Q(lambda) [Peng1995], dérivée du Q-Learning [Watkins1989] 1- Constats expérimentaux Choix de a(t) au centre du dilemme exploration/exploitation Réglage empirique pour ce dilemme 1 2 3

10 10 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Résultat classique d apprentissage Résultat d apprentissage avec un critère d arrêt peu exigent Résultat comparable à celui obtenu dans [Barto et al 1983] MAIS Constats expérimentaux 1 2 3

11 11 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Avec des critères de réussite plus sévères Si on prolonge la durée d apprentissage... Le résultat d apprentissage n est pas fiable, mais il semble modélisable... MAIS... Fonction de répartition 1- Constats expérimentaux n Premier exemple

12 12 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Avec des critères de réussite plus sévères On n aboutit pas à un modèle de répartition stationnaire des durées de viabilité Pas de prédictibilité !!! réglage du paramètre de température mécanisme d association données d entrée/état Causes probables: Causes contextuelles 1- Constats expérimentaux n Deuxième exemple

13 13 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Travail de thèse 1- Constats expérimentaux 3- Modélisation Choix d un modèle Étude mathématique Algorithmes Résultats expérimentaux 2- Postulats de travail Étude et application de techniques d Apprentissage par Renforcement Étude bibliographique exploratoire dans le domaine du vivant Retour critique sur les postulats de travail 1 2 3

14 14 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Rappel de la problématique 2- Postulats de travail fiabilité, prédictibilité système ouvert, apprentissage/adaptation pas de modèle a priori, incertitude 2.1- Démarche 2.3- Types d apprentissage 2.2- Nature de l apprentissage ? 2.4- Nature de la perception

15 15 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 n Mise en cause du contexte d apprentissage traitement informatique 2.1- Nature de la démarche utilisée Système apprenant Environnement Contexte d apprentissage Lien univoque Effecteurs=f(capteurs) capteurs effecteurs Traitement informatique Paramètres ou heuristiques qui guident l apprentissage, pré-traitement des données effecteurs capteurs apprentissage 2- Postulats de travail 1 2 3

16 16 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 n Ce que nous souhaitons 2.1- Nature de la démarche utilisée Contexte d apprentissage Environnement Système ouvert Lien univoque interaction capteurs effecteurs L apprentissage doit pouvoir être déduit exclusivement de l étude de l interaction système/environnement Postulats de travail

17 17 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 n La démarche que nous adoptons 2.1- Nature de la démarche utilisée 2- Postulats de travail Spécification de l interaction Système abstrait Action de l environnement Réaction du système Étude mathématique Évolutions possibles du système Interprétation Recherche de propriétés émergentes du système Expérimentations Algorithmes 1 er Postulat Cette démarche permet d obtenir les caractéristiques de fiabilité et de prédictibilité

18 18 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 n Caractéristiques du système –soumis à des contraintes internes –structure déformable 2.2- Nature de l apprentissage 2- Postulats de travail 1 2 3

19 19 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 n Dynamique du système 2.2- Nature de l apprentissage temps Système en équilibre Système en équilibre Action de l environnement Réaction du système Retour à l équilibre La réaction du système doit le conduire à respecter ses contraintes internes, quel que soit l environnement Environnement Système ouvert Postulats de travail interaction 2 ème Postulat L apprentissage est une propriété émergente d un système soumis à des contraintes internes vérifiées à chaque instant

20 20 Frédéric Davesne - Soutenance de thèse 19 Avril Types d apprentissage temps Apprentissage Perceptif Apprentissage d Objectif 3 ème Postulat non supervisé phase d exploration semi-supervisé phase d exploitation prédiction catégorisation a posteriori par détection construction procédurale 2- Postulats de travail 1 2 3

21 21 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 n Modèle à deux sous-systèmes 2.3- Types d apprentissage Sous-Système d apprentissage d Objectif (SSO) état action Signal de renforcement environnement Sous-Système d apprentissage Perceptif (SSP) Signaux (hormis renforcement) état Postulats de travail

22 22 Frédéric Davesne - Soutenance de thèse 19 Avril Types dapprentissage n Pourquoi deux sous-systèmes ? –Associer à chaque problématique un sous-système n SSO: apprentissage semi-supervisé (par renforcement) n SSP: traitement du signal –Montrer la faisabilité de notre approche sur un cas solvable dans la durée d une thèse (SSO) n Attention !!! –Cela ne signifie pas que l action ne peut pas être utilisée dans la perception –Nous considérons le lien causal entre la formation de la perception et les capacités à effectuer des tâches 2- Postulats de travail 1 2 3

23 23 Frédéric Davesne - Soutenance de thèse 19 Avril Nature de la perception n À chaque instant, la perception est le résultat d un processus d anticipation [Berthoz] n L anticipation est une propriété émergente d un système soumis à des contraintes internes –ce système est le résultat de l Apprentissage Perceptif n Ce qui est anticipé est la détection d un ou de plusieurs événements rares Postulats de travail 4 ème Postulat

24 24 Frédéric Davesne - Soutenance de thèse 19 Avril Nature de la perception Signaux capteurs Mémoire ? (anticipation) Processus de sélection (détecteur) État ? (perception) SSP h pas de temps n Modèle de SSP Postulats de travail

25 25 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Définition a priori dun événement n Rôle de la mémoire –Permet la détection d une structure ordonnée –ensemble d événements dont la probabilité d apparition est très faible –entropie associée très faible –non détection d une structure non ordonnée Ordonné ou pas ordonné ? Ordonné ou pas ordonné ? 2.4- Nature de la perception Contraintes de SSP sappliquent sur la mémoire 2- Postulats de travail La mémoire est définie a priori par un ensemble dévénements détectables tel que la probabilité dapparition dau moins un événement est très faible

26 26 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Travail de thèse 1- Constats expérimentaux 3- Modélisation 2- Postulats de travail Étude et application de techniques d Apprentissage par Renforcement Étude bibliographique exploratoire dans le domaine du vivant Retour critique sur les postulats de travail 1 2 3

27 27 Frédéric Davesne - Soutenance de thèse 19 Avril Modélisation SSO état action Signal de renforcement environnement SSP Signaux (hormis renforcement) état étude complète de SSO 3.2- spécification du sous-système SSP

28 28 Frédéric Davesne - Soutenance de thèse 19 Avril Application de notre démarche à SSO 3.1- Modélisation - SSO n Spécification préliminaires –système –contraintes internes –mécanisme d action et de réaction n Résultats théoriques n Algorithmes n Expérimentations

29 29 Frédéric Davesne - Soutenance de thèse 19 Avril Spécification du sous-système SS2 n Exemple: 4 états et 2 actions a et b État e i possédant un marquage M i État transitoire e i,k = état+choix d une action, marquage M i,k (Q-value) État terminal de marquage +1État terminal de marquage -1 e1e1 e2e2 e3e3 e4e4 e 1,a e 1,b e 2,b e 2,a e 3,a e 3,b e 4,a e 4,b État actif Renforcement (1,-1,0) action (a,b) (e 1,e 2,e 3,e 4 ) 3.1- Modélisation - SSO

30 30 Frédéric Davesne - Soutenance de thèse 19 Avril Action - contraintes - réaction n Action de l environnement sur SSO –création de transitions entre les e i,k et les e i n Contraintes appliquées à SSO –relient les valeurs des marquages M i des états e i et des marquages M i,k des états transitoires e i,k n Réaction de SSO –modification des marquages M i et M i,k (phase de propagation) Modélisation - SSO

31 31 Frédéric Davesne - Soutenance de thèse 19 Avril e4e4 a Dynamique de SSO e1e1 e2e2 e3e3 e4e4 e 1,a e 1,b e 2,b e 2,a e 3,a e 3,b e 4,a e 4,b État actif Renforcement action n Exemple d évolution de SSO eSeS 1 e4e4 0 b eEeE e1e1 0 b 3.1- Modélisation - SSO

32 32 Frédéric Davesne - Soutenance de thèse 19 Avril Résultats théoriques –Dans tous les cas, la phase de propagation se termine et conduit à un respect des contraintes –Sous certaines conditions, la valeur des marquages M i est interprétable en termes de fiabilité du système –Au bout d un temps fini, la valeur des marquages reste inchangée si l environnement ne varie pas –Si on choisit une politique de choix d action « Winner Take All », l évolution du comportement du système SSO peut être interprétée comme un apprentissage Modélisation - SSO

33 33 Frédéric Davesne - Soutenance de thèse 19 Avril Algorithme CbL Réception de létat initial e i du sous-système SSO Choix dune action a k et exécution jusquà détection dun changement détat e j La transition e i,k /e j existe-t-elle ? oui non Création de la transition Phase de propagation Fin Si e j terminal Fin Si e j terminal 3.1- Modélisation - SSO

34 34 Frédéric Davesne - Soutenance de thèse 19 Avril Résultats expérimentaux n Problème jouet du labyrinthe Un état = une case 4 actions: haut, bas, gauche, droite renforcement 1 = atteinte objectif -1 = cogne mur 0 sinon 3.1- Modélisation - SSO

35 35 Frédéric Davesne - Soutenance de thèse 19 Avril Résultats expérimentaux n Premier essai d apprentissage Politique de commande après apprentissage Optimalité ??? Dans ce cas, oui ! Modélisation - SSO

36 36 Frédéric Davesne - Soutenance de thèse 19 Avril Résultats expérimentaux n Premier essai d apprentissage (suite) Optimalité ??? Dans ce cas, non Mais il ne s agit pas de notre objectif ! 3.1- Modélisation - SSO

37 37 Frédéric Davesne - Soutenance de thèse 19 Avril Résultats expérimentaux n Comportement de l algorithme CbL Phase de propagationPerformance du système explorationexploitation Découverte de la cible Découverte de la cible explorationexploitation 3.1- Modélisation - SSO

38 38 Frédéric Davesne - Soutenance de thèse 19 Avril Résultats expérimentaux On part de cet environnement... n Incrémentalité de CbL Après ajout d une cible...Après ajouts successifs de trois autres cibles et d un obstacle... Découverte des cibles et obstacles Modélisation - SSO

39 39 Frédéric Davesne - Soutenance de thèse 19 Avril Comparaison avec les techniques dAR –modification des Q-values uniquement lorsque une nouvelle transition est découverte –séparation nette entre phase d exploration et phase d exploitation (au moment de la découverte d une cible) –l optimalité est garantie si la phase d exploration est exhaustive avant la découverte d une cible –temps de convergence très inférieur pour CbL –la notion de trace est induite par la propagation qui suit un rétablissement des contraintes internes 3.1- Modélisation - SSO

40 40 Frédéric Davesne - Soutenance de thèse 19 Avril Conclusion n faisabilité de notre démarche intellectuelle n obtention d un algorithme CbL de bonne qualité n très simple à mettre en œuvre, pas de paramètres à régler 3.1- Modélisation - SSO

41 41 Frédéric Davesne - Soutenance de thèse 19 Avril Modélisation SSO état action Signal de renforcement environnement SSP Signaux (hormis renforcement) état étude complète de SSO 3.2- spécification du sous-système SSP

42 42 Frédéric Davesne - Soutenance de thèse 19 Avril Rappel du modèle de SSP Signaux capteurs Mémoire ? (anticipation) Processus de sélection (détecteur) État ? (perception) SSP h pas de temps n En suivant le 4 ème postulat 3.1- Modélisation - SSO

43 43 Frédéric Davesne - Soutenance de thèse 19 Avril Application de notre démarche à SSP 3.1- Modélisation - SSO n Cas d un SSP avec une mémoire à un événement –constitution de la mémoire, condition de détection de l événement –résultats théoriques n Cas d un SSP avec une mémoire contenant un ensemble paramétrisable d éléments –exemple de mémoire –résolution du problème de détection

44 44 Frédéric Davesne - Soutenance de thèse 19 Avril Cas dune mémoire à un événément n Constitution de la mémoire –les paramètres n fonction f continue par morceaux, à valeurs dans [0,1] n trois paramètres l, h et i –événement à détecter n au plus i valeurs du signal X à l extérieur du cylindre cylindre de génératrice f, de section l et de longueur h f Modélisation - SSP

45 45 Frédéric Davesne - Soutenance de thèse 19 Avril Cas dune mémoire à un événément n Résultats théoriques –théorème d existence n pour une probabilité fixée, on montre que sous certaines conditions, il existe des triplets (h,i,l) admissibles. –équivalent du théorème de Shannon sur l échantillonnage n pour un signal fixé et une probabilité donnée, il existe un nombre h de points minimum, en dessous duquel aucun triplet (h,i,l) n est admissible n Extension à une mémoire composée d événements non détectables simultanément Modélisation - SSP

46 46 Frédéric Davesne - Soutenance de thèse 19 Avril Cas où les génératrices sont des fonctions paramétriques Modélisation - SSP n Théorie: nous conjecturons des résultats similaires aux précédents n Sélection = résolution numérique d un problème inverse pour un système de h inéquations –analyse par intervalles –algorithme SIVIA (Walter et Jaulin) n adapté à notre problématique: détection ssi au moins h-i inéquations satisfaites n garantit d encadrer l ensemble des solutions

47 47 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 n Exemple: une génératrice = une droite de paramètres a et b Cas où les génératrices sont des fonctions paramétriques Modélisation - SSP a b Une solution pour un signal sinusoïdal à un instant t

48 48 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 n Évolution de la sélection pour un signal carré et signal de densité gaussienne bi-modale Réponse à un signal carré Réponse à un signal stationnaire de densité gaussienne bi-modale Cas où les génératrices sont des fonctions paramétriques 3.2- Modélisation - SSP 2 états1 état

49 49 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 n Formalisation du respect des contraintes n Étude de la dynamique du système apprenant –interaction entre le système apprenant et son environnement n Déduction des propriétés émergentes potentielles –apprentissage Une méthodologie Un modèle paramétrique à deux niveaux de l apprentissage d actions réflexes apprentissage d objectif (AO) apprentissage perceptif (AP) Des contraintes associées à ce modèle Algorithmes de résolution des problèmes à contraintes Applications de l algorithme d AO problème jouet robot mobile simulé étude a posteriori du comportement du système apprenant Conclusion Élaboration d une base de travail Validation théorique expérimentale

50 50 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Conclusion n Idées fortes –remplacer la mesure par la détection d événements n pour SSO: détection d une nouvelle transition n pour SSP: pour la catégorisation –remplacer la précision par la fiabilité n grâce à l utilisation de contraintes dont on exprime les effets par le calcul

51 51 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Perspectives: première étape n Système perceptif, signal mono-dimensionnel –équilibre de SSP: savoir détecter si les contraintes sont respectées ou non n point de vue théorique (conjectures à démontrer) n point de vue algorithmique –dynamique de SSP: établir le mécanisme d apprentissage perceptif n modification des génératrices de E pour « coller » à l expérience réelle (emploi de réseaux de neurones pour créer des génératrices « adéquates ») n attention !!! Cela doit se faire à entropie bornée

52 52 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Perspectives: deuxième étape n Système perceptif, signal multi-dimensionnel –généralisation à partir de l étude d un SSP n utilisation d un unique capteur déplaçable dans l espace n contrôler les mouvements de ce capteur pour intervenir sur la récupération de données de celui-ci n problème: critère de sélection des actions pour constituer le mouvement n exemple d inspiration: saccades occulaires

53 53 Frédéric Davesne - Soutenance de thèse 19 Avril 2002 Fin de l exposé !


Télécharger ppt "Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions."

Présentations similaires


Annonces Google