Intelligence Artificielle Développementale 1er Avril 2014 Olivier.georgeon@liris.cnrs.fr http://www.oliviergeorgeon.com t oliviergeorgeon.com
Plan Vers de la recherche en robotique. Conclusion du cours. Demos Conclusion du cours. Travaux pratiques Développez votre agent auto-programmant (suite). oliviergeorgeon.com
Recherche en robotique Panoramic camera Ground optic sensor Bumper tactile sensor http://liris.cnrs.fr/simon.gay/index.php?page=eirl&lang=en oliviergeorgeon.com
Expérimentation http://liris.cnrs.fr/simon.gay/index.php?page=eirl&lang=en oliviergeorgeon.com
Conclusion sur l’IA développementale oliviergeorgeon.com
Positionnement dans le cadre de l’IA Symbolique Non symbolique Newell & Simon (1972) goals drive problem solving; (1976) Physical Symbol Systems. oliviergeorgeon.com
IA symbolique “L’environnement” passe des symboles à l’agent en input. C’est comme si les états du monde étaient étiquetés et qu’on passait une étiquette à l’agent. Et qu’on avait codé la sémantique de ses étiquettes sous forme de règles Par exemple: si comestible alors manger Tous les fruits sont commestibles Une pomme est un fruit Donc, si je percois une pomme alors je mange Il ne faut pas confondre symbolique et discret. “L’environnement” passe des symboles à l’agent en input. Nous codons une sémantique des symboles dans l’agent. Nous implémentons un « moteur de raisonnement ». (ne pas confondre symbolique et discret) oliviergeorgeon.com
Positionnement dans le cadre de l’IA « Perception and action arise together, dialectically forming each other » (Clancey, 1992) Apprentissage « désincarnée » Cognition située (Clancey 1992) Apprentissage par enregistrement (Georgeon, 2014) Apprentissage par l’expérience William Clancey (1992) claims that “perception and action arise together, dialectically forming each other” (p.5). En confondant naivement “input” et “perception” (Crowley, 2014) Apprentissage par renforcement. A E Réseaux de neurones. Machine learning. Symbolic Non-symbolic Newell & Simon (1972) goals drive problem solving; (1976) Physical Symbol Systems. oliviergeorgeon.com
Apprentissage « désincarné » 1 2 4 2 4 3 On ne peut toujours pas étudier comment l’agent modèle le monde car on suppose que les observations représentent directement le monde On ne suppose pas qu’une observation correspond à un seul état du monde. Mais on suppose qu’un état du monde correspond à une observation. L’environnement passe des “observations” en input de l’agent. La relation monde -> observation est “statistiquement” une surjection. Nous implémentons des algorithmes qui supposent qu’un état du monde donné induit une observation donnée (bien que partielle et bruitée). oliviergeorgeon.com
Positionnement dans le cadre de l’IA Théories Paradigme de validation Behavioral analysis rather than performance measure Implementations Phenomenology (Dreyfus, 2007) “even more Heideggarian AI” Radical Interactionism, ECA (Georgeon et al., 2013) perception-action inversion (Pfeifer & Scheier, 1994) Horde (Sutton et al., 2011) Théorie des systèmes SMC theory (O’Regan & Noë, 2001) Cognition située (Clancey 1992) “intrinsic motivation” (Oudeyer et al. 2007) Apprentissage par enregistrement (Georgeon, 2014) Apprentissage par l’expérience Apprentissage « désincarnée » William Clancey (1992) claims that “perception and action arise together, dialectically forming each other” (p.5). En confondant naivement “input” et “perception” (Crowley, 2014) Reinforcement Learning. Neural networks. Machine learning. A* etc. Symbolic Non-symbolic Newell & Simon (1972) goals drive problem solving; (1976) Physical Symbol Systems. oliviergeorgeon.com
Cécité au changement http://nivea.psycho.univ-paris5.fr/ oliviergeorgeon.com
Apprentissage par l’expérience Time L’environnement passe le résultat d’une expérience initiée par l’agent. C’est contre-intuitif! Nous implémentons des algorithmes qui apprennent à “maitriser les contingences sensorimotrices” (O’Regan & Noë, 2001). oliviergeorgeon.com
Accepter cette contre-intuitivité Nous avons l’impression que le soleil tourne autour de la terre. Impression est trompeuse ! (Copernic, 1519) Nous avons l’impression de recevoir des données sur l’état du monde. Impression trompeuse! (Philosophie de la connaissance depuis les lumières, au moins). Comment transcrire cette contre-intuitivité dans les algorithmes? oliviergeorgeon.com
Enjeux: cognition sémantique Raisonnement et langage Systèmes à bases de règles, Ontologies, IA traditionnelle. Cognition sémantique Ancrage de la connaissance dans l’expérience, Construction de sens. Auto-programmation. Adaptation stimumuls-response Apprentissage par renforcement, Réseaux de neurones, machine learning classique. oliviergeorgeon.com
Conclusion Raisonner en termes d’interactions Plutôt que de séparer perception et action. Raisonner en termes de comportements générés Plutôt qu’en termes de données apprises. Garder son esprit critique Inventer de nouvelles approches. oliviergeorgeon.com
Inventer de nouvelles approches Problème formalisé « Hard problem of AI » A E A E Etc. oliviergeorgeon.com
Travaux dirigés 4eme partie (suite). Salles TP6 et TP7 Groupes de 2 oliviergeorgeon.com
Environnement 3 modifié Se comporte comme Environnement 0 jusqu’au cycle 5, puis comme environnement 1 jusqu’au cycle 10, puis comme environnement 0 . Implémentation If (step <= 5 or step > 10) If (experiment = e1) then result = r1 If (experiment = e2) then result = r2 Else If (experiment = e1) then result = r2 If (experiment = e2) then result = r1 Step++ oliviergeorgeon.com
Agent 3 dans Environnement 3 0. e1r1,-1,0 1. e1r1,-1,0 learn (e1r1e1r1),-2,1 activated (e1r1e1r1),-2,1 propose e1,-1 2. e2r2,1,0 learn (e1r1e2r2),0,1 3. e2r2,1,0 learn (e2r2e2r2),2,1 activated (e2r2e2r2),2,1 propose e2,1 4. e2r2,1,0 activated (e2r2e2r2),2,2 propose e2,2 5. e2r1,-1,0 learn (e2r2e2r1),0,1 6. e2r1,-1,0 learn (e2r1e2r1),-2,1 activated (e2r1e2r1),-2,1 propose e2,-1 7. e1r2,1,0 learn (e2r1e1r2),0,1 8. e1r2,1,0 learn (e1r2e1r2),2,1 activated (e1r2e1r2),2,1 propose e1,1 9. e1r2,1,0 activated (e1r2e1r2),2,2 propose e1,2 10. e1r1,-1,0 learn (e1r2e1r1),0,1 activated (e1r1e2r2),0,1 activated (e1r1e1r1),-2,1 propose e2,1 propose e1,-1 11. e2r2,1,0 activated (e2r2e2r1),0,1 activated (e2r2e2r2),2,2 12. e2r2,1,0 activated (e2r2e2r2),2,3 propose e2,2 13. e2r2,1,0 oliviergeorgeon.com
Principe de l’Agent 3 … PASSE PRESENT FUTUR AGENT Activé Choisit (it-1,it) (i11,i12) i12 (i11i11) Choisit it-1 it e1 i11 i11 Apprend Propose Execute Active it-4 it-3 it-2 it-1 it = i11 i11 … Temps PASSE PRESENT FUTUR oliviergeorgeon.com
Environnement 4 Retourne résultat r2 uniquement après deux fois la même expérience. e1 -> r1, e1 -> r2, e1 -> r1, e1-> r1, … e1->r1, e2 -> r1, e2->r2, e2 -> r1, …, e2 -> r1, e1 -> r1, e1 -> r2, e2 -> r1, e2 -> r2, e1 -> r1, e1 -> r2, … If (experiencet-2!=experiencet && experiencet-1==experiencet) result = r2; else result = r1; oliviergeorgeon.com
Rapport Agent 1 Agent 2 Agent 3 Conclusion Explications du code Traces dans les environnements 0 et 1 avec différentes motivations. Explications du comportement Agent 2 Traces dans les environnements 0 à 2 avec différentes motivations. Agent 3 Traces dans les environnements 0 et 4 avec différentes motivations. Explications des comportement Conclusion Quelle serait la prochaine étape pour faire l’agent 4 capable de s’adapter aux environnements 1 à 4? oliviergeorgeon.com