4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes.

Slides:



Advertisements
Présentations similaires
LA CONSTITUTION DE L’EQUIPE
Advertisements

Application aux constellations de satellites
Fabrice Lauri, François Charpillet, Daniel Szer
Page 1 GE21 – Des approches linéaires Linnovation comme séquence linéaire déterminée – Intro et Techno-pushDate : 21/10/03 - bis Introduction : -Les références.
Rencontre Math-Industrie Voile et innovation mathématique
Technique des Surfels Surfels: Surface Elements as Rendering Primitives SIGGRAPH 2000 H.Pfiste, J.van Baar, M.Zwicker, M.Gross.
Modélisation de l’hydrodynamique du plateau atlantique
Mesures dans le domaine fréquentiel
Lautomatisation dans lindustrie manufacturière Comment lingénieur peut-il jouer un rôle déterminant pour augmenter la productivité ? Jocelyn Bouchard.
Paris F-RO /1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin.
Application de réseaux bayésiens à la détection de fumées polluantes
A Pyramid Approach to Subpixel Registration Based on Intensity
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Les démarches de développement
Les démarches de développement
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
Laboratoire d’Interaction Collaborative, Téléformation, Téléactivités
Génération de coupes pour la planification d’agents
Sylvain Mondon Météo-France
Application à la méthode des
Sélection automatique d’index et de vues matérialisées
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
S.T.S. S.I.O. 1ère année La gestion de projets
Concepts avancés en mathématiques et informatique appliquées
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Evaluation des actions (2)
CHALLENGE ROADEF 2001 Résolution par une métaheuristique à base de recherche à voisinage variable et propagation par contraintes Fabrice BUSCAYLET Fabrice.
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
28/04/2003 ©PEPITe S.A.
Plan de l’exposé Présentation de l’équipe Présentation du stage
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Les fichiers indexés (Les B-arbres)
Simulation d’écoulements discontinus 1D en volumes finis
Les réseaux de neurones
Le projet ASCOBIO: Assimilation de données in-situ et de couleur de l’océan dans le modèle de biogéochimie marine PISCES Thèse de Abdou Kane Direction: Cyril.
Deux méthodes incrémentales pour le maintien dun arbre de connexion Nicolas Thibault Christian Laforest
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Sylvain Daudé DEA ATIAM
Partie 2 : programmation stochastique
10 février 2006GDR ISIS Journée Localisation et Navigation Projet EGNOS-BUS (Eurêka) André Monin, Wael Suleiman LAAS-CNRS.
Amélioration de la simulation stochastique
Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Le 18 octobre 2006 Conférence annuelle de l’ADARUQ Québec, Québec Regard sur les résultats Évaluation des résultats des activités de.
Arbres binaires et tables de hachage
Foued Mnasri Weal Rekik
Intelligence Artificielle
Exploration systématique de graphes
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Recherches locales et méta-heuristiques
Équilibre de satisfaction
Trajectory Tree [1] Patrick Cinq-Mars. © Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William.
Parcours « Systèmes & Automatique »
Les démarches de développement
UAS TENNIS REUNION D’INFORMATIONS
pour une géométrie 3D par la méthode des volumes finis
1 Prédiction de mobilité basée sur la classification selon le profil DAOUI Mehammed Université Mouloud Mammeri Tizi-Ouzou Rencontres sur.
Ajouts et retraits dans un arbre de connexion Nicolas Thibault et Christian Laforest, Équipe OPAL Laboratoire IBISC (regroupement LaMI et LSC), Évry 8.
GIS GC HP2E - Séminaire « Gestion quantitative de l'eau » - 14 juin 2010 Comment maîtriser la qualité de l'apport d'eau en irrigation par aspersion ? Le.
1 Logiciels de confection automatique d’horaires.
Le Jeu et l’intelligence artificielle
Extreemly Random Trees + SubWindows HOURRI Soufiane NAIT ABDELLAH OUALI Ismail OUFQIR Anouar OUSSAFI Mohammed.
Localisation collaborative dans les réseaux de capteurs
Boost Industrie 2014 Témoignage industriel filière Nucléaire 2/12/2014.
GdR MoMaS Novembre 2003 Conditions d’interface optimales algébriques pour la vibro-élasticité. François-Xavier Roux (ONERA) Laurent Sériès (ONERA) Yacine.
Département fédéral de l‘économie DFE Secrétariat d’Etat à l’économie SECO Alléger la charge administrative des entreprises Travaux en cours Exposé d’Aymo.
Compilation & Apprentissage dans les Réseaux de Contraintes Hervé Cros Directeurs :Frédéric Koriche Joël Quinqueton.
MOMAS - DS/SR - GO © GDR MOMAS 16 & 17 janvier Lyon Réunion de lancement du GDR MOMAS La modélisation et la simulation pour les études du stockage.
1 UE Intro. Optimisation L3 INFO UPSud II. Programmation linéaire en variables entières (ou mixtes)
Transcription de la présentation:

4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes Mathématiques et Informatiques pour la Décision

Temps off-line, temps on-line n n Temps off-line : temps simulé, phase d ’apprentissage n n Temps on-line : temps réel, phase d ’exploitation En IA, dans les problèmes de décision séquentielle, on distingue : Ex. Programmes de jeux d ’échecs : off-line : des heures, des jours...par exemple pour ajuster les poids w d’une fonction d’évaluation V (s,w) définie sur tout l’espace d’états on-line : recherche locale depuis un état courant sur un certain horizon H pour améliorer la décision déduite de V ~ ~

Résolution en ligne pour les PDMs de grande taille : développement d’un arbre stochastique par simulation n Approximation par sampling : n Pour chaque état rencontré en ligne, on développe un arbre sur un horizon H dont les feuilles sont évaluées par V s,as’, r(s,a) simulateur ~

Fondements théoriques : l’algorithme de Kearns et al. ( ) r(s 0,a 2 ) s0s0 s 21 s 22 s 23 a2a2 a1a1 r(s 0,a 1 ) s 12 s 13 s 11 a1a1 a2a2 s 111 s 113 s 112 s 121 s 123 s 122 V(s 112 ) V(s 111 ) V(s 113 ) V(s 122 ) V(s 121 ) V(s 123 ) Résultat théorique de Kearns : sinon V(s) si H=0 ~ … … … … H ~ ~ ~ ~ ~ ~

Pathologie de la recherche Quand on augmente l’horizon H avec une largeur fixée C, deux phénomènes sont en compétition: Borne sur l’erreur |V H,C (s) - V*(s)| en fonction de H et C visibilité accrue amplification du bruit dû au sampling Finalement, plus la recherche est profonde, plus la décision déduite de l’arbre est mauvaise !

Quelles stratégies de contrôle pour le développement de l’arbre ? Question : sur quels nœuds simuler des transitions supplémentaires ? s0s0 s 21 a2a2 a1a1 s 11 a1a1 s 111 s 113 s 112 V(s 112 ) s 12 s 113 s 112 a2a2 V(s 12 ) V(s 21 ) s 22 V(s 22 ) ~ ~ V(s 111 ) V(s 113 ) V(s 112 ) V(s 131 ) ~ ~ ~ ~ ~ ~

Une approche par trajectoires s0s0 a1a1 s 11 a2a2 s 21 Contrôle local : politiques d’exploration utilisées en apprentissage par renforcement (Boltzmann, recency-based...). Objectif : bon compromis exploration/exploitation Contrôle global : contrôle de l’horizon H. Evaluation de l’erreur globale. Objectif : éviter les phénomènes pathologiques Favoriser les noeuds : a1a1 s 111 V(s 111 ) ~ a2a2 s 112 V(s 112 ) ~ a1a1 s 211 V(s 211 ) ~ s 12 n proches de la racine n de bonne qualité n à forte incertitude

Navigation sur un plan d’eau (R. Vanderbei, 1996, univ. de Princeton) n Problème : traverser un plan d’eau le plus vite possible n Source d’aléa : fluctuations du vent n On génère V en bruitant V * (bruit uniforme) PDM de complexité moyenne (6400 états, 8 actions) ~

Pathologie de la recherche

» des politiques pour différentes stratégies de développement de l’arbre Profil « anytime » des politiques pour différentes stratégies de développement de l’arbre

Conclusions et perspectives n n Approche en ligne peu exploitée dans le cadre PDM n n Tests d’autres stratégies de contrôle adaptées d’algorithmes de recherche avec modèle (LAO*) n Application à la maintenance optimale d’une constellation de satellites : PDM très complexe (~10 80 états). Amélioration de 2% de la meilleure politique optimisée hors ligne par recherche en ligne.