Plan d’expérience dynamique pour la maximisation Aspect théorique Mise en œuvre expérimentale Choix de l’algorithme ? Choix de la fonction ? Présence ou absence de bruit ? Choix du paramètre ?
Aspect théorique f est très coûteuse à évaluer f est supposée régulière, lisse Optimisation stochastique : Donc :
La borne du regret cumulé dépend de la rapidité d’obtention du gain d’information. Mathématiquement T Etablit une nouvelle connexion entre GP-UCB et ED
GP-UCB Partie théorique: Partie expérimentale: Description du modèle Gain d’information et Experimental Design Algorithme GP-UCB Partie expérimentale: Comparaison avec GP- UCB et ED Influence de plusieurs maxima Hypothése de régularité Influence du bruit Exemple en dimension 2
Aspect théorique Calcul de la moyenne, de la covariance et de la variance Où et et
Aspect théorique Objectif : Trouver le maximum de f en l’évaluant le minimum de fois Ce que l’on sait faire : Pour chaque x, calculer simplement et Stratégie : Choisir soigneusement (grâce à une borne de confiance) le prochain x à évaluer EXPLORATION EXPLOITATION
Aspect théorique x1 x2 x3 Le prochain x que l’on évaluera sera donc
Aspect théorique Algorithme Initialisation : On dispose du GP Prior, selon lequel f est supposée être échantillonnée, et des valeurs aux bords f(0) et f(1). Itérations : Tant que l’on est trop loin du maximum théorique, on calcule (soit par ED soit par GB-UCB) puis puis et ED GP-UCB
Aspect théorique Mais comment choisir ? cf. Théorème 1 de Gaussian Process Optimization in the Bandit Setting: No Regret and Experimental Design Soit et alors le regret cumulé est en
GP - Upper Confidence Bound Expérimentations Lequel des 2 algorithmes choisir ? GP-UCB T = 44 T = 8 Experimental Design (ED) GP - Upper Confidence Bound (GP-UCB)
Expérimentations Quelle « régularité » pour f ? (avec GP-UCB) Fonction trop irrégulière : Ne converge pas !
Expérimentations Influence d’un bruit additif gaussien ? Plus d’évaluations Moins de précision
Expérimentations Choix de et influence de cette constante sur le nombre d’itérations T : / n ? Nombre d’évaluations de f en fonction de n
CONCLUSION Intérêt : obtention du maximum Limites : Rapidement Précisément Limites : L’hypothèse fonction « régulière » est indispensable. On n’a pas une idée « globale » de la fonction.