Un Enfoque Jerárquico Bi-capa de Optimización Bayesiana de Hiper-parámetros en Aprendizaje por Refuerzos
DOI:
https://doi.org/10.33414/ajea.5.744.2020Palabras clave:
aprendizaje por refuerzos, optimización de hiper-parámetros, optimización Bayesiana, optimización Bayesiana de estructuras combinatorialesResumen
La optimización de hiper-parámetros en algoritmos de aprendizaje por refuerzos (RL) es una tarea clave, porque los mismos determinan cómo el agente aprenderá su política interactuando con su ambiente, y por lo tanto cómo los datos son recolectados. Se aquí un enfoque que aplica optimización Bayesiana para realizar una optimización de dos pasos: en primer lugar, los hiper-parámetros categóricos de RL son tomados como variables binarias y optimizados con una función de adquisición acorde. Luego, a un menor nivel de abstracción, se optimizan los hiper-parámetros directamente relacionados con la solución del problema con la función de adquisición de mejora esperada, usando los mejores hiper-parámetros categóricos encontrados en el nivel de abstracción superior. Este enfoque bi-capa es validado en tareas de control clásicas, arrojando resultados promisorios que abren camino a aplicaciones de RL independientes de usuario.