Título : Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos
Autor(es) : Delgado, Tomás
Fecha de publicación : 2-may-2023
Tipo de publicación: Trabajo final de grado
Versión: Publicado
Supervisor(es) : Uchitel, Sebastián
Braberman, Víctor
Publicado por: Universidad de Buenos Aires
Areas del conocimiento : Ciencias Naturales y Exactas
Ciencias de la Computación e Información
Ciencias de la Computación
Otros descriptores : Síntesis de controladores
Aprendizaje por refuerzo
Redes neuronales
Resumen : En esta tesis desarrollamos un primer método para aprender una heurística que guíe la exploración a partir de la experiencia. En primer lugar, definimos una tarea de aprendizaje por refuerzo para la cual el agente representa una política de exploración. Luego, mostramos una forma de usar Q-Learning abstrayendo tanto estados como acciones en un conjunto de features. Esta abstracción hace posible el aprendizaje y la generalización, pero genera un alto grado de observabilidad parcial. La evaluación empírica muestra que, a pesar de la falta de garantías teóricas, es posible aprender consistentemente políticas competitivas en las instancias de entrenamiento. Más aún, las políticas inducidas en instancias grandes superan en promedio a la mejor heurística desarrollada por humanos, empujando la frontera de problemas resueltos en algunos de los dominios del benchmark.
URI / Handle: https://hdl.handle.net/20.500.12381/3417
Recursos relacionados en REDI: https://hdl.handle.net/20.500.12381/3418
https://hdl.handle.net/20.500.12381/3419
https://hdl.handle.net/20.500.12381/3420
Financiadores: Agencia Nacional de Promoción de la Investigación, el Desarrollo Tecnológico y la Innovación
Universidad de Buenos Aires
Agencia Nacional de Investigación e Innovación
Identificador ANII: IA_1_2022_1_173516
Nivel de Acceso: Acceso abierto
Licencia CC: Reconocimiento 4.0 Internacional. (CC BY)
Aparece en las colecciones: Publicaciones de ANII

Archivos en este ítem:
archivo Descripción Tamaño Formato  
Tesis Tomas Delgado.pdf1.69 MBAdobe PDFDescargar

Las obras en REDI están protegidas por licencias Creative Commons.
Por más información sobre los términos de esta publicación, visita: Reconocimiento 4.0 Internacional. (CC BY)