Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos

Delgado, Tomás

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.rights.license	Reconocimiento 4.0 Internacional. (CC BY)	-
dc.contributor.advisor	Uchitel, Sebastián	es
dc.contributor.advisor	Braberman, Víctor	es
dc.contributor.author	Delgado, Tomás	es
dc.date.accessioned	2024-02-16T12:54:28Z	-
dc.date.available	2024-02-16T12:54:28Z	-
dc.date.issued	2023-05-02	-
dc.identifier.uri	https://hdl.handle.net/20.500.12381/3417	-
dc.description.abstract	En esta tesis desarrollamos un primer método para aprender una heurística que guíe la exploración a partir de la experiencia. En primer lugar, definimos una tarea de aprendizaje por refuerzo para la cual el agente representa una política de exploración. Luego, mostramos una forma de usar Q-Learning abstrayendo tanto estados como acciones en un conjunto de features. Esta abstracción hace posible el aprendizaje y la generalización, pero genera un alto grado de observabilidad parcial. La evaluación empírica muestra que, a pesar de la falta de garantías teóricas, es posible aprender consistentemente políticas competitivas en las instancias de entrenamiento. Más aún, las políticas inducidas en instancias grandes superan en promedio a la mejor heurística desarrollada por humanos, empujando la frontera de problemas resueltos en algunos de los dominios del benchmark.	es
dc.description.sponsorship	Agencia Nacional de Promoción de la Investigación, el Desarrollo Tecnológico y la Innovación	es
dc.description.sponsorship	Universidad de Buenos Aires	es
dc.description.sponsorship	Agencia Nacional de Investigación e Innovación	es
dc.language.iso	spa	es
dc.publisher	Universidad de Buenos Aires	es
dc.relation.uri	https://hdl.handle.net/20.500.12381/3418	-
dc.relation.uri	https://hdl.handle.net/20.500.12381/3419	-
dc.relation.uri	https://hdl.handle.net/20.500.12381/3420	-
dc.rights	Acceso abierto	*
dc.subject	Síntesis de controladores	es
dc.subject	Aprendizaje por refuerzo	es
dc.subject	Redes neuronales	es
dc.title	Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos	es
dc.type	Trabajo final de grado	es
dc.subject.anii	Ciencias Naturales y Exactas	-
dc.subject.anii	Ciencias de la Computación e Información	-
dc.subject.anii	Ciencias de la Computación	-
dc.identifier.anii	IA_1_2022_1_173516	es
dc.type.version	Publicado	es
dc.anii.subjectcompleto	//Ciencias Naturales y Exactas/Ciencias de la Computación e Información/Ciencias de la Computación	es
Aparece en las colecciones:	Publicaciones de ANII

Archivos en este ítem:

archivo		Descripción	Tamaño	Formato
Tesis Tomas Delgado.pdf	Descargar		1.69 MB	Adobe PDF

Las obras en REDI están protegidas por licencias Creative Commons.
Por más información sobre los términos de esta publicación, visita: Reconocimiento 4.0 Internacional. (CC BY)

Mostrar el registro sencillo del ítem