Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.rights.license | Reconocimiento 4.0 Internacional. (CC BY) | - |
dc.contributor.advisor | Uchitel, Sebastián | es |
dc.contributor.advisor | Braberman, Víctor | es |
dc.contributor.author | Delgado, Tomás | es |
dc.date.accessioned | 2024-02-16T12:54:28Z | - |
dc.date.available | 2024-02-16T12:54:28Z | - |
dc.date.issued | 2023-05-02 | - |
dc.identifier.uri | https://hdl.handle.net/20.500.12381/3417 | - |
dc.description.abstract | En esta tesis desarrollamos un primer método para aprender una heurística que guíe la exploración a partir de la experiencia. En primer lugar, definimos una tarea de aprendizaje por refuerzo para la cual el agente representa una política de exploración. Luego, mostramos una forma de usar Q-Learning abstrayendo tanto estados como acciones en un conjunto de features. Esta abstracción hace posible el aprendizaje y la generalización, pero genera un alto grado de observabilidad parcial. La evaluación empírica muestra que, a pesar de la falta de garantías teóricas, es posible aprender consistentemente políticas competitivas en las instancias de entrenamiento. Más aún, las políticas inducidas en instancias grandes superan en promedio a la mejor heurística desarrollada por humanos, empujando la frontera de problemas resueltos en algunos de los dominios del benchmark. | es |
dc.description.sponsorship | Agencia Nacional de Promoción de la Investigación, el Desarrollo Tecnológico y la Innovación | es |
dc.description.sponsorship | Universidad de Buenos Aires | es |
dc.description.sponsorship | Agencia Nacional de Investigación e Innovación | es |
dc.language.iso | spa | es |
dc.publisher | Universidad de Buenos Aires | es |
dc.relation.uri | https://hdl.handle.net/20.500.12381/3418 | - |
dc.relation.uri | https://hdl.handle.net/20.500.12381/3419 | - |
dc.relation.uri | https://hdl.handle.net/20.500.12381/3420 | - |
dc.rights | Acceso abierto | * |
dc.subject | Síntesis de controladores | es |
dc.subject | Aprendizaje por refuerzo | es |
dc.subject | Redes neuronales | es |
dc.title | Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos | es |
dc.type | Trabajo final de grado | es |
dc.subject.anii | Ciencias Naturales y Exactas | - |
dc.subject.anii | Ciencias de la Computación e Información | - |
dc.subject.anii | Ciencias de la Computación | - |
dc.identifier.anii | IA_1_2022_1_173516 | es |
dc.type.version | Publicado | es |
dc.anii.subjectcompleto | //Ciencias Naturales y Exactas/Ciencias de la Computación e Información/Ciencias de la Computación | es |
Aparece en las colecciones: | Publicaciones de ANII |
Archivos en este ítem:
archivo | Descripción | Tamaño | Formato | ||
---|---|---|---|---|---|
Tesis Tomas Delgado.pdf | Descargar | 1.69 MB | Adobe PDF |
Las obras en REDI están protegidas por licencias Creative Commons.
Por más información sobre los términos de esta publicación, visita:
Reconocimiento 4.0 Internacional. (CC BY)