Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.rights.licenseReconocimiento 4.0 Internacional. (CC BY)-
dc.contributor.advisorSergio Yovinees
dc.contributor.advisorFranz Mayres
dc.contributor.authorMolinolo, Matíases
dc.date.accessioned2024-10-17T14:53:05Z-
dc.date.available2024-10-17T14:53:05Z-
dc.date.issued2024-11-07-
dc.identifier.urihttps://hdl.handle.net/20.500.12381/3656-
dc.description.abstractEste trabajo explora los patrones de atención y activaciones neuronales dentro de modelos con arquitecturas Transformer, desde un punto de vista de la interpretabilidad mecanística, específicamente en clasificación de secuencias pertenecientes a gramáticas libres de contexto, enfocándose en lenguajes Dyck-k. Se investigó si los Transformers, a través de sus mecanismos de atención, pueden modelar y clasificar efectivamente los lenguajes mencionados anteriormente, que sirven como ejemplo canónico de las gramáticas libres de contexto. El trabajo apunta también al problema más amplio de la entrenabilidad de estos modelos, analizando cómo la arquitectura impacta su capacidad de aprender estructuras recursivas. Al usar Transformers entrenados en secuencias de lenguajes Dyck-k, este trabajo muestra de forma empírica que los patrones de atención que surgen se alinean con las dependencias estructurales dentro de las secuencias. Se encontró que el uso de una máscara bidireccional mejora significativamente la performance del modelo, logrando una precisión perfecta en la tarea de clasificación, mientras que el uso de máscaras causales introdujo limitaciones en la entrenabilidad y generalización. Este trabajo subraya la importancia de los mecanismos de atención en el análisis y reconocimiento de lenguajes jerárquicos, contribuyendo a la discusión acerca de la explicabilidad e interpretabilidad de los modelos neuronales. Un detallado análisis de los resultados experimentales y las matrices de atención provee información acerca del funcionamiento interno de estos modelos, sugiriendo que estas arquitecturas, cuando son entrenadas correctamente, son capaces de capturar las estructuras sintácticas complejas de los lenguajes libres de contexto sin la necesidad de recursión. Un resultado clave de esta investigación es el desarrollo de la librería transformer-checker, una herramienta diseñada para facilitar el entrenamiento, evaluación y visualización de Transformers en tareas de lenguajes formales. La herramienta integra un módulo de explicabilidad para visualizar las matrices de atención. El código es de acceso público.es
dc.description.sponsorshipANIIes
dc.language.isoenges
dc.publisherUniversidad ORT Uruguayes
dc.rightsAcceso abierto*
dc.subjectInteligencia Artificiales
dc.subjectInterpretabilidades
dc.subjectAtenciónes
dc.subjectTransformeres
dc.titleExploring Attention Patterns and Neural Activations in Transformer Architectures for Sequence Classification in Context Free Grammarses
dc.typeTrabajo final de gradoes
dc.subject.aniiCiencias Naturales y Exactas
dc.subject.aniiCiencias de la Computación e Información
dc.identifier.aniiIA_1_2022_1_173516es
dc.identifier.aniiFMV_1_2023_1_175864es
dc.type.versionEnviadoes
dc.anii.subjectcompleto//Ciencias Naturales y Exactas/Ciencias de la Computación e Información/Ciencias de la Computación e Informaciónes
Aparece en las colecciones: Publicaciones de ANII

Archivos en este ítem:
archivo  Descripción Tamaño Formato
transformer_checker.pdfDescargar 3.32 MBAdobe PDF

Las obras en REDI están protegidas por licencias Creative Commons.
Por más información sobre los términos de esta publicación, visita: Reconocimiento 4.0 Internacional. (CC BY)