Título : | Exploring Attention Patterns and Neural Activations in Transformer Architectures for Sequence Classification in Context Free Grammars |
Autor(es) : | Molinolo, Matías |
Fecha de publicación : | 7-nov-2024 |
Tipo de publicación: | Trabajo final de grado |
Versión: | Enviado |
Supervisor(es) : | Sergio Yovine Franz Mayr |
Publicado por: | Universidad ORT Uruguay |
Areas del conocimiento : | Ciencias Naturales y Exactas Ciencias de la Computación e Información |
Otros descriptores : | Inteligencia Artificial Interpretabilidad Atención Transformer |
Resumen : | Este trabajo explora los patrones de atención y activaciones neuronales dentro de modelos con arquitecturas Transformer, desde un punto de vista de la interpretabilidad mecanística, específicamente en clasificación de secuencias pertenecientes a gramáticas libres de contexto, enfocándose en lenguajes Dyck-k. Se investigó si los Transformers, a través de sus mecanismos de atención, pueden modelar y clasificar efectivamente los lenguajes mencionados anteriormente, que sirven como ejemplo canónico de las gramáticas libres de contexto. El trabajo apunta también al problema más amplio de la entrenabilidad de estos modelos, analizando cómo la arquitectura impacta su capacidad de aprender estructuras recursivas. Al usar Transformers entrenados en secuencias de lenguajes Dyck-k, este trabajo muestra de forma empírica que los patrones de atención que surgen se alinean con las dependencias estructurales dentro de las secuencias. Se encontró que el uso de una máscara bidireccional mejora significativamente la performance del modelo, logrando una precisión perfecta en la tarea de clasificación, mientras que el uso de máscaras causales introdujo limitaciones en la entrenabilidad y generalización. Este trabajo subraya la importancia de los mecanismos de atención en el análisis y reconocimiento de lenguajes jerárquicos, contribuyendo a la discusión acerca de la explicabilidad e interpretabilidad de los modelos neuronales. Un detallado análisis de los resultados experimentales y las matrices de atención provee información acerca del funcionamiento interno de estos modelos, sugiriendo que estas arquitecturas, cuando son entrenadas correctamente, son capaces de capturar las estructuras sintácticas complejas de los lenguajes libres de contexto sin la necesidad de recursión. Un resultado clave de esta investigación es el desarrollo de la librería transformer-checker, una herramienta diseñada para facilitar el entrenamiento, evaluación y visualización de Transformers en tareas de lenguajes formales. La herramienta integra un módulo de explicabilidad para visualizar las matrices de atención. El código es de acceso público. |
URI / Handle: | https://hdl.handle.net/20.500.12381/3656 |
Financiadores: | ANII |
Identificador ANII: | IA_1_2022_1_173516 FMV_1_2023_1_175864 |
Nivel de Acceso: | Acceso abierto |
Licencia CC: | Reconocimiento 4.0 Internacional. (CC BY) |
Aparece en las colecciones: | Publicaciones de ANII |
Archivos en este ítem:
archivo | Descripción | Tamaño | Formato | ||
---|---|---|---|---|---|
transformer_checker.pdf | Descargar | 3.32 MB | Adobe PDF |
Las obras en REDI están protegidas por licencias Creative Commons.
Por más información sobre los términos de esta publicación, visita:
Reconocimiento 4.0 Internacional. (CC BY)