Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.rights.license | Reconocimiento 4.0 Internacional. (CC BY) | - |
dc.contributor.advisor | Sergio Yovine | es |
dc.contributor.advisor | Franz Mayr | es |
dc.contributor.author | Molinolo, Matías | es |
dc.date.accessioned | 2024-10-17T14:53:05Z | - |
dc.date.available | 2024-10-17T14:53:05Z | - |
dc.date.issued | 2024-11-07 | - |
dc.identifier.uri | https://hdl.handle.net/20.500.12381/3656 | - |
dc.description.abstract | Este trabajo explora los patrones de atención y activaciones neuronales dentro de modelos con arquitecturas Transformer, desde un punto de vista de la interpretabilidad mecanística, específicamente en clasificación de secuencias pertenecientes a gramáticas libres de contexto, enfocándose en lenguajes Dyck-k. Se investigó si los Transformers, a través de sus mecanismos de atención, pueden modelar y clasificar efectivamente los lenguajes mencionados anteriormente, que sirven como ejemplo canónico de las gramáticas libres de contexto. El trabajo apunta también al problema más amplio de la entrenabilidad de estos modelos, analizando cómo la arquitectura impacta su capacidad de aprender estructuras recursivas. Al usar Transformers entrenados en secuencias de lenguajes Dyck-k, este trabajo muestra de forma empírica que los patrones de atención que surgen se alinean con las dependencias estructurales dentro de las secuencias. Se encontró que el uso de una máscara bidireccional mejora significativamente la performance del modelo, logrando una precisión perfecta en la tarea de clasificación, mientras que el uso de máscaras causales introdujo limitaciones en la entrenabilidad y generalización. Este trabajo subraya la importancia de los mecanismos de atención en el análisis y reconocimiento de lenguajes jerárquicos, contribuyendo a la discusión acerca de la explicabilidad e interpretabilidad de los modelos neuronales. Un detallado análisis de los resultados experimentales y las matrices de atención provee información acerca del funcionamiento interno de estos modelos, sugiriendo que estas arquitecturas, cuando son entrenadas correctamente, son capaces de capturar las estructuras sintácticas complejas de los lenguajes libres de contexto sin la necesidad de recursión. Un resultado clave de esta investigación es el desarrollo de la librería transformer-checker, una herramienta diseñada para facilitar el entrenamiento, evaluación y visualización de Transformers en tareas de lenguajes formales. La herramienta integra un módulo de explicabilidad para visualizar las matrices de atención. El código es de acceso público. | es |
dc.description.sponsorship | ANII | es |
dc.language.iso | eng | es |
dc.publisher | Universidad ORT Uruguay | es |
dc.rights | Acceso abierto | * |
dc.subject | Inteligencia Artificial | es |
dc.subject | Interpretabilidad | es |
dc.subject | Atención | es |
dc.subject | Transformer | es |
dc.title | Exploring Attention Patterns and Neural Activations in Transformer Architectures for Sequence Classification in Context Free Grammars | es |
dc.type | Trabajo final de grado | es |
dc.subject.anii | Ciencias Naturales y Exactas | |
dc.subject.anii | Ciencias de la Computación e Información | |
dc.identifier.anii | IA_1_2022_1_173516 | es |
dc.identifier.anii | FMV_1_2023_1_175864 | es |
dc.type.version | Enviado | es |
dc.anii.subjectcompleto | //Ciencias Naturales y Exactas/Ciencias de la Computación e Información/Ciencias de la Computación e Información | es |
Aparece en las colecciones: | Publicaciones de ANII |
Archivos en este ítem:
archivo | Descripción | Tamaño | Formato | ||
---|---|---|---|---|---|
transformer_checker.pdf | Descargar | 3.32 MB | Adobe PDF |
Las obras en REDI están protegidas por licencias Creative Commons.
Por más información sobre los términos de esta publicación, visita:
Reconocimiento 4.0 Internacional. (CC BY)