Título : Lossless Compression of Nanopore Sequencing Raw Signals
Autor(es) : Castelli, Rafael
González, Tomás
Torrado, Rodrigo
Martín, Álvaro
Dufort y Álvarez, Guillermo
Fecha de publicación : 23-ago-2024
Tipo de publicación: Documento de conferencia
Versión: Publicado
Publicado en: 11th International Conference, IWBBIO 2024, Meloneras, Gran Canaria, Spain, July 15–17, 2024
Areas del conocimiento : Ciencias Naturales y Exactas
Ciencias de la Computación e Información
Ciencias de la Información y Bioinformática
Otros descriptores : Secuenciación por nanoporos
Compresión de datos
Señales crudas de nanorporos
Secuenciación de ADN
Resumen : Nanopore sequencing has emerged as a crucial component in the arsenal of genomic technologies, with advances from Oxford Nanopore Technologies (ONT) progressively reducing the costs of DNA sequencing. An ONT nanopore sequencer operates by guiding DNA fragments through a nanopore, partially blocking a flow of electrical current, which is sampled over time. This variation in current is registered as a raw signal, and it allows for the translation of electrical signals into a DNA sequence, a process known as basecalling. As the available algorithms for basecalling continually evolve, it is preferable to retain the raw signal data for future re-analysis. However, the volumes of raw data are massive, being nearly ten times larger than the size of data after basecalling in FASTQ format. Therefore, efficient lossless compression algorithms for raw signals are needed to reduce storage and transmission costs. While recent research has focused on studying nanopore FASTQ data, a thorough study of the methods used in practice for the compression of raw data, such as the state-of-the-art compression algorithm VBZ, is still missing in the scientific literature. In this sense, in this work, we aim to elucidate the mechanisms behind the efficiency of VBZ and introduce a set of variations that further improve its compression performance. Our findings indicate that we can enhance the performance of VBZ by an average of 2.42%, with gains increasing to 3.02% for the latest nanopore flowcells (10.x), using comparable computational resources.
URI / Handle: https://hdl.handle.net/20.500.12381/3931
Recursos relacionados en REDI: https://hdl.handle.net/20.500.12381/3930
DOI: https://doi.org/10.1007/978-3-031-64629-4_10
Institución responsable del proyecto: Universidad de la República
Financiadores: Agencia Nacional de Investigación e Innovación
Identificador ANII: FMV_3_2022_1_172797
Nivel de Acceso: Acceso abierto
Licencia CC: Reconocimiento 4.0 Internacional. (CC BY)
Aparece en las colecciones: Publicaciones de ANII

Archivos en este ítem:
archivo  Descripción Tamaño Formato
Nanopore_IWBBIO-13.pdfDescargar 578.24 kBAdobe PDF

Las obras en REDI están protegidas por licencias Creative Commons.
Por más información sobre los términos de esta publicación, visita: Reconocimiento 4.0 Internacional. (CC BY)