Título : A labeled medical records corpus for the timely detection of rare diseases using machine learning approaches
Autor(es) : Rolando, Matías
Raggio, Victor
Naya, Hugo
Cagnina, Leticia
Spangenberg, Lucía
Fecha de publicación : feb-2025
Tipo de publicación: Artículo
Versión: Publicado
Publicado por: Nature Portfolio
Publicado en: Scientific Reports
Areas del conocimiento : Ciencias Naturales y Exactas
Ciencias de la Computación e Información
Ciencias de la Información y Bioinformática
Otros descriptores : aprendizaje automático
historias clínicas
Resumen : Rare diseases (RDs) are a group of pathologies that individually affect less than 1 in 2000 people but collectively impact around 7% of the world's population. Most of them affect children, are chronic and progressive, and have no specific treatment. RD patients face diagnostic challenges, with an average diagnosis time of 5 years, multiple specialist visits, and invasive procedures. This 'diagnostic odyssey' can be detrimental to their health. Machine learning (ML) has the potential to improve healthcare by providing more personalized and accurate patient management, diagnoses, and in some cases, treatments. Leveraging the MIMIC-III database and additional medical notes from different sources such as in-house data, PubMed and chatGPT, we propose a labeled dataset for early RD detection in hospital settings. Applying various supervised ML methods, including logistic regression, decision trees, support vector machine (SVM), deep learning methods (LSTM and CNN), and Transformers (BERT), we validated the use of the proposed resource, achieving 92.7% F-measure and a 96% AUC using SVM. These findings highlight the potential of ML in redirecting RD patients towards more accurate diagnostic pathways and presents a corpus that can be used for future development and refinements.
URI / Handle: https://hdl.handle.net/20.500.12381/4061
DOI: 10.1038/s41598-025-90450-0
Institución responsable del proyecto: Institut Pasteur de Montevideo
Financiadores: Agencia Nacional de Investigación e Innovación
Identificador ANII: FSS_X_2022_1_173209
Nivel de Acceso: Acceso abierto
Licencia CC: Reconocimiento 4.0 Internacional. (CC BY)
Aparece en las colecciones: Institut Pasteur de Montevideo

Archivos en este ítem:
archivo  Descripción Tamaño Formato
41598_2025_Article_90450.pdfDescargar articulo1.5 MBAdobe PDF

Las obras en REDI están protegidas por licencias Creative Commons.
Por más información sobre los términos de esta publicación, visita: Reconocimiento 4.0 Internacional. (CC BY)