Título : Comment briser le plafond de verre de la reconnaissance automatique de texte imprimé
Autor(es) : Belzarena, Diego
Fecha de publicación : 30-sep-2025
Tipo de publicación: Tesis de maestría
Versión: Revisado
Supervisor(es) : Randall, Gregory
Morel, Jean-Michel
Mowlavi, Seginus
Facciolo, Gabriele
Publicado por: École normale supérieure Paris-Saclay
Areas del conocimiento : Ciencias Naturales y Exactas
Matemáticas
Matemática Aplicada
Ingeniería y Tecnología
Ingeniería Eléctrica, Ingeniería Electrónica e Ingeniería de la Información
Ciencias Sociales
Comunicación y Medios
Bibliotecología
Otros descriptores : Optical character recognition
Automatic Printed Text Recognition
Gaussian mixture models
Digital bibliography
Resumen : Automatic Printed Text Recognition (APTR) is widely, but wrongly, considered a well-established digitization technology. This can be summarized in three figures: of the 129 million distinct printed books in libraries, 12 million have been scanned and only 5 million have been digitized, that is, translated into basic text. Scaling up digitization often requires automatic systems with error rates below 0.1%. Alternatively, any APTR algorithm used should be able to reliably estimate its error probability, to allow for down-stream corrections. Current printed text recognition systems do not take into account the redundancy of character forms within a single document. The goal of this internship was to take advantage of said redundancy in order to develop document-specific font models, which could eventually be combined with stochastic language models, and thus unlock scalability without compromising reliability. Even more, seeing the capabilities of the algorithm we developed to extract document-specific character prototypes, we proposed to use them to serve an alternative application: printer identification of 17th century Spanish theater plays. Doing so, we developed a method which showcased potential to enable digital bibliography at a larger scale than possible up to now.
URI / Handle: https://hdl.handle.net/20.500.12381/5447
Financiadores: Agencia Nacional de Investigación e Innovación
Identificador ANII: POS_EXT_2023_2_180123
Nivel de Acceso: Acceso abierto
Licencia CC: Reconocimiento-CompartirIgual 4.0 Internacional. (CC BY-SA)
Aparece en las colecciones: Publicaciones de ANII

Archivos en este ítem:
archivo  Descripción Tamaño Formato
Rapport_de_stage__Diego_Belzarena.pdfDescargar 16.53 MBAdobe PDF

Las obras en REDI están protegidas por licencias Creative Commons.
Por más información sobre los términos de esta publicación, visita: Reconocimiento-CompartirIgual 4.0 Internacional. (CC BY-SA)