Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.rights.licenseReconocimiento-CompartirIgual 4.0 Internacional. (CC BY-SA)-
dc.contributor.advisorRandall, Gregoryes
dc.contributor.advisorMorel, Jean-Micheles
dc.contributor.advisorMowlavi, Seginuses
dc.contributor.advisorFacciolo, Gabrielees
dc.contributor.authorBelzarena, Diegoes
dc.date.accessioned2026-02-23T17:57:41Z-
dc.date.available2026-02-23T17:57:41Z-
dc.date.issued2025-09-30-
dc.identifier.urihttps://hdl.handle.net/20.500.12381/5447-
dc.description.abstractAutomatic Printed Text Recognition (APTR) is widely, but wrongly, considered a well-established digitization technology. This can be summarized in three figures: of the 129 million distinct printed books in libraries, 12 million have been scanned and only 5 million have been digitized, that is, translated into basic text. Scaling up digitization often requires automatic systems with error rates below 0.1%. Alternatively, any APTR algorithm used should be able to reliably estimate its error probability, to allow for down-stream corrections. Current printed text recognition systems do not take into account the redundancy of character forms within a single document. The goal of this internship was to take advantage of said redundancy in order to develop document-specific font models, which could eventually be combined with stochastic language models, and thus unlock scalability without compromising reliability. Even more, seeing the capabilities of the algorithm we developed to extract document-specific character prototypes, we proposed to use them to serve an alternative application: printer identification of 17th century Spanish theater plays. Doing so, we developed a method which showcased potential to enable digital bibliography at a larger scale than possible up to now.es
dc.description.sponsorshipAgencia Nacional de Investigación e Innovaciónes
dc.language.isoenges
dc.publisherÉcole normale supérieure Paris-Saclayes
dc.rightsAcceso abierto*
dc.subjectOptical character recognitiones
dc.subjectAutomatic Printed Text Recognitiones
dc.subjectGaussian mixture modelses
dc.subjectDigital bibliographyes
dc.titleComment briser le plafond de verre de la reconnaissance automatique de texte imprimées
dc.typeTesis de maestríaes
dc.subject.aniiCiencias Naturales y Exactas
dc.subject.aniiMatemáticas
dc.subject.aniiMatemática Aplicada
dc.subject.aniiIngeniería y Tecnología
dc.subject.aniiIngeniería Eléctrica, Ingeniería Electrónica e Ingeniería de la Información
dc.subject.aniiCiencias Sociales
dc.subject.aniiComunicación y Medios
dc.subject.aniiBibliotecología
dc.identifier.aniiPOS_EXT_2023_2_180123es
dc.type.versionRevisadoes
dc.anii.subjectcompleto//Ciencias Naturales y Exactas/Matemáticas/Matemática Aplicadaes
dc.anii.subjectcompleto//Ingeniería y Tecnología/Ingeniería Eléctrica, Ingeniería Electrónica e Ingeniería de la Información/Ingeniería Eléctrica, Ingeniería Electrónica e Ingeniería de la Informaciónes
dc.anii.subjectcompleto//Ciencias Sociales/Comunicación y Medios/Bibliotecologíaes
Aparece en las colecciones: Publicaciones de ANII

Archivos en este ítem:
archivo  Descripción Tamaño Formato
Rapport_de_stage__Diego_Belzarena.pdfDescargar 16.53 MBAdobe PDF

Las obras en REDI están protegidas por licencias Creative Commons.
Por más información sobre los términos de esta publicación, visita: Reconocimiento-CompartirIgual 4.0 Internacional. (CC BY-SA)