Modelo Refinado de Transcripción Automática para Fuentes Hemerográficas Españolas (Música)

Palacios Nieto, María

doi:10.5281/zenodo.16631496

Published July 31, 2025 | Version v1

Model Open

Modelo Refinado de Transcripción Automática para Fuentes Hemerográficas Españolas (Música)

Palacios Nieto, María¹

1. Universidad de Salamanca

Descripción del Modelo

A partir del modelo base catmus-print-fondue-large , se ha desarrollado un modelo especializado mediante técnicas de fine-tuning para optimizar la transcripción automática de fuentes impresas en español. Esta especialización se ha llevado a cabo utilizando la plataforma eScriptorium.

Proceso de Refinamiento

El modelo ha sido refinado mediante entrenamiento supervisado con un corpus especializado de prensa histórica musical, obtenido a partir de las colecciones hemerográficas digitalizadas de la Biblioteca Nacional de España. Este proceso de adaptación permite al modelo reconocer con mayor precisión las particularidades tipográficas, ortográficas y estilísticas propias de las publicaciones periódicas españolas.

El entrenamiento específico se ha centrado en el procesamiento de revistas musicales especializadas, lo que ha permitido al modelo familiarizarse con la terminología técnica musical, los nombres propios del ámbito cultural español y las convenciones editoriales específicas de este tipo de publicaciones.

Marco del Proyecto LexiMus

Esta mejora del modelo se inscribe dentro del proyecto de investigación LexiMus: Léxico y ontología de la música en español (PID2022-139589NB-C33), con sede en la Universidad de Salamanca. Se trata de un proyecto coordinado que cuenta con la colaboración del Instituto Complutense de Ciencias de la Música (UCM, Madrid) y la Universidad de La Rioja.

El objetivo principal del proyecto LexiMus es crear un recurso lexicográfico y ontológico exhaustivo del vocabulario musical en español, aprovechando las posibilidades que ofrece la digitalización masiva y el procesamiento automático de textos históricos.

Corpus de Entrenamiento

Las publicaciones utilizadas para el refinamiento del modelo han sido:

Estas revistas proporcionan un corpus diverso que abarca diferentes registros estilísticos, épocas y tradiciones tipográficas, enriqueciendo considerablemente las capacidades del modelo.

Resultados y Eficiencia

El modelo refinado ha alcanzado una eficiencia del 96% en la transcripción de textos de características similares a los utilizados en el entrenamiento. Esta alta precisión permite acelerar significativamente los procesos de digitalización y análisis de fuentes hemerográficas históricas, facilitando el trabajo de investigadores y contribuyendo a la preservación y accesibilidad del patrimonio musical español.

Aplicaciones y Perspectivas

Este modelo especializado representa un avance en la democratización del acceso a fuentes históricas musicales, permitiendo procesar de manera eficiente grandes volúmenes de documentación que anteriormente requerían transcripción manual. Sus aplicaciones se extienden más allá del ámbito académico, siendo de utilidad para archivos, bibliotecas y centros de documentación musical.

Files

Files (22.9 MB)

Name	Size	Download all
catmus-print-foundue-large-esp.mlmodel md5:67d52354e6a4b3740308671f70943f89	22.9 MB	Download

Additional details

Alternative title (Spanish): Repositorio de modelos OCR/HTR

Other: Modelos eScriptorium OCR/HTR

Is supplemented by: 10.46298/jdmdh.6492 (DOI)

Available: 2025

	All versions	This version
Views	118	118
Downloads	30	30
Data volume	732.8 MB	732.8 MB

Descripción del Modelo

Proceso de Refinamiento

Marco del Proyecto LexiMus

Corpus de Entrenamiento

Resultados y Eficiencia

Aplicaciones y Perspectivas

Files (22.9 MB)

Additional titles

Identifiers

Related works

Dates

Modelo Refinado de Transcripción Automática para Fuentes Hemerográficas Españolas (Música)

Authors/Creators

Description

Descripción del Modelo

Proceso de Refinamiento

Marco del Proyecto LexiMus

Corpus de Entrenamiento

Resultados y Eficiencia

Aplicaciones y Perspectivas

Files

Files (22.9 MB)

Additional details

Additional titles

Identifiers

Related works

Dates