Published July 31, 2025 | Version v1
Model Open

Modelo Refinado de Transcripción Automática para Fuentes Hemerográficas Españolas (Música)

Authors/Creators

  • 1. Universidad de Salamanca

Description

Descripción del Modelo

A partir del modelo base  catmus-print-fondue-large , se ha desarrollado un modelo especializado mediante técnicas de fine-tuning para optimizar la transcripción automática de fuentes impresas en español. Esta especialización se ha llevado a cabo utilizando la plataforma eScriptorium.

Proceso de Refinamiento

El modelo ha sido refinado mediante entrenamiento supervisado con un corpus especializado de prensa histórica musical, obtenido a partir de las colecciones hemerográficas digitalizadas de la Biblioteca Nacional de España. Este proceso de adaptación permite al modelo reconocer con mayor precisión las particularidades tipográficas, ortográficas y estilísticas propias de las publicaciones periódicas españolas.

El entrenamiento específico se ha centrado en el procesamiento de revistas musicales especializadas, lo que ha permitido al modelo familiarizarse con la terminología técnica musical, los nombres propios del ámbito cultural español y las convenciones editoriales específicas de este tipo de publicaciones.

Marco del Proyecto LexiMus

Esta mejora del modelo se inscribe dentro del proyecto de investigación LexiMus: Léxico y ontología de la música en español (PID2022-139589NB-C33), con sede en la Universidad de Salamanca. Se trata de un proyecto coordinado que cuenta con la colaboración del Instituto Complutense de Ciencias de la Música (UCM, Madrid) y la Universidad de La Rioja.

El objetivo principal del proyecto LexiMus es crear un recurso lexicográfico y ontológico exhaustivo del vocabulario musical en español, aprovechando las posibilidades que ofrece la digitalización masiva y el procesamiento automático de textos históricos.

Corpus de Entrenamiento

Las publicaciones utilizadas para el refinamiento del modelo han sido:

Estas revistas proporcionan un corpus diverso que abarca diferentes registros estilísticos, épocas y tradiciones tipográficas, enriqueciendo considerablemente las capacidades del modelo.

Resultados y Eficiencia

El modelo refinado ha alcanzado una eficiencia del 96% en la transcripción de textos de características similares a los utilizados en el entrenamiento. Esta alta precisión permite acelerar significativamente los procesos de digitalización y análisis de fuentes hemerográficas históricas, facilitando el trabajo de investigadores y contribuyendo a la preservación y accesibilidad del patrimonio musical español.

Aplicaciones y Perspectivas

Este modelo especializado representa un avance en la democratización del acceso a fuentes históricas musicales, permitiendo procesar de manera eficiente grandes volúmenes de documentación que anteriormente requerían transcripción manual. Sus aplicaciones se extienden más allá del ámbito académico, siendo de utilidad para archivos, bibliotecas y centros de documentación musical.

 

Files

Files (22.9 MB)

Name Size Download all
md5:67d52354e6a4b3740308671f70943f89
22.9 MB Download

Additional details

Additional titles

Alternative title (Spanish)
Repositorio de modelos OCR/HTR

Identifiers

Other
Modelos eScriptorium OCR/HTR

Related works

Is supplemented by
10.46298/jdmdh.6492 (DOI)

Dates

Available
2025