Modelo Refinado de Transcripción Automática para Fuentes Hemerográficas Españolas (Música)
Description
Descripción del Modelo
A partir del modelo base catmus-print-fondue-large , se ha desarrollado un modelo especializado mediante técnicas de fine-tuning para optimizar la transcripción automática de fuentes impresas en español. Esta especialización se ha llevado a cabo utilizando la plataforma eScriptorium.
Proceso de Refinamiento
El modelo ha sido refinado mediante entrenamiento supervisado con un corpus especializado de prensa histórica musical, obtenido a partir de las colecciones hemerográficas digitalizadas de la Biblioteca Nacional de España. Este proceso de adaptación permite al modelo reconocer con mayor precisión las particularidades tipográficas, ortográficas y estilísticas propias de las publicaciones periódicas españolas.
El entrenamiento específico se ha centrado en el procesamiento de revistas musicales especializadas, lo que ha permitido al modelo familiarizarse con la terminología técnica musical, los nombres propios del ámbito cultural español y las convenciones editoriales específicas de este tipo de publicaciones.
Marco del Proyecto LexiMus
Esta mejora del modelo se inscribe dentro del proyecto de investigación LexiMus: Léxico y ontología de la música en español (PID2022-139589NB-C33), con sede en la Universidad de Salamanca. Se trata de un proyecto coordinado que cuenta con la colaboración del Instituto Complutense de Ciencias de la Música (UCM, Madrid) y la Universidad de La Rioja.
El objetivo principal del proyecto LexiMus es crear un recurso lexicográfico y ontológico exhaustivo del vocabulario musical en español, aprovechando las posibilidades que ofrece la digitalización masiva y el procesamiento automático de textos históricos.
Corpus de Entrenamiento
Las publicaciones utilizadas para el refinamiento del modelo han sido:
Estas revistas proporcionan un corpus diverso que abarca diferentes registros estilísticos, épocas y tradiciones tipográficas, enriqueciendo considerablemente las capacidades del modelo.
Resultados y Eficiencia
El modelo refinado ha alcanzado una eficiencia del 96% en la transcripción de textos de características similares a los utilizados en el entrenamiento. Esta alta precisión permite acelerar significativamente los procesos de digitalización y análisis de fuentes hemerográficas históricas, facilitando el trabajo de investigadores y contribuyendo a la preservación y accesibilidad del patrimonio musical español.
Aplicaciones y Perspectivas
Este modelo especializado representa un avance en la democratización del acceso a fuentes históricas musicales, permitiendo procesar de manera eficiente grandes volúmenes de documentación que anteriormente requerían transcripción manual. Sus aplicaciones se extienden más allá del ámbito académico, siendo de utilidad para archivos, bibliotecas y centros de documentación musical.
Files
Files
(22.9 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:67d52354e6a4b3740308671f70943f89
|
22.9 MB | Download |
Additional details
Additional titles
- Alternative title (Spanish)
- Repositorio de modelos OCR/HTR
Identifiers
- Other
- Modelos eScriptorium OCR/HTR
Related works
- Is supplemented by
- 10.46298/jdmdh.6492 (DOI)
Dates
- Available
-
2025