Reales Sitios con IA: Extracción de texto, embeddings y búsqueda semántica con Apache SOLR

Rodríguez Gómez, José Luis; Ros, Salvador; Niclós Ferreras, Ester

doi:10.5281/zenodo.19693510

Published April 22, 2026 | Version v1

Poster Open

Reales Sitios con IA: Extracción de texto, embeddings y búsqueda semántica con Apache SOLR

1. Patrimonio Nacional
2. National University of Distance Education

La revista Reales Sitios, objeto de esta propuesta, nace en 1964 como apoyo a la investigación y divulgación de los bienes museísticos de Patrimonio Nacional. En su redacción han tenido un papel fundamental los conservadores y restauradores del organismo, en su mayoría historiadores del arte especializados en los periodos históricos y en las colecciones a su cargo, junto con especialistas del ámbito académico con líneas de investigación abiertas sobre estos fondos.

Esta publicación se ha difundido hasta el presente en soporte papel y su presencia en las bibliotecas universitarias no está generalizada, por lo que uno de los recursos más habituales para su consulta ha sido la visita física a la Real Biblioteca de Palacio, que conserva varios juegos completos de esta publicación periódica. Para solventar esta barrera, y dar respuesta al continuo interés académico y científico que suscitan sus contenidos, recientemente se ha iniciado un plan de digitalización que culminará con la publicación en internet de la revista completa a través de la plataforma Open Journal System y Dspace, sistema este último que da soporte al Repositorio Institucional de Objetos Digitales.

La presente propuesta de proyecto toma como materiales una muestra representativa de los volúmenes digitalizados Para la obtención de los metadatos se parte de la instalación de Open Journal System, a la que se ha incorporado ya buena parte de los números de la revista. Respecto a la extracción del texto de los artículos, se examinan distintas alternativas para optimizar el proceso, obstaculizado por el diseño de revista (imágenes, columnas, publicidad, curvaturas, orientación, etc.), siempre apoyándose en librerías de Python, basadas en Deep Learning y
Transformers.

Con este punto de partida -- subconjunto de metadatos extraídos de OJS, por una parte, y el texto de calidad finalmente obtenido, por otra-- se desarrollará una propuesta de búsqueda semántica sobre este corpus, que constituye la finalidad del proyecto. Para ello, se utilizará la última versión de Apache SOLR, que soporta la indexación con embeddings, para cuya generación y carga en SOLR se utilizará un script de Python con las librerías openai y request, y, experimentalmente, aplicaremos también el módulo Text to Vector de SOLR.

Por lo que respecta a la recuperación de información basada en vectores, se utilizará el algoritmo HNSW (Hierarchical Navigable Small World Graph), que es el que incorpora SOLR. El modelo de recuperación será híbrido, ya que hemos mantenido también un campo textual que incluye el texto del artículo. Por último, esta configuración de SOLR se integrará en los actuales sistemas de consulta y preservación digital de Patrimonio Nacional, en concreto, OJS y el Repertorio Institucional de Objetos Digitales, en Dspace 9. En el póster se puede seguir el flujo de procesos y las herramientas utilizada, la configuración de SOLR para la indexación de Reales Sitios, un caso de búsqueda semántica, y los pasos siguientes relativos a la integración del motor de búsquedas en los sistemas OJS y Dspace.

Files

poster_academico_solr_dariah.pdf

Files (2.4 MB)

Name	Size	Download all
poster_academico_solr_dariah.pdf md5:9c7c0b2c30532af9867ebadb26e1c5c2	2.4 MB	Preview Download

Additional details

Translated title (English): "Reales Sitios" with AI: Text Extraction, Embeddings, and Semantic Search with Apache SOLR

Accepted: 2026-04-01

DARIAH UNED

	All versions	This version
Views	20	20
Downloads	0	0
Data volume	0 Bytes	0 Bytes

poster_academico_solr_dariah.pdf

Files (2.4 MB)

Additional titles

Dates

Reales Sitios con IA: Extracción de texto, embeddings y búsqueda semántica con Apache SOLR

Authors/Creators

Description

Files

poster_academico_solr_dariah.pdf

Files (2.4 MB)

Additional details

Additional titles

Dates