Published April 22, 2026 | Version v1
Poster Open

Reales Sitios con IA: Extracción de texto, embeddings y búsqueda semántica con Apache SOLR

  • 1. ROR icon Patrimonio Nacional
  • 2. ROR icon National University of Distance Education

Description

La revista Reales Sitios, objeto de esta propuesta, nace en 1964 como apoyo a la investigación y divulgación de los bienes museísticos de Patrimonio Nacional. En su redacción han tenido un papel fundamental los conservadores y restauradores del organismo, en su mayoría historiadores del arte especializados en los periodos históricos y en las colecciones a su cargo, junto con especialistas del ámbito académico con líneas de investigación abiertas sobre estos fondos.


Esta publicación se ha difundido hasta el presente en soporte papel y su presencia en las bibliotecas universitarias no está generalizada, por lo que uno de los recursos más habituales para su consulta ha sido la visita física a la Real Biblioteca de Palacio, que conserva varios juegos completos de esta publicación periódica. Para solventar esta barrera, y dar respuesta al continuo interés académico y científico que suscitan sus contenidos, recientemente se ha iniciado un plan de digitalización que culminará con la publicación en internet de la revista completa a través de la plataforma Open Journal System y Dspace, sistema este último que da soporte al Repositorio Institucional de Objetos Digitales.


La presente propuesta de proyecto toma como materiales una muestra representativa de los volúmenes digitalizados Para la obtención de los metadatos se parte de la instalación de Open Journal System, a la que se ha incorporado ya buena parte de los números de la revista. Respecto a la extracción del texto de los artículos, se examinan distintas alternativas para optimizar el proceso, obstaculizado por el diseño de revista (imágenes, columnas, publicidad, curvaturas, orientación, etc.), siempre apoyándose en librerías de Python, basadas en Deep Learning y
Transformers.


Con este punto de partida -- subconjunto de metadatos extraídos de OJS, por una parte, y el texto de calidad finalmente obtenido, por otra-- se desarrollará una propuesta de búsqueda semántica sobre este corpus, que constituye la finalidad del proyecto. Para ello, se utilizará la última versión de Apache SOLR, que soporta la indexación con embeddings, para cuya generación y carga en SOLR se utilizará un script de Python con las librerías openai y request, y, experimentalmente, aplicaremos también el módulo Text to Vector de SOLR.


Por lo que respecta a la recuperación de información basada en vectores, se utilizará el algoritmo HNSW (Hierarchical Navigable Small World Graph), que es el que incorpora SOLR. El modelo de recuperación será híbrido, ya que hemos mantenido también un campo textual que incluye el texto del artículo. Por último, esta configuración de SOLR se integrará en los actuales sistemas de consulta y preservación digital de Patrimonio Nacional, en concreto, OJS y el Repertorio Institucional de Objetos Digitales, en Dspace 9. En el póster se puede seguir el flujo de procesos y las herramientas utilizada, la configuración de SOLR para la indexación de Reales Sitios, un caso de búsqueda semántica, y los pasos siguientes relativos a la integración del motor de búsquedas en los sistemas OJS y Dspace.

Files

poster_academico_solr_dariah.pdf

Files (2.4 MB)

Name Size Download all
md5:9c7c0b2c30532af9867ebadb26e1c5c2
2.4 MB Preview Download

Additional details

Additional titles

Translated title (English)
"Reales Sitios" with AI: Text Extraction, Embeddings, and Semantic Search with Apache SOLR

Dates

Accepted
2026-04-01
DARIAH UNED