Published April 6, 2018 | Version v1
Presentation Open

Detección automática de rasgos métricos y encabalgamiento: aplicaciones

  • 1. LINHD - UNED, Digital Humanities Innovation Lab

Description

La presentación tuvo lugar dentro de la jornada "Estilometría y Siglo de Oro: El giro computacional en el estudio de textos áureos" organizada por M. Églantine Lescasse en el seminario LEMH-CLEA dirigido por Mercedes Blanco, en Université Paris IV Sorbonne.
 

Resumen

Se presenta nuestro corpus DISCO (https://github.com/postdataproject/disco) (Ruiz et al., 2018), estadísticas descriptivas sobre patrones métricos y encabalgamiento en este corpus, y una comparación con los mismos fenómenos en el corpus ADSO creado por Borja Navarro Colorado (https://github.com/bncolorado/CorpusSonetosSigloDeOro) (Navarro Colorado et al., 2016). DISCO es un corpus de 4000 sonetos de entre los siglos XV y XIX, donde la parte correspondiente al Siglo de Oro contiene 1000 sonetos, producidos por autores principalmente no canónicos; abordaremos el proceso de creación del corpus a partir de fuentes en línea. El corpus ha sido anotado automáticamente con patrones métricos y con encabalgamiento, usando herramientas basadas en Procesamiento del lenguaje natural (Navarro Colorado, 2017 para métrica y Ruiz et al, 2017; Martínez et al, 2018 para encabalgamiento). El funcionamiento de estas herramientas y una evaluación de sus resultados serán descritos brevemente. Se discuten estadísticas descriptivas sobre la distribución de patrones métricos y encabalgamiento en diferentes particiones del corpus. Se comparan los resultados obtenidos en los sonetos del Siglo de Oro de DISCO con los resultados obtenidos con el corpus ADSO de Navarro Colorado, que está formado íntegramente por sonetos de autores canónicos del Siglo de Oro. Se comparan también los resultados sobre el Siglo de Oro con los obtenidos para sonetos de siglos posteriores del corpus DISCO. 

Files

presentacion_clea_pablo.pdf

Files (2.1 MB)

Name Size Download all
md5:2809234543dd93b36775a345d34a9f7c
2.1 MB Preview Download

Additional details

Funding

POSTDATA – Poetry Standardization and Linked Open Data 679528
European Commission

References

  • Martínez, Clara, Pablo Ruiz and Elena González-Blanco (2018). ANJA, ¿dónde están los encabalgamientos ? In Digital Humanities Conference (DH 2018), Mexico City
  • Navarro-Colorado, Borja, María Ribes Lafoz, and Noelia Sanchez (2016). Metrical Annotation of a Large Corpus of Spanish Sonnets: Representation, Scansion and Evaluation. In Proceedings of the Tenth International Conference on Language Resources and Evaluation, Portoroz, Slovenia. Portoroz, Slovenia, pages 4630–4634. http://www.lrec-conf.org/proceedings/lrec2016/pdf/453_Paper.pdf.
  • Navarro-Colorado, Borja (2017). A metrical scansion system for fixed-metre Spanish poetry. Digital Scholarship in the Humanities https://doi.org/10.1093/llc/fqx009
  • Ruiz, Pablo, Helena Bermúdez, Clara Martínez, Elena González-Blanco and Borja Navarro-Colorado. (2018). The Diachronic Spanish Sonnet Corpus (DISCO) : TEI and Linked Open Data Encoding, Data Distribution and Metrical Findings. In Digital Humanities Conference (DH 2018), Mexico City.
  • Ruiz, Pablo, Clara Martínez, Thierry Poibeau and Elena González-Blanco. (2017). Enjambment detection in a large diachronic corpus of Spanish sonnets. In LaTeCH-CLFL 2017, Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature. Vancouver, Canada. https://aclweb.org/anthology/W/W17/W17-2204.pdf