Textbox: análisis del léxico mediante corpus literarios
Abstract: In this article we will present textbox, a collection of historical literary corpora in several Romance languages (three of them in Spanish), encoded in XML-TEI, published under a Creative Commons license and fully accessible on GitHub. Firstly, we will explain the motivation for the creation of the Corpus within our research group. Secondly, we will describe the characteristics of the corpus: the goal, markup, metadata and its publication. Thirdly, we will provide a linguistic analysis of several of the collections of novels combining visualization, statistical analysis, stylometric methodologies such as Zeta and lexical resources such as CORDE and dictionaries of the RAE. The purpose of this article is to show the possibilities of lexical analysis offered by fully accessible corpora to the scientific community interested in the investigation of the historical Spanish lexicón and historical literary texts in Romance languages.
Resumen: En este artículo presentamos textbox, una colección de Corpus literarios his tóricos en varias lenguas romances (tres de ellos en español), codificada en XML-TEI, publicada bajo licencia Creative Commons y accesible en su totalidad en GitHub. En primer lugar, explicamos las razones que hicieron necesaria la creación de los Corpus dentro del grupo de investigación de Wurzburgo. En segundo lugar, describimos sus características: los objetivos que cumple, su marcación, los metadatos y su publicación. En tercer lugar, analizamos lingüísticamente varias de las colecciones de novelas aunando visualización, análisis estadístico, metodologías estilométricas como Zeta y recursos léxicos como CORDE o diccionarios de la RAE. Con esto queremos mostrar las posibilidades de análisis de léxico que Corpus accesibles en su totalidad ofrecen a la comunidad científica interesada en la investigación del léxico histórico español y de textos literarios históricos en lenguas romances en general.
Citation suggestion: Calvo Tello, José, Ulrike Henny-Kramer, and Christof Schöch. “Textbox: análisis del léxico mediante corpus literarios.” In Historia del léxico español y Humanidades digitales, edited by Dolores Corbella, Alejandro Fajardo, and Jutta Langenbacher, 225–54. Frankfurt am Main: Peter Lang, 2018.