Published May 29, 2026 | Version v1
Poster Open

Do texto histórico ao computador: metodoloxía e criterios de recompilación do Coruña Corpus

  • 1. ROR icon Universidade da Coruña

Description

Este poster ofrece unha descrición das características e os principios metodolóxicos do Coruña Corpus of English Scientific Writing (CC), un corpus a gran escala, diacrónico e especializado, deseñado para investigar a evolución do inglés científico no período do inglés moderno tardío (1700-1900). (Moskowich e Crespo 2007; Crespo e Moskowich, 2010; Crespo e Moskowich, 2020). O CC, complementario con outros corpus históricos (Corpus de Helsinqui, ARCHER, Corpus de Lampeter), foi concibido para cubrir lagoas na investigación lingüística especialmente no que respecta á escritura científica non médica (Biber, 1993; Taavitsainen e Pahta, 1997). Trátase dun corpus modular, composto por subcorpus especializados correspondentes a disciplinas científicas individuais (astronomía, filosofía, historia, física, etc), seleccionadas utilizando a clasificación UNESCO (1978) da ciencia como punto de partida, pero adaptada ás epistemoloxías históricas da mesma. 

Na recompilación e tratamento dos textos encáranse retos importantes como os que expón a selección das mostras de traballos escritos orixinalmente en inglés de aproximadamente  10,000 palabras, o equilibrio e a representatividade das mesmas, a definición das disciplinas, a non repetición de autores nos diferentes subcorpus para evitar o predominio de idiosincrasias lingüísticas, e o desequilibrio de xénero, en particular, a escaseza de textos científicos escritos por mulleres nos séculos XVIII e XIX, situando estas cuestións dentro de limitacións sociohistóricas máis amplas que condicionaban a súa participación científica (Abir-Am e Outram, 1987; Schiebinger, 1987). En lugar de corrixir artificialmente tales desequilibrios, o CC busca reflectir a realidade histórica á vez que achega información sociolingüística mediante arquivos de metadatos que documentan as traxectorias biográficas dos autores (formación, orixe xeográficaidade, sexo) e a súa posible relación entre eles, así como características dos textos aos que pertencen as mostras seleccionadas, en especial o xénero textual. 

Desde o punto de vista técnico, o corpus destaca polo seu compromiso temperán e sostido coa codificación XML seguindo as directrices de TEILite 2.0 combinado co cumprimento de Unicode para preservar a ortografía histórica e as características tipográficas. Tamén se desenvolve unha desambiguación manual de formas coincidentes para evitar datos non fidedignos e exclúense da posible análise citas doutros autores que aparezan na mostra. Estas decisiónsaínda que esixentes en termos de traballo e experiencia, permiten reproducir de xeito atento os textos da época e reflectir fielmente o uso da lingua. O CC leva aparellada unha ferramenta de extracción de datos, a Coruña Corpus Tool (CCT) que reflicte aínda máis esta filosofía, permitindo procuras a través de variables tanto lingüísticas como extralingüísticas (Barsaglini e Valcarce, 2020). 

Como consequencia do traballo neste proxecto deseñouse un novo corpus, PreWoS que recolle os prefacios das obras escritas por mulleres durante o período que nos ocupa e que permite explorar a dimensión social, pragmática e discursiva das súas obras. 

Referencias 

Abir-Am, P., & Outram, D. (Eds.). 1987. Uneasy careers and intimate lives: Women in science (1789–1979). Rutgers University Press. 

Barsaglini-Castro, Anabella and Valcarce, Daniel. 2020. The Coruña Corpus Tool: Ten Years On. Revista de Procesamiento del Lenguaje Natural, 64: 13-19.  

Biber, D. 1993. Representativeness in corpus design. Literary and Linguistic Computing, 8(4), 243–257. https://doi.org/10.1093/llc/8.4.243 

Crespo, Begoña & Isabel Moskowich. 2010. “CETA in the Context of the Coruña Corpus”. Literary and Linguistic Computing, 25(2): 153–164. 

Moskowich, Isabel and Crespo, Begoña. 2007. Presenting the Coruña Corpus: A Collection of Samples for the Historical Study of English Scientific Writing. In Pérez Guerra, Javier et al. (eds.) ‘Of Varying Language and Opposing Creed’: New Insights into Late Modern English. Bern: Peter Lang. 341–357. 

Schiebinger, L. (1987). The history and philosophy of women in science: A review essay. Signs, 12(2), 305–332. https://doi.org/10.1086/494325  

Taavitsainen, I., & Pahta, P. 1997. Corpus of Early English Medical Writing 1375–1750. ICAME Journal, 21, 71–78. 

Files

2026_CLARIAH_Poster_DEF.pdf

Files (1.9 MB)

Name Size Download all
md5:6e08ca666636be4f15547f7e900f14f6
1.9 MB Preview Download

Additional details

Funding

Ministerio de Ciencia, Innovación y Universidades
Research project PID2022 136500NB I00