Genre Classification Workflow For the English Short Title Catalogue (ESTC)
Description
This is a preprint of an article. Abstract below:
This article introduces an open-box workflow for labelling 94 percent of the English Short Title Catalogue (ESTC) with a unified genre classification scheme, as well as an approach to evaluating the classifications. As the ESTC covers most of the surviving books published in the early modern Anglosphere, the categorisation offers new opportunities for large-scale quantitative research on early modern book trade. Our evaluation process directly engages with the ambiguity of any genre labelling or annotation schemes of Early Modern books and highlights problematic boundaries between the categories. We also provide summary statistics about the genre-wise composition of the ESTC, demonstrate how the new data can be used to detect biases in other data sets of early modern books and discuss further possibilities in genre-related computational work with the ESTC.
Abstract (Finnish)
Tämä artikkeli esittelee avoimen työvuon 94%. ESTC-tietueista kategorisointiin yhtenäisellä luokittelujärjestelmällä, sekä lähestymistavan näiden luokittelujen arviointiin. Kategorisointi mahdollistaa uusia laaja-alaisia analyyseja, sillä ESTC kattaa suurimman osan Britti-imperiumissa tai englanniksi varhaismodernina aikana julkaistuista kirjoista. Arviointiprosessimme käsittelee ongelmia, joita varhaismodernien teosten luokitteluun väistämättä liittyy. Lisäksi esittelemme tilastoja ESTC:n genrejakaumasta, osoitamme uuden aineston höydyn muiden varhaismodernien kirja-aineistojen vinoumien tutkimisessa ja keskustelemme siitä, millaiset laskennalliset lähestymistavat ESTC-teosten genrejen analysointiin voivat olla tulevaisuudessa mahdollisia.
Files
14754_Tiihonen_v2.pdf
Files
(4.7 MB)
Name | Size | Download all |
---|---|---|
md5:cfbca94a9343d6cb00b9564983818107
|
3.9 MB | Download |
md5:7b34b05bce145dc3fc50c603d49c2f23
|
776.0 kB | Preview Download |