Developing a Pipeline for Automatic Linguistic Analysis of Historical Manuscripts and Early Printings: The Pre-Modern Slavic Case

Rabus, Achim; Arnold, Eckhart; Jouravel, Anna; Lendvai, Piroska; Meindl, Martin; Polomac, Vladimir; Renje, Elena

doi:10.5281/zenodo.8107622

Published June 30, 2023 | Version v1

Conference paper Open

Developing a Pipeline for Automatic Linguistic Analysis of Historical Manuscripts and Early Printings: The Pre-Modern Slavic Case

1. University of Freiburg, Germany
2. Bavarian Academy of Sciences and Humanities, Germany
3. University of Kragujevac, Serbia

Contributors

Data manager (3):

Editor (5):

Hosting institution:

Centre for Information Modelling¹

1. University of Graz
2. Belgrade Center for Digital Humanities
3. Le Mans Université
4. Digital Humanities im deutschsprachigen Raum

We report on experiments with Handwritten Text Recognition models to automatically create large pre-modern Slavic text corpora and to use these corpora without manual post-correction (as raw data and with uncorrected POS tags) for quantitative linguistic analysis (inferential statistics, stylometry); we evaluate the actual noise in the data.

Files

RABUS_Achim_Developing_a_Pipeline_for_Automatic_Linguistic_A.pdf

Files (115.4 kB)

Name	Size	Download all
RABUS_Achim_Developing_a_Pipeline_for_Automatic_Linguistic_A.pdf md5:de930461d48c17e6e1118de302c6cc4c	98.9 kB	Preview Download
RABUS_Achim_Developing_a_Pipeline_for_Automatic_Linguistic_A.xml md5:95e0fdadd3b8befd0234a6b1963bea9e	16.5 kB	Preview Download

Additional details

Is part of: Book: 10.5281/zenodo.7961822 (DOI)

214

Views

199

Downloads

Show more details

	All versions	This version
Views	214	214
Downloads	199	198
Data volume	16.0 MB	15.9 MB

More info on how stats are collected....

DOI

Resource type

Conference paper

Publisher

Zenodo

Conference

Digital Humanities 2023. Collaboration as Opportunity (DH2023) , Graz, Austria, 10-14 July 2023

Languages

English

License: Creative Commons Attribution 4.0 International

The Creative Commons Attribution license allows re-distribution and re-use of a licensed work on the condition that the creator is appropriately credited. Read more

Technical metadata

Created: July 5, 2023
Modified: July 11, 2024

Developing a Pipeline for Automatic Linguistic Analysis of Historical Manuscripts and Early Printings: The Pre-Modern Slavic Case

Authors/Creators

Contributors

Data manager (3):

Editor (5):

Hosting institution:

Description

Files

RABUS_Achim_Developing_a_Pipeline_for_Automatic_Linguistic_A.pdf

Files (115.4 kB)

Additional details

Related works