Vom Digitalisat zur Ressource: Der Workflow zum Deutschen Wortatlas

Kunzmann, Markus

doi:10.5281/zenodo.14943208

Published February 26, 2025 | Version v1

Conference paper Open

Vom Digitalisat zur Ressource: Der Workflow zum Deutschen Wortatlas

Kunzmann, Markus¹

1. Österreichische Akademie der Wissenschaften (ÖAW), Österreich

Contributors

Data managers:

Editors:

1. Universität zu Köln
2. Universität Passau
3. Universität Bielefeld
4. Digital Humanities im deutschsprachigen Raum

Sprachkorpora bilden eine effiziente Grundlage zur Beantwortung sprachwissenschaftlicher Forschungsfragen unterschiedlichster Strukturebenen. Die größten Korpora beinhalten jedoch meist Textsammlungen gegenwartssprachlicher Natur. Bei vergleichbaren Ressourcen, die ältere Sprachstände betreffen, sind es zumeist Texte, die originär in gedruckter Form vorliegen oder zu denen bereits gedruckte Editionen existieren. Texte, die in rein in Handschrift vorliegen, sind demnach in Sprachkorpora unterrepräsentiert. Das Projekt "DWA Österreich Pilotstudie" zeigt exemplarisch am Digitalisierungsworkflow zu den Erhebungsbögen zum Deutschen Wortatlas (DWA), welche Arbeitsschritte inbegriffen sind. Dabei wird der Aufwand von manueller Transkription, automatischer Transkription auf der Grundlage bereits vorhandener Modelle zur Handwritten Text Recognition (HTR) sowie der die Anwendung quellenspezifischer HTR-Modelle in Relation zueinander gesetzt. Dabei soll insbesondere der Ressourcenaufwand zum Aufbau solcher quellenspezifischen Modelle kritisch beleuchtet werden. Zusätzlich werden die Einschränkungen, welche die Character Error Rate (CER) als Kennzahl für die Güte eines HTR Modells mit sich bringt, dargelegt.

Files

KUNZMANN_Markus_Vom_Digitalisat_zur_Ressource__Der_Workflow_.pdf

Files (189.7 kB)

Name	Size	Download all
KUNZMANN_Markus_Vom_Digitalisat_zur_Ressource__Der_Workflow_.pdf md5:9a1033e04bad23c69d3d28d9170854e3	174.9 kB	Preview Download
KUNZMANN_Markus_Vom_Digitalisat_zur_Ressource__Der_Workflow_.xml md5:e568ff7140cdbf51fd4c455dfb124eca	14.7 kB	Preview Download

Additional details

Is part of: Book: 10.5281/zenodo.14887460 (DOI)
Is supplemented by: Poster: 10.5281/zenodo.14944598 (DOI)

	All versions	This version
Views	32	32
Downloads	34	34
Data volume	5.4 MB	5.4 MB

Vom Digitalisat zur Ressource: Der Workflow zum Deutschen Wortatlas

Creators

Contributors

Data managers:

Editors:

Description

Files

KUNZMANN_Markus_Vom_Digitalisat_zur_Ressource__Der_Workflow_.pdf

Files (189.7 kB)

Additional details

Related works