Published February 26, 2025
| Version v1
Conference paper
Open
Vom Digitalisat zur Ressource: Der Workflow zum Deutschen Wortatlas
Contributors
Data managers:
- 1. Universität zu Köln
- 2. Universität Passau
- 3. Universität Bielefeld
- 4. Digital Humanities im deutschsprachigen Raum
Description
Sprachkorpora bilden eine effiziente Grundlage zur Beantwortung sprachwissenschaftlicher Forschungsfragen unterschiedlichster Strukturebenen. Die größten Korpora beinhalten jedoch meist Textsammlungen gegenwartssprachlicher Natur. Bei vergleichbaren Ressourcen, die ältere Sprachstände betreffen, sind es zumeist Texte, die originär in gedruckter Form vorliegen oder zu denen bereits gedruckte Editionen existieren. Texte, die in rein in Handschrift vorliegen, sind demnach in Sprachkorpora unterrepräsentiert. Das Projekt "DWA Österreich Pilotstudie" zeigt exemplarisch am Digitalisierungsworkflow zu den Erhebungsbögen zum Deutschen Wortatlas (DWA), welche Arbeitsschritte inbegriffen sind. Dabei wird der Aufwand von manueller Transkription, automatischer Transkription auf der Grundlage bereits vorhandener Modelle zur Handwritten Text Recognition (HTR) sowie der die Anwendung quellenspezifischer HTR-Modelle in Relation zueinander gesetzt. Dabei soll insbesondere der Ressourcenaufwand zum Aufbau solcher quellenspezifischen Modelle kritisch beleuchtet werden. Zusätzlich werden die Einschränkungen, welche die Character Error Rate (CER) als Kennzahl für die Güte eines HTR Modells mit sich bringt, dargelegt.
Files
KUNZMANN_Markus_Vom_Digitalisat_zur_Ressource__Der_Workflow_.pdf
Files
(189.7 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:9a1033e04bad23c69d3d28d9170854e3
|
174.9 kB | Preview Download |
|
md5:e568ff7140cdbf51fd4c455dfb124eca
|
14.7 kB | Preview Download |
Additional details
Related works
- Is part of
- Book: 10.5281/zenodo.14887460 (DOI)
- Is supplemented by
- Poster: 10.5281/zenodo.14944598 (DOI)