Published February 26, 2025 | Version v1
Conference paper Open

Vom Digitalisat zur Ressource: Der Workflow zum Deutschen Wortatlas

  • 1. Österreichische Akademie der Wissenschaften (ÖAW), Österreich
  • 1. Universität zu Köln
  • 2. Universität Passau
  • 3. Universität Bielefeld
  • 4. Digital Humanities im deutschsprachigen Raum

Description

Sprachkorpora bilden eine effiziente Grundlage zur Beantwortung sprachwissenschaftlicher Forschungsfragen unterschiedlichster Strukturebenen. Die größten Korpora beinhalten jedoch meist Textsammlungen gegenwartssprachlicher Natur. Bei vergleichbaren Ressourcen, die ältere Sprachstände betreffen, sind es zumeist Texte, die originär in gedruckter Form vorliegen oder zu denen bereits gedruckte Editionen existieren. Texte, die in rein in Handschrift vorliegen, sind demnach in Sprachkorpora unterrepräsentiert. Das Projekt "DWA Österreich Pilotstudie" zeigt exemplarisch am Digitalisierungsworkflow zu den Erhebungsbögen zum Deutschen Wortatlas (DWA), welche Arbeitsschritte inbegriffen sind. Dabei wird der Aufwand von manueller Transkription, automatischer Transkription auf der Grundlage bereits vorhandener Modelle zur Handwritten Text Recognition (HTR) sowie der die Anwendung quellenspezifischer HTR-Modelle in Relation zueinander gesetzt. Dabei soll insbesondere der Ressourcenaufwand zum Aufbau solcher quellenspezifischen Modelle kritisch beleuchtet werden. Zusätzlich werden die Einschränkungen, welche die Character Error Rate (CER) als Kennzahl für die Güte eines HTR Modells mit sich bringt, dargelegt.

Files

KUNZMANN_Markus_Vom_Digitalisat_zur_Ressource__Der_Workflow_.pdf

Additional details

Related works

Is part of
Book: 10.5281/zenodo.14887460 (DOI)
Is supplemented by
Poster: 10.5281/zenodo.14944598 (DOI)