Published September 29, 2023 | Version v1
Conference paper Open

Automatische Texterkennung von Handschriften und historischen Drucken - Qualität und Normierung von Ground-Truth-Daten in der Praxis

  • 1. Universitätsbibliothek Tübingen, Deutschland
  • 2. Universitätsbibliothek Mannheim, Deutschland
  • 1. Data Center for the Humanities, Universität zu Köln
  • 2. DAASI International GmbH
  • 3. Universität Tübingen

Description

Automatische Texterkennung (OCR) übersetzt textliche Bildinhalte in digitale Textformate. Auf diese Weise werden der Zugang zu historischen Drucken und Handschriften erhöht und neue Forschungsfragen an das Material ermöglicht. Vor der wissenschaftlichen Auswertung der Daten gilt es jedoch, sich über Aspekte wie Qualität und Normierung der Ground-Truth-Daten und des erzeugten Outputs bewusst zu werden, diese zu hinterfragen und bei der Nachnutzung der Daten in Betracht zu ziehen. Anhand von Beispielen sollen unterschiedliche Vorgehensweisen bei der Erzeugung von Ground-Truth-Daten sowie Ergebnisse der jeweiligen Modelltrainings vorgestellt und problematisiert werden.

Files

V05_Huff-Automatische Texterkennung von Handschriften und historischen Drucken Qualit則 und Normierung von .pdf

Additional details

Related works

Is part of
Book: 10.5281/zenodo.8341605 (DOI)