Published September 29, 2023
| Version v1
Conference paper
Open
Automatische Texterkennung von Handschriften und historischen Drucken - Qualität und Normierung von Ground-Truth-Daten in der Praxis
Authors/Creators
- 1. Universitätsbibliothek Tübingen, Deutschland
- 2. Universitätsbibliothek Mannheim, Deutschland
Contributors
Editor (3):
- 1. Data Center for the Humanities, Universität zu Köln
- 2. DAASI International GmbH
- 3. Universität Tübingen
Description
Automatische Texterkennung (OCR) übersetzt textliche Bildinhalte in digitale Textformate. Auf diese Weise werden der Zugang zu historischen Drucken und Handschriften erhöht und neue Forschungsfragen an das Material ermöglicht. Vor der wissenschaftlichen Auswertung der Daten gilt es jedoch, sich über Aspekte wie Qualität und Normierung der Ground-Truth-Daten und des erzeugten Outputs bewusst zu werden, diese zu hinterfragen und bei der Nachnutzung der Daten in Betracht zu ziehen. Anhand von Beispielen sollen unterschiedliche Vorgehensweisen bei der Erzeugung von Ground-Truth-Daten sowie Ergebnisse der jeweiligen Modelltrainings vorgestellt und problematisiert werden.
Files
V05_Huff-Automatische Texterkennung von Handschriften und historischen Drucken Qualit則 und Normierung von .pdf
Files
(69.1 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:1371a8d7c51b91ba45cb1bafebcba1f3
|
69.1 kB | Preview Download |
Additional details
Related works
- Is part of
- Book: 10.5281/zenodo.8341605 (DOI)