Automatische Texterkennung von Handschriften und historischen Drucken - Qualität und Normierung von Ground-Truth-Daten in der Praxis

Huff, Dorothee; Will, Larissa; Stöbener, Kristina

doi:10.5281/zenodo.8386502

Published September 29, 2023 | Version v1

Conference paper Open

Automatische Texterkennung von Handschriften und historischen Drucken - Qualität und Normierung von Ground-Truth-Daten in der Praxis

1. Universitätsbibliothek Tübingen, Deutschland
2. Universitätsbibliothek Mannheim, Deutschland

Contributors

Editor (3):

1. Data Center for the Humanities, Universität zu Köln
2. DAASI International GmbH
3. Universität Tübingen

Automatische Texterkennung (OCR) übersetzt textliche Bildinhalte in digitale Textformate. Auf diese Weise werden der Zugang zu historischen Drucken und Handschriften erhöht und neue Forschungsfragen an das Material ermöglicht. Vor der wissenschaftlichen Auswertung der Daten gilt es jedoch, sich über Aspekte wie Qualität und Normierung der Ground-Truth-Daten und des erzeugten Outputs bewusst zu werden, diese zu hinterfragen und bei der Nachnutzung der Daten in Betracht zu ziehen. Anhand von Beispielen sollen unterschiedliche Vorgehensweisen bei der Erzeugung von Ground-Truth-Daten sowie Ergebnisse der jeweiligen Modelltrainings vorgestellt und problematisiert werden.

Files

V05_Huff-Automatische Texterkennung von Handschriften und historischen Drucken Qualit則 und Normierung von .pdf

Files (69.1 kB)

Name	Size	Download all
V05_Huff-Automatische Texterkennung von Handschriften und historischen Drucken Qualit則 und Normierung von .pdf md5:1371a8d7c51b91ba45cb1bafebcba1f3	69.1 kB	Preview Download

Additional details

Is part of: Book: 10.5281/zenodo.8341605 (DOI)

119

Views

Downloads

Show more details

	All versions	This version
Views	119	115
Downloads	97	94
Data volume	7.7 MB	7.5 MB

More info on how stats are collected....

DOI

Resource type

Conference paper

Publisher

Zenodo

Conference

FORGE 2023 - Anything Goes?! Forschungsdaten in den Geisteswissenschaften - kritisch betrachtet (FORGE2023) , Tübingen, Deutschland, 04.-06. Oktober 2023

License: Creative Commons Attribution 4.0 International

The Creative Commons Attribution license allows re-distribution and re-use of a licensed work on the condition that the creator is appropriately credited. Read more

Technical metadata

Created: September 29, 2023
Modified: July 11, 2024

Automatische Texterkennung von Handschriften und historischen Drucken - Qualität und Normierung von Ground-Truth-Daten in der Praxis

Authors/Creators

Contributors

Editor (3):

Description

Files

V05_Huff-Automatische Texterkennung von Handschriften und historischen Drucken Qualit則 und Normierung von .pdf

Files (69.1 kB)

Additional details

Related works