Published November 11, 2019 | Version v1
Presentation Open

Layouterkennung und Seitensegmentierung als Vorstufe zur Volltexterschliessung - Early Chinese Periodicals Online

  • 1. Universität Heidelberg

Description

Kurzer Bericht zur Erschließung chinesischer Zeitungen der Republikzeit (ca. 1.H 20.Jh). Vorstellung der wesentlichen Herausforderungen, insbesondere optical layout recognition (enger komplexer Satz). Annäherung an Segmentierung über crowdsourcing, inhaltliche Erschließung auf Item-Ebene (Artikel, Bilder, Werbung) und manuelles double keying. Projekt: https://uni-heidelberg.de/ecpo

AG-interner Workshop: OCR - Herausforderungen und Lösungen für Zeitungen & Zeitschriften

Die AG Zeitungen & Zeitschriften hat seit ihrem jungen Bestehen (DHd2019) den Austausch über Herausforderungen und Lösungen bezüglich OCR für den genannten Gegenstand als Bedarf identifiziert. Auf dem geplanten Workshop sollen sich Projekte (aus Bibliotheken, Archiven, Wissenschaft), die bereits mit OCR für Zeitungen & Zeitschriften Erfahrungen gesammelt haben, austauschen und voneinander lernen. Doch auch diejenigen, die bisher eher Nutzer*innen von Volltexten aus Zeitungen & Zeitschriften waren, profitieren von dieser Diskussion, um die dahinterliegenden besonderen Herausforderung für diese Medien zu erkennen und einschätzen zu können, welche Anforderungen sie an die Texterkennung stellen können. Außerdem gilt es, aus dieser Nutzerperspektive Bedarfe zu formulieren. Der Schwerpunkt des Workshops liegt also auf dem gegenseitigen Austausch

https://dhd-ag-zz.github.io/workshops/ocr_2019-11-11

Files

2019-11 DHd ZZ ECPO _2019-11-18_pub.pdf

Files (17.0 MB)

Name Size Download all
md5:49f750c6ff9d9b38dfa8e2aa574faaf3
17.0 MB Preview Download