Presentation Open Access

Layouterkennung und Seitensegmentierung als Vorstufe zur Volltexterschliessung - Early Chinese Periodicals Online

Arnold, Matthias

Kurzer Bericht zur Erschließung chinesischer Zeitungen der Republikzeit (ca. 1.H 20.Jh). Vorstellung der wesentlichen Herausforderungen, insbesondere optical layout recognition (enger komplexer Satz). Annäherung an Segmentierung über crowdsourcing, inhaltliche Erschließung auf Item-Ebene (Artikel, Bilder, Werbung) und manuelles double keying. Projekt: https://uni-heidelberg.de/ecpo

AG-interner Workshop: OCR - Herausforderungen und Lösungen für Zeitungen & Zeitschriften

Die AG Zeitungen & Zeitschriften hat seit ihrem jungen Bestehen (DHd2019) den Austausch über Herausforderungen und Lösungen bezüglich OCR für den genannten Gegenstand als Bedarf identifiziert. Auf dem geplanten Workshop sollen sich Projekte (aus Bibliotheken, Archiven, Wissenschaft), die bereits mit OCR für Zeitungen & Zeitschriften Erfahrungen gesammelt haben, austauschen und voneinander lernen. Doch auch diejenigen, die bisher eher Nutzer*innen von Volltexten aus Zeitungen & Zeitschriften waren, profitieren von dieser Diskussion, um die dahinterliegenden besonderen Herausforderung für diese Medien zu erkennen und einschätzen zu können, welche Anforderungen sie an die Texterkennung stellen können. Außerdem gilt es, aus dieser Nutzerperspektive Bedarfe zu formulieren. Der Schwerpunkt des Workshops liegt also auf dem gegenseitigen Austausch

https://dhd-ag-zz.github.io/workshops/ocr_2019-11-11

Files (17.0 MB)
Name Size
2019-11 DHd ZZ ECPO _2019-11-18_pub.pdf
md5:49f750c6ff9d9b38dfa8e2aa574faaf3
17.0 MB Download
54
25
views
downloads
All versions This version
Views 5454
Downloads 2525
Data volume 425.2 MB425.2 MB
Unique views 4747
Unique downloads 2121

Share

Cite as