Layouterkennung und Seitensegmentierung als Vorstufe zur Volltexterschliessung - Early Chinese Periodicals Online
Description
Kurzer Bericht zur Erschließung chinesischer Zeitungen der Republikzeit (ca. 1.H 20.Jh). Vorstellung der wesentlichen Herausforderungen, insbesondere optical layout recognition (enger komplexer Satz). Annäherung an Segmentierung über crowdsourcing, inhaltliche Erschließung auf Item-Ebene (Artikel, Bilder, Werbung) und manuelles double keying. Projekt: https://uni-heidelberg.de/ecpo
AG-interner Workshop: OCR - Herausforderungen und Lösungen für Zeitungen & Zeitschriften
Die AG Zeitungen & Zeitschriften hat seit ihrem jungen Bestehen (DHd2019) den Austausch über Herausforderungen und Lösungen bezüglich OCR für den genannten Gegenstand als Bedarf identifiziert. Auf dem geplanten Workshop sollen sich Projekte (aus Bibliotheken, Archiven, Wissenschaft), die bereits mit OCR für Zeitungen & Zeitschriften Erfahrungen gesammelt haben, austauschen und voneinander lernen. Doch auch diejenigen, die bisher eher Nutzer*innen von Volltexten aus Zeitungen & Zeitschriften waren, profitieren von dieser Diskussion, um die dahinterliegenden besonderen Herausforderung für diese Medien zu erkennen und einschätzen zu können, welche Anforderungen sie an die Texterkennung stellen können. Außerdem gilt es, aus dieser Nutzerperspektive Bedarfe zu formulieren. Der Schwerpunkt des Workshops liegt also auf dem gegenseitigen Austausch
Files
2019-11 DHd ZZ ECPO _2019-11-18_pub.pdf
Files
(17.0 MB)
Name | Size | Download all |
---|---|---|
md5:49f750c6ff9d9b38dfa8e2aa574faaf3
|
17.0 MB | Preview Download |