Published February 26, 2025
| Version v1
Conference paper
Open
Ansätze zur Wort- und Satzsegmentierung in kirchenslavischen HTR-Transkriptionen
Creators
- 1. Universität Freiburg, Deutschland
- 2. Universität Oslo, Norwegen
- 3. Bayerische Akademie der Wissenschaften, Deutschland
Contributors
Data managers:
- 1. Universität zu Köln
- 2. Universität Passau
- 3. Universität Bielefeld
- 4. Digital Humanities im deutschsprachigen Raum
Description
Durch Fortschritte in der NLP-Forschung eröffnen sich insbesondere den historischen Disziplinen neue Forschungsperspektiven. Der Einsatz bereits bewährter Methoden, wie Handwritten Text Recognition (HTR) und neuer Experimente mit Transformermodellen ermöglichen es, Fragestellungen zuverlässiger und auf einer breiteren Datenbasis zu beantworten, als bisher qualitativ möglich war. Allerdings zeigen die Ergebnisse Verbesserungspotenzial, insbesondere im Falle der Wort- und Satzsegmentierung. Dieser Beitrag fokussiert beide Aspekte. Zum einen wird ein Ansatz vorgestellt, wie die Wortsegmentierung in kirchenslavischen HTR-Transkriptionen mittels eines Byte-Level Transformers verbessert werden kann. Zum anderen wird eine quantitative Bewertung der derzeit verfügbaren Tools zur Satzsegmentierung vorgenommen und untersucht, wie sich ein selbst erstelltes regelbasiertes Skript in Kombination mit diesen Tools auswirkt.
Files
RENJE_Elena_Ans_tze_zur_Wort__und_Satzsegmentierung_in_kirch.pdf
Files
(236.8 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:62026e83c7136f53b566745953ae20c5
|
209.8 kB | Preview Download |
|
md5:a0fa95d0bb690de33f342364a4e905ff
|
27.0 kB | Preview Download |
Additional details
Related works
- Is part of
- Book: 10.5281/zenodo.14887460 (DOI)
- Is supplemented by
- Poster: 10.5281/zenodo.14945686 (DOI)