Published February 26, 2025 | Version v1
Conference paper Open

Ansätze zur Wort- und Satzsegmentierung in kirchenslavischen HTR-Transkriptionen

  • 1. Universität Freiburg, Deutschland
  • 2. Universität Oslo, Norwegen
  • 3. Bayerische Akademie der Wissenschaften, Deutschland
  • 1. Universität zu Köln
  • 2. Universität Passau
  • 3. Universität Bielefeld
  • 4. Digital Humanities im deutschsprachigen Raum

Description

Durch Fortschritte in der NLP-Forschung eröffnen sich insbesondere den historischen Disziplinen neue Forschungsperspektiven. Der Einsatz bereits bewährter Methoden, wie Handwritten Text Recognition (HTR) und neuer Experimente mit Transformermodellen ermöglichen es, Fragestellungen zuverlässiger und auf einer breiteren Datenbasis zu beantworten, als bisher qualitativ möglich war. Allerdings zeigen die Ergebnisse Verbesserungspotenzial, insbesondere im Falle der Wort- und Satzsegmentierung. Dieser Beitrag fokussiert beide Aspekte. Zum einen wird ein Ansatz vorgestellt, wie die Wortsegmentierung in kirchenslavischen HTR-Transkriptionen mittels eines Byte-Level Transformers verbessert werden kann. Zum anderen wird eine quantitative Bewertung der derzeit verfügbaren Tools zur Satzsegmentierung vorgenommen und untersucht, wie sich ein selbst erstelltes regelbasiertes Skript in Kombination mit diesen Tools auswirkt.

Files

RENJE_Elena_Ans_tze_zur_Wort__und_Satzsegmentierung_in_kirch.pdf

Additional details

Related works

Is part of
Book: 10.5281/zenodo.14887460 (DOI)
Is supplemented by
Poster: 10.5281/zenodo.14945686 (DOI)