Published February 26, 2025 | Version v1
Conference paper Open

Historische Textnormalisierung: Herausforderungen und Potentiale von Deep Learning

  • 1. Julius-Maximilians-Universität Würzburg, Deutschland
  • 2. Berlin-Brandenburgische Akademie der Wissenschaften, Deutschland
  • 1. Universität zu Köln
  • 2. Universität Passau
  • 3. Universität Bielefeld
  • 4. Digital Humanities im deutschsprachigen Raum

Description

Historische Dokumente bergen Herausforderungen für die Digital Humanities, da ältere Texte in ihrer Rechtschreibung von der modernen Standardsprache abweichen. Das erschwert die Nutzung und Verarbeitung solcher Texte, z. B. bei Volltextsuche oder Natural Language Processing. Eine Lösung bietet die automatisierte historische Textnormalisierung, die historische Schreibweisen in moderne Standardschreibung übersetzt. Dieser Beitrag untersucht das Potential moderner NLP-Methodik auf Basis von Machine Learning und Transformer-Modellen für die historische Textnormalisierung, und vergleicht diese in einer Fallstudie mit CAB, dem de-facto Standard-Tool für deutsche Textnormalisierung. Damit werden die aktuellen Möglichkeiten und Grenzen automatischer Textnormalisierung aufgezeigt, besonders im Hinblick auf die Bereitstellung von offen zugänglichen Modellen.

Files

EHRMANNTRAUT_Anton_Historische_Textnormalisierung__Herausfor.pdf

Additional details

Related works

Is part of
Book: 10.5281/zenodo.14887460 (DOI)