Published March 6, 2025 | Version v1
Presentation Open

Historische Textnormalisierung: Herausforderungen und Potentiale von Deep Learning

  • 1. Berlin-Brandenburgische Akademie der Wissenschaften

Description

Historische Dokumente bergen Herausforderungen für die Digital Humanities, da ältere Texte in ihrer Rechtschreibung von der modernen Standardsprache abweichen. Das erschwert die Nutzung und Verarbeitung solcher Texte, z. B. bei Volltextsuche oder Natural Language Processing. Eine Lösung bietet die automatisierte historische Textnormalisierung, die historische Schreibweisen in moderne Standardschreibung übersetzt. Dieser Beitrag untersucht das Potential moderner NLP-Methodik auf Basis von Machine Learning und Transformer-Modellen für die historische Textnormalisierung, und vergleicht diese in einer Fallstudie mit CAB, dem de-facto Standard-Tool für deutsche Textnormalisierung. Damit werden die aktuellen Möglichkeiten und Grenzen automatischer Textnormalisierung aufgezeigt, auch im Hinblick auf die Bereitstellung von offen zugänglichen Modellen.

Files

BrackeEhrmanntraut_2025_HistTextnorm_Folien.pdf

Files (1.4 MB)

Additional details

Dates

Available
2025-03-06