Published February 20, 2026
| Version v1
Poster
Open
ASR4Memory. Automatische Transkription und domänenspezifisches Fine-Tuning von Spracherkennungsmodellen für die Geschichtswissenschaft
Authors/Creators
- 1. FU Berlin, Universitätsbibliothek, Deutschland
- 2. Fachhochschule Nordwestschweiz, Fachbereich Mathematik und Physik, Schweiz
Contributors
Data managers:
- 1. Universität Bielefeld
- 2. Universität Wien
- 3. Digital Humanities im deutschsprachigen Raum
- 4. Universität zu Köln
- 5. Universität Trier
Description
Das Projekt "ASR4Memory", gefördert durch das NFDI-Konsortium 4Memory, hat eine datenschutzkonforme, KI-gestützte Lösung zur Transkription historischer Audio- und Videoquellen auf Basis von "WhisperX" entwickelt. Über eine benutzerfreundliche Weboberfläche können audiovisuelle Materialien hochgeladen und sicher verarbeitet werden. Die Anwendung ermöglicht eine hochwertige Transkription in über 30 Sprachen inklusive Sprecherdiarisierung, Satz- und Wortalinierung sowie Export in vielfältige Nachnutzungsformate. Zur Verbesserung der Transkriptqualität wurde ein domänenspezifisches Fine-Tuning des Whisper-Modells "Large-v3" mit anonymisierten, deutschsprachigen Oral-History-Daten durchgeführt. Die Evaluationsergebnisse, basierend auf WER-Berechnungen und LLM-basierten Fehleranalysen, zeigen eine erhebliche Verbesserung der Transkriptionsgenauigkeit sowie eine Abschwächung von Glättungseffekten auf, sodass die Nutzung des fine-getunten Modells eine wortgetreuere Transkription ermöglicht. Das Poster präsentiert die Systemarchitektur der Anwendung, ergänzt durch eine audiovisuelle Demonstration der Ergebnisse des Fine-Tunings vor Ort.
Files
KOMPIEL_Peter_ASR4Memory__Automatische_Transkription_und_dom.pdf
Files
(28.5 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:2826b235c3b50a6772ff07a5866accb0
|
28.5 MB | Preview Download |
Additional details
Related works
- Is supplement to
- Conference paper: 10.5281/zenodo.18702930 (DOI)