Published June 28, 2024 | Version v1
Presentation Open

Automatische Transkription von Podcastfolgen für korpuslinguistische Untersuchungen. Ein Projektbericht

Description

Der Vortrag wurde im Rahmen der Text+ Tagung zum Thema "KI und gesprochene Sprache" vom 27.-28.06.2024 in München präsentiert. Dargestellt wurden die bisherigen Schritte im Rahmen eines Dissertationsprojekts. Mithilfe des HPC der TU Dresden wurden ca. 480h Audiomaterial (Podcastfolgen) automatisch mit der Anwendung des Transkriptionsmodells Whisper transkibiert. Zusätzlich wurde eine Sprecher:innenerkennung implementiert sowie Sprechpausen annotiert. Für weitere korpuslinguistische Untersuchungen wurde eine Integration in die bestehenden Softwaretools (FOLK Editor). 

Files

Präsentation_Sahlbach.pdf

Files (1.5 MB)

Name Size Download all
md5:905e02f4c1dc64c1cbcc23a5160c00da
1.5 MB Preview Download

Additional details

Dates

Available
2024-06-24

Software

Repository URL
https://github.com/notaTeapot/whisper-annotation-tools
Programming language
Python
Development Status
Active