Automatische Transkription von Podcastfolgen für korpuslinguistische Untersuchungen. Ein Projektbericht
Description
Der Vortrag wurde im Rahmen der Text+ Tagung zum Thema "KI und gesprochene Sprache" vom 27.-28.06.2024 in München präsentiert. Dargestellt wurden die bisherigen Schritte im Rahmen eines Dissertationsprojekts. Mithilfe des HPC der TU Dresden wurden ca. 480h Audiomaterial (Podcastfolgen) automatisch mit der Anwendung des Transkriptionsmodells Whisper transkibiert. Zusätzlich wurde eine Sprecher:innenerkennung implementiert sowie Sprechpausen annotiert. Für weitere korpuslinguistische Untersuchungen wurde eine Integration in die bestehenden Softwaretools (FOLK Editor).
Files
Präsentation_Sahlbach.pdf
Files
(1.5 MB)
Name | Size | Download all |
---|---|---|
md5:905e02f4c1dc64c1cbcc23a5160c00da
|
1.5 MB | Preview Download |
Additional details
Dates
- Available
-
2024-06-24
Software
- Repository URL
- https://github.com/notaTeapot/whisper-annotation-tools
- Programming language
- Python
- Development Status
- Active