KI-gestützte Datenerhebung: OCR, Audio- und Videotranskription für Forschung und Studium
Description
Diese Präsentation führt in KI-gestützte Methoden zur Datenerhebung ein, mit einem Fokus auf automatisierte Texterkennung (OCR/HTR) sowie Audio- und Videotranskription. Sie bietet einen Überblick über verschiedene Tool-Generationen und vergleicht lokale Open-Source-Lösungen mit cloudbasierten API-Services hinsichtlich Funktionalität, Datenschutz (DSGVO) und Reproduzierbarkeit.
Im Bereich OCR werden Werkzeuge wie eScriptorium (Kraken) sowie moderne Vision-Transformer wie LightOnOCR-2 und Gemini 3.1 Pro für die Erschließung von Druckwerken und Handschriften vorgestellt. Der zweite Teil widmet sich der Transkription von Interviews und audiovisuellen Medien mittels der Whisper-Modellfamilie, wobei praktische Anwendungen wie noScribe und whisply sowie multimodale LLMs über den ChatAI-Service der GWDG demonstriert werden.
Themenübersicht:
- KI-gestützte Texterkennung (OCR/HTR): eScriptorium, Kraken, LightOnOCR und Gemini 3.1 Pro
- Audio- und Videotranskription: Lokale, DSGVO-konforme Lösungen wie noScribe und whisply basierend auf OpenAI Whisper
Files
FDZ-Mannheim_Research-Skills-KI-Tools-Datenerhebung.pdf
Files
(14.0 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:8dc1711dc0237211078cd446588c5495
|
2.5 MB | Preview Download |
|
md5:47a2be6c1b4d176a2861708d8c773362
|
11.5 MB | Download |