Published March 10, 2026 | Version v1
Presentation Open

KI-gestützte Datenerhebung: OCR, Audio- und Videotrans­kription für Forschung und Studium

  • 1. ROR icon University of Mannheim

Description

Diese Präsentation führt in KI-gestützte Methoden zur Datenerhebung ein, mit einem Fokus auf automatisierte Texterkennung (OCR/HTR) sowie Audio- und Videotranskription. Sie bietet einen Überblick über verschiedene Tool-Generationen und vergleicht lokale Open-Source-Lösungen mit cloudbasierten API-Services hinsichtlich Funktionalität, Datenschutz (DSGVO) und Reproduzierbarkeit.

Im Bereich OCR werden Werkzeuge wie eScriptorium (Kraken) sowie moderne Vision-Transformer wie LightOnOCR-2 und Gemini 3.1 Pro für die Erschließung von Druckwerken und Handschriften vorgestellt. Der zweite Teil widmet sich der Transkription von Interviews und audiovisuellen Medien mittels der Whisper-Modellfamilie, wobei praktische Anwendungen wie noScribe und whisply sowie multimodale LLMs über den ChatAI-Service der GWDG demonstriert werden.

Themenübersicht:

  • KI-gestützte Texterkennung (OCR/HTR): eScriptorium, Kraken, LightOnOCR und Gemini 3.1 Pro
  • Audio- und Videotranskription: Lokale, DSGVO-konforme Lösungen wie noScribe und whisply basierend auf OpenAI Whisper

Files

FDZ-Mannheim_Research-Skills-KI-Tools-Datenerhebung.pdf

Files (14.0 MB)