Published November 11, 2025 | Version v1
Presentation Open

LLM-Benchmarking für die Digital Humanities: Ein praxisorientierter Ansatz aus der Forschungsberatung

Authors/Creators

  • 1. ROR icon University of Basel

Description

Slides for AGDH-KI Webinar

Grosse Sprachmodelle (LLMs) werden zunehmend in den digitalen Geisteswissenschaften eingesetzt. Doch welches Modell eignet sich für welche Aufgabe, und wie lassen sich Leistung, Kosten und Aufwand zuverlässig vergleichen? Das Webinar stellt die RISE Humanities Data Benchmark Suite vor, ein offenes Framework zur Evaluation von Sprachmodellen auf geisteswissenschaftlichen Bild- und Textdaten. 

Im Unterschied zu allgemeinen NLP-Benchmarks richtet sich der Ansatz an den praktischen Fragen realer DH-Projekte aus: Wann sind Ergebnisse «gut genug» für den Projektkontext? Wie lässt sich die Verarbeitung grosser Datenmengen planen? Und was ist technisch möglich, wenn sensible Materialien lokal bleiben müssen?

Das Webinar zeigt den Aufbau der Benchmark-Suite, zentrale Metriken zu Leistung, Kosten und Laufzeit sowie Vergleichsergebnisse verschiedener Modelle, darunter GPT, Claude, Gemini, Mistral und Llama. Zudem werden Infrastruktur-Optionen vorgestellt – von API-Diensten über OpenRouter bis zu lokalen HPC-Installationen – und in einer kurzen Demonstration gezeigt, wie sich die Suite für eigene Evaluationen einsetzen lässt.

Files

LLM-Benchmarking für die Digital Humanities_ 2025-11-11.pdf

Files (3.9 MB)

Additional details

Related works

Describes
Software: 10.5281/zenodo.16941752 (DOI)