Published March 10, 2023 | Version v1
Conference paper Open

Standoff-Tools - Generische Dienste für die automatische Annotation von XML-Dokumenten mit Plain-Text-Werkzeugen

  • 1. Westfälische Wilhelms-Universität Münster, Deutschland
  • 1. Universität Potsdam, Deutschland
  • 2. Digital Humanities im deutschsprachigen Raum e.V., Deutschland
  • 3. University of Luxembourg
  • 4. Universität Trier, Deutschland

Description

TEI XML ist eine exzellente Technologie für digitale Editionen. Aber für die computationelle Analyse ist ein Korpus von XML-Dokumenten keine günstige Datengrundlage, weil Algorithmen erheblich komplexer werden, wenn statt linearem plain text ein XML-Baum durchlaufen werden muss. Zwar ist die Extraktion von plain text aus XML nicht aufwendig, aber für die Rückführung von Analyse-Ergebnissen in den XML-Baum gibt es bislang keine allgemeine Lösung. Dennoch ist eine solche Rückführung generell interessant, weil dann Analyse-Ergebnisse und die Struktur des Dokuments ein einer allgemeinen Abfragesprache wie XQuery ausgewertet werden können. Es existieren Insellösungen zum Enrichment von TEI-XML durch NLP oder NER (Meyer 2022) oder für die automatische Annotation bestimmter rhetorischer Figuren (Consalvi et Fumagalli 2022). Wünschenswert wäre jedoch, Analyse-Tools für plain text entwickeln und sie dennoch zum Enrichment von XML einsetzen zu können. Genau dies ermöglichen die hier vorgestellten standoff-tools. Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture.

Files

L_CK_Christian_Standoff_Tools___Generische_Dienste_f_r_die_a.pdf

Additional details

Related works

Is part of
Book: 10.5281/zenodo.7688632 (DOI)
Is supplemented by
Poster: 10.5281/zenodo.7711558 (DOI)