Standoff-Tools - Generische Dienste für die automatische Annotation von XML-Dokumenten mit Plain-Text-Werkzeugen
Contributors
Editors:
Project members:
- 1. Universität Potsdam, Deutschland
- 2. Digital Humanities im deutschsprachigen Raum e.V., Deutschland
- 3. University of Luxembourg
- 4. Universität Trier, Deutschland
Description
TEI XML ist eine exzellente Technologie für digitale Editionen. Aber für die computationelle Analyse ist ein Korpus von XML-Dokumenten keine günstige Datengrundlage, weil Algorithmen erheblich komplexer werden, wenn statt linearem plain text ein XML-Baum durchlaufen werden muss. Zwar ist die Extraktion von plain text aus XML nicht aufwendig, aber für die Rückführung von Analyse-Ergebnissen in den XML-Baum gibt es bislang keine allgemeine Lösung. Dennoch ist eine solche Rückführung generell interessant, weil dann Analyse-Ergebnisse und die Struktur des Dokuments ein einer allgemeinen Abfragesprache wie XQuery ausgewertet werden können. Es existieren Insellösungen zum Enrichment von TEI-XML durch NLP oder NER (Meyer 2022) oder für die automatische Annotation bestimmter rhetorischer Figuren (Consalvi et Fumagalli 2022). Wünschenswert wäre jedoch, Analyse-Tools für plain text entwickeln und sie dennoch zum Enrichment von XML einsetzen zu können. Genau dies ermöglichen die hier vorgestellten standoff-tools. Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture.
Files
L_CK_Christian_Standoff_Tools___Generische_Dienste_f_r_die_a.pdf
Files
(98.9 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:b8b1b7e26e2c18eee8cbac4802bed37f
|
83.9 kB | Preview Download |
|
md5:ed087b57784c6c175bd3645844342e73
|
14.9 kB | Preview Download |
Additional details
Related works
- Is part of
- Book: 10.5281/zenodo.7688632 (DOI)
- Is supplemented by
- Poster: 10.5281/zenodo.7711558 (DOI)