Published February 21, 2024 | Version v1
Conference paper Open

Disambiguierung von Wortbedeutungen aus dem Thesaurus Linguae Latinae mittels Fine-tuning von Latin BERT

  • 1. BAdW, Deutschland
  • 1. Universität Trier
  • 2. Universität Luxemburg
  • 3. Universität Passau
  • 4. Digital Humanities im deutschsprachigen Raum
  • 5. Universität zu Köln

Description

Der Thesaurus Linguae Latinae (TLL) ist ein umfassendes einsprachiges Wörterbuch, das kontextualisierte Bedeutungen und Verwendungen lateinischer Wörter in antiken Quellen verzeichnet. Wir haben einen neuen Datensatz zum Wortbedeutungsdisambiguierung (Word Sense Disambiguation) erstellt, der auf Bedeutungsdarstellungen im TLL basiert, und haben damit das Latin-BERT-Modell finegetuned. Unsere BERT-Resultate auf TLL-Daten sind besser als mit einem Vergleichsmodell (biLSTM-Architektur mit static embeddings) erzeugte, und ergaben eine höhere und robustere Leistung. Wir diskutieren die Unterschiede der Prinzipien für die Organisation der Bedeutungenzwischen den beiden lexikalischen Ressourcen und berichten über unsere Datensatzkonstruktion und verbesserte Bewertungsmethode.

Files

VO31_LENDVAI_Piroska_Disambiguierung_von_Wortbedeutungen_aus_dem_.pdf

Additional details

Related works

Is part of
Book: 10.5281/zenodo.10686564 (DOI)