Siehe unten für die deutsche Version.
Dataset
Dominik Schlechtweg, Haim Dubossarsky, Simon Hengchen, Barbara McGillivray, Nina Tahmasebi
This data collection contains diachronic Word Usage Graphs (WUGs) for English. Find a description of the data format, code to process the data and further datasets on the WUGsite.
See previous versions for additional testsets.
Please find more information on the provided data in the paper referenced below.
Version: 2.0.1, 30.11.2022. Assigns noise uses the cluster label '-1' instead of removing them. Important: Version 2.0.0 extends previous versions with one more annotation round and new clusterings.
Dominik Schlechtweg, Nina Tahmasebi, Simon Hengchen, Haim Dubossarsky, Barbara McGillivray. 2021. DWUG: A large Resource of Diachronic Word Usage Graphs in Four Languages. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing.
Datensatz
Dominik Schlechtweg, Haim Dubossarsky, Simon Hengchen, Barbara McGillivray, Nina Tahmasebi
Diese Datensammlung enthält diachrone Wortverwendungsgraphen (WUGs) fürs Englische. Eine Beschreibung des Datenformats, Code zur Verarbeitung der Daten und weitere Datensätze finden Sie auf der WUGseite.
Zusätzliche Testdaten finden Sie in früheren Versionen.
Weitere Informationen zu den bereitgestellten Daten entnehmen Sie bitte dem unten angegebenen Papier.
Version: 2.0.1, 30.11.2022. Weist noisy Verwendungen das Cluster-Label '-1' zu, anstatt sie zu entfernen. Wichtig: Version 2.0.0 erweitert frühere Versionen um eine weitere Annotationsrunde und neue Clusterings.
Dominik Schlechtweg, Nina Tahmasebi, Simon Hengchen, Haim Dubossarsky, Barbara McGillivray. 2021. DWUG: A large Resource of Diachronic Word Usage Graphs in Four Languages. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing.