TRACES Bulgarian Twitter Dataset on Famous Bulgarian Political Cases of Suspected Lies, Annotated with Linguistic Markers of Lies
Description
This dataset has been created within Project TRACES (more information: https://traces.gate-ai.eu/). The dataset contains 15850 tweet IDs of tweets, written in Bulgarian, with annotations. The dataset can be used for general use or for building lies and disinformation detection applications.
Note: this dataset is not fact-checked, the social media messages have been retrieved via keywords. For fact-checked datasets, see our other datasets.
The tweets (written between 1 Jan 2020 and 7 July 2022) have been collected via Twitter API under academic access in June-July 2022 with the following keywords without retweets:
-
(ваксиниран депутат) OR (ваксинирани депутати)
-
(язовири премиер) OR (язовири прокуратура) OR (язовири прокуратурата)
-
((мвр хемус) OR мвр) (прокуратура OR прокуратурата)
-
(шефът тотото) OR (изпълнителният директор Българския спортен тотализатор)
-
(кирил петков двойно гражданство) OR (премиер двойно гражданство) OR (премиер гражданство)
-
((Пътна OR загубена OR загуби OR изчезнала) карта газпром)
-
(министър плагиат плагиатство) OR (плагиат плагиатство)
-
((изслушване главния прокурор) OR (иван гешев))
-
(фалшива диплома)
-
(златни паспорти)
-
(апартаментгейт OR (къща за гости) OR (къщи за гости)
-
(оръжия OR оръжие) (Украйна OR украина)
-
((цена OR цени) (газ OR ток OR нафта OR бензин))
-
(мвр OR данс) (фалшиви новини)
-
(данъци OR данъчни OR данък)
-
((кораб Царевна) OR Царевна)
-
(Северна Македония)
Explanations of which fields can be used as markers of lies (or of intentional disinformation) are provided in our paper:
Irina Temnikova, Silvia Gargova, Ruslana Margova, Veneta Kireva, Ivo Dzhumerov, Tsvetelina Stefanova and Hristiana Nikolaeva (2023) New Bulgarian Resources for Detecting Disinformation. 10th Language and Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics (LTC'23). Poznań. Poland.