Published September 4, 2025 | Version v1
Dataset Open

Repositório de dados e algoritmos da tese de doutorado: Classificação de contas entre bots e humanas que divulgam artigos científicos no X (Twitter)

  • 1. ROR icon Universidade de Brasília

Description

Este repositório reúne os dados e algoritmos desenvolvidos no contexto da tese de doutorado CLASSIFICAÇÃO DE CONTAS ENTRE BOTS E HUMANAS QUE DIVULGAM ARTIGOS CIENTÍFICOS NO X: CONTRIBUIÇÕES PARA APRIMORAMENTO DOS INDICADORES ALTMÉTRICOS, com foco na divulgação científica e na confiabilidade dos indicadores altmétricos. Foram aplicadas técnicas de aprendizado de máquina (XGBoost). O material disponibilizado inclui:
- Um Dataset rotulado com 13.767 contas (humanas e bots), validado manualmente e integrado a fontes reconhecidas da literatura;
- Scripts dos algoritmos utilizados para o treinamento e avaliação dos modelos;
- O Modelo de Aprendizagem de Maquina gerado que classifica as contas do X a partir de 46 variáveis preditivas.
Os resultados evidenciam o impacto desproporcional dos bots nas métricas altmétricas e reforçam a importância de abordagens computacionais especializadas para garantir a transparência na avaliação da ciência nas redes sociais.
Palavras-chave: altmetria, redes sociais, bots, inteligência artificial, aprendizado de máquina.

Abstract (English)

This repository brings together the data and algorithms developed in the context of the doctoral thesis CLASSIFICATION OF ACCOUNTS BETWEEN BOTS AND HUMANS THAT SHARE SCIENTIFIC ARTICLES ON X: CONTRIBUTIONS TO IMPROVING ALTMETRIC INDICATORS, with a focus on scientific dissemination and the reliability of altmetric indicators. Machine learning techniques (XGBoost) were applied. The available materials include:

  • A labeled dataset with 13,767 accounts (humans and bots), manually validated and integrated with recognized sources from the literature;

  • Algorithm scripts used for training and evaluating the models;

  • The generated machine learning model, which classifies X accounts based on 46 predictive variables.

The results highlight the disproportionate impact of bots on altmetric metrics and reinforce the importance of specialized computational approaches to ensure transparency in the evaluation of science on social media.

Keywords: altmetrics, social media, bots, artificial intelligence, machine learning.

Files

DATA.zip

Files (3.6 GB)

Name Size Download all
md5:521d9d28666faf33b75850eb9f690443
3.2 GB Preview Download
md5:25715922a4ee1385720011cc43baf629
336.8 MB Preview Download
md5:61a042e572c95ed4eacd51bf8340af0b
882.2 kB Preview Download
md5:c0fdff4e42bc3348ac574f066ed6d337
11.1 kB Preview Download