Corpus ALiB-Twitter

Mota, Laila

doi:10.5281/zenodo.13212866

Published February 25, 2023 | Version v1

Dataset Open

Corpus ALiB-Twitter

Mota, Laila (Researcher)¹

1. Universidade Federal da Bahia

Corpus ALiB-Twitter

O conjunto de dados tem a cobertura de um período de 10 anos, entre 01 de janeiro de 2013 à 31 de dezembro de 2022, período este que foi dividido em duas janelas de 5 anos cada, nomeadas Janelas A e B. A Janela A compreende o período de 01 de janeiro de 2013 à 31 de dezembro de 2017 e a Janela B o período de 01 de janeiro de 2018 à 31 de dezembro de 2022. Nomeado de CorpusALiB-Twitter, este é oriundo da coleta de tweets (Um tweet é uma mensagem curta, com um limite de 140 ou 280 caracteres, publicada na plataforma de mídia social Twitter. Os tweets podem conter texto, imagens, GIFs, vídeos e links) dos últimos 10 anos com a ocorrência de unidades lexicais selecionados do Atlas Linguístico do Brasil (ALiB).

Para a primeira etapa, coleta e criação de corpus, foi utilizada a ferramenta Twarc, uma biblioteca em Python para a coleta dos tweets via API do Twitter, graças à licença de uso de dados para fins acadêmicos, oferecida gratuitamente pela rede social à época da coleta, que permitiu a coleta de 10 milhões de tweets por mês e acesso ao histórico completo de tweets públicos.

Para a criação do corpus, foram coletados tweets com ocorrência de termos polissêmicos do Atlas Linguístico do Brasil, publicados entre o período de 01 de janeiro de 2013 a 31 de dezembro de 2022, contemplando uma janela de 10 anos.

A coleta de tweets é um processo que requer cuidadosa seleção de palavras-chave relevantes e a escolha de ferramentas de coleta adequadas. Além da janela de tempo, foi necessária a utilização de filtros para coleta através do Twarc que excluísse do retorno das buscas tweets de publicidade ou patrocinados, retweets, e foi utilizado o filtro de linguagem para que as buscas retornassem apenas tweets em língua portuguesa. Uma vez que nosso objeto de estudo são os textos dos tweets, também foram removidas, através do parâmetro de busca --no-context-annotations, informações de contexto do tweets, que são informações de rótulos de domínio ou entidade inferidas pelo Twitter a partir do texto e consequentemente resultam em arquivos maiores de dados. Podemos observar um exemplo de consulta realizada utilizando a instrução abaixo.

!twarc2 search --archive --start-time 2013-01-01 --end-time 2022-12-31 --no-context-annotations "{termo} -is:retweet -is:nullcast lang:pt" {termo}.json

Uma vez coletados os tweets, foi necessário realizar a limpeza dos dados, como links, imagens, emojis e símbolos que não correspondessem a caracteres da língua portuguesa utilizados na plataforma. Além disso, também foi realizada a remoção de menção a nomes de usuários, garantindo a anonimização dos dados coletados. Em seguida, foi preciso realizar a segmentação dos tweets em tokens, para que pudessem ser analisados com maior precisão. Dessa forma, todas as ocorrências de uma determinada unidade lexical em um período foram substituídos pelo token {unidade}20132017 para as ocorrências na Janela A e {unidade}20182022 para as ocorrências na Janela B.

O texto acima foi retirado do documento original: Dissertação de mestrado

Arquivos

A pasta corpus contém os arquivos csv após preprocessamento. O arquivo preprocess.py contém o código utilizado para a limpeza dos dados.

Notes

Arquivos utilizados na dissertação de mestrado "Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa" citada no artigo. Os dados não fazem parte diretamente das investigações do artigo. No artigo o referido trabalho de dissertação é citado como um dos trabalhos da revisão de literatura. Para mais detalhes, consultar a dissertação.

Files

biscate_prepro.csv

Files (638.2 MB)

Name	Size	Download all
birosca_prepro.csv md5:6c22bd9234419fd5f201d2591f5b2461	11.2 MB	Preview Download
biscate_prepro.csv md5:f0047a8440c89ca08abdcf40e77c7576	53.1 MB	Preview Download
broca_prepro.csv md5:dccbd1b3a262acd424934548c22c7fde	38.4 MB	Preview Download
carambola_prepro.csv md5:f744432a3de83b151418ff79b5b1bcd2	20.3 MB	Preview Download
estilete_prepro.csv md5:09002165cf324be8548947ff75aa5da5	11.0 MB	Preview Download
lagarta_prepro.csv md5:c9dcf288595d33126fca917c10c47743	18.1 MB	Preview Download
mortal_prepro.csv md5:8a9686b2b783bbe42b5a088680035d77	318.7 MB	Preview Download
perereca_prepro.csv md5:4fb0215059ba589398ffd9ff4376bbec	72.4 MB	Preview Download
peteca_prepro.csv md5:b2fd4db66965497f134c1de2789ffed4	25.1 MB	Preview Download
preprocess.py md5:3714e92b16be244613ae9f80598b86a9	10.5 kB	Download
prima_prepro.csv md5:bb0521889a9b7169ac2d6df960afad49	64.5 MB	Preview Download
ruge_prepro.csv md5:a3f4305465272b18199974dddfe1dcbf	5.2 MB	Preview Download

Additional details

Is documented by: Dissertation: https://repositorio.ufba.br/handle/ri/40511 (URL)

Development Status: Suspended

SANTOS, Laila Pereira Mota. Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. 2024. 180 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024.

	All versions	This version
Views	38	38
Downloads	37	37
Data volume	2.1 GB	2.1 GB

Corpus ALiB-Twitter

Arquivos

biscate_prepro.csv

Files (638.2 MB)

Related works

Software

References

Corpus ALiB-Twitter

Authors/Creators

Description

Corpus ALiB-Twitter

Arquivos

Notes

Files

biscate_prepro.csv

Files (638.2 MB)

Additional details

Related works

Software

References