Published February 25, 2023 | Version v1
Dataset Open

Corpus ALiB-Twitter

  • 1. ROR icon Universidade Federal da Bahia

Description

Corpus ALiB-Twitter

O conjunto de dados tem a cobertura de um período de 10 anos, entre 01 de janeiro de 2013 à 31 de dezembro de 2022, período este que foi dividido em duas janelas de 5 anos cada, nomeadas Janelas A e B. A Janela A compreende o período de 01 de janeiro de 2013 à 31 de dezembro de 2017 e a Janela B o período de 01 de janeiro de 2018 à 31 de dezembro de 2022. Nomeado de CorpusALiB-Twitter, este é oriundo da coleta de tweets (Um tweet é uma mensagem curta, com um limite de 140 ou 280 caracteres, publicada na plataforma de mídia social Twitter. Os tweets podem conter texto, imagens, GIFs, vídeos e links) dos últimos 10 anos com a ocorrência de unidades lexicais selecionados do Atlas Linguístico do Brasil (ALiB).

Para a primeira etapa, coleta e criação de corpus, foi utilizada a ferramenta Twarc, uma biblioteca em Python para a coleta dos tweets via API do Twitter, graças à licença de uso de dados para fins acadêmicos, oferecida gratuitamente pela rede social à época da coleta, que permitiu a coleta de 10 milhões de tweets por mês e acesso ao histórico completo de tweets públicos.

Para a criação do corpus, foram coletados tweets com ocorrência de termos polissêmicos do Atlas Linguístico do Brasil, publicados entre o período de 01 de janeiro de 2013 a 31 de dezembro de 2022, contemplando uma janela de 10 anos.

A coleta de tweets é um processo que requer cuidadosa seleção de palavras-chave relevantes e a escolha de ferramentas de coleta adequadas. Além da janela de tempo, foi necessária a utilização de filtros para coleta através do Twarc que excluísse do retorno das buscas tweets de publicidade ou patrocinados, retweets, e foi utilizado o filtro de linguagem para que as buscas retornassem apenas tweets em língua portuguesa. Uma vez que nosso objeto de estudo são os textos dos tweets, também foram removidas, através do parâmetro de busca --no-context-annotations, informações de contexto do tweets, que são informações de rótulos de domínio ou entidade inferidas pelo Twitter a partir do texto e consequentemente resultam em arquivos maiores de dados. Podemos observar um exemplo de consulta realizada utilizando a instrução abaixo.

!twarc2 search --archive --start-time 2013-01-01 --end-time 2022-12-31 --no-context-annotations "{termo} -is:retweet -is:nullcast lang:pt" {termo}.json
 

Uma vez coletados os tweets, foi necessário realizar a limpeza dos dados, como links, imagens, emojis e símbolos que não correspondessem a caracteres da língua portuguesa utilizados na plataforma. Além disso, também foi realizada a remoção de menção a nomes de usuários, garantindo a anonimização dos dados coletados. Em seguida, foi preciso realizar a segmentação dos tweets em tokens, para que pudessem ser analisados com maior precisão. Dessa forma, todas as ocorrências de uma determinada unidade lexical em um período foram substituídos pelo token {unidade}20132017 para as ocorrências na Janela A e {unidade}20182022 para as ocorrências na Janela B.

O texto acima foi retirado do documento original: Dissertação de mestrado

Arquivos

A pasta corpus contém os arquivos csv após preprocessamento. O arquivo preprocess.py contém o código utilizado para a limpeza dos dados.

Notes

Arquivos utilizados na dissertação de mestrado "Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa" citada no artigo. Os dados não fazem parte diretamente das investigações do artigo. No artigo o referido trabalho de dissertação é citado como um dos trabalhos da revisão de literatura. Para mais detalhes, consultar a dissertação.

Files

biscate_prepro.csv

Files (638.2 MB)

Name Size Download all
md5:6c22bd9234419fd5f201d2591f5b2461
11.2 MB Preview Download
md5:f0047a8440c89ca08abdcf40e77c7576
53.1 MB Preview Download
md5:dccbd1b3a262acd424934548c22c7fde
38.4 MB Preview Download
md5:f744432a3de83b151418ff79b5b1bcd2
20.3 MB Preview Download
md5:09002165cf324be8548947ff75aa5da5
11.0 MB Preview Download
md5:c9dcf288595d33126fca917c10c47743
18.1 MB Preview Download
md5:8a9686b2b783bbe42b5a088680035d77
318.7 MB Preview Download
md5:4fb0215059ba589398ffd9ff4376bbec
72.4 MB Preview Download
md5:b2fd4db66965497f134c1de2789ffed4
25.1 MB Preview Download
md5:3714e92b16be244613ae9f80598b86a9
10.5 kB Download
md5:bb0521889a9b7169ac2d6df960afad49
64.5 MB Preview Download
md5:a3f4305465272b18199974dddfe1dcbf
5.2 MB Preview Download

Additional details

Related works

Is documented by
Dissertation: https://repositorio.ufba.br/handle/ri/40511 (URL)

Software

Development Status
Suspended

References

  • SANTOS, Laila Pereira Mota. Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. 2024. 180 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024.