Corpus ALiB-Twitter
Description
O conjunto de dados tem a cobertura de um período de 10 anos, entre 01 de janeiro de 2013 à 31 de dezembro de 2022, período este que foi dividido em duas janelas de 5 anos cada, nomeadas Janelas A e B. A Janela A compreende o período de 01 de janeiro de 2013 à 31 de dezembro de 2017 e a Janela B o período de 01 de janeiro de 2018 à 31 de dezembro de 2022. Nomeado de CorpusALiB-Twitter, este é oriundo da coleta de tweets (Um tweet é uma mensagem curta, com um limite de 140 ou 280 caracteres, publicada na plataforma de mídia social Twitter. Os tweets podem conter texto, imagens, GIFs, vídeos e links) dos últimos 10 anos com a ocorrência de unidades lexicais selecionados do Atlas Linguístico do Brasil (ALiB).
Para a primeira etapa, coleta e criação de corpus, foi utilizada a ferramenta Twarc, uma biblioteca em Python para a coleta dos tweets via API do Twitter, graças à licença de uso de dados para fins acadêmicos, oferecida gratuitamente pela rede social à época da coleta, que permitiu a coleta de 10 milhões de tweets por mês e acesso ao histórico completo de tweets públicos.
Para a criação do corpus, foram coletados tweets com ocorrência de termos polissêmicos do Atlas Linguístico do Brasil, publicados entre o período de 01 de janeiro de 2013 a 31 de dezembro de 2022, contemplando uma janela de 10 anos.
A coleta de tweets é um processo que requer cuidadosa seleção de palavras-chave relevantes e a escolha de ferramentas de coleta adequadas. Além da janela de tempo, foi necessária a utilização de filtros para coleta através do Twarc que excluísse do retorno das buscas tweets de publicidade ou patrocinados, retweets, e foi utilizado o filtro de linguagem para que as buscas retornassem apenas tweets em língua portuguesa. Uma vez que nosso objeto de estudo são os textos dos tweets, também foram removidas, através do parâmetro de busca --no-context-annotations, informações de contexto do tweets, que são informações de rótulos de domínio ou entidade inferidas pelo Twitter a partir do texto e consequentemente resultam em arquivos maiores de dados. Podemos observar um exemplo de consulta realizada utilizando a instrução abaixo.
!twarc2 search --archive --start-time 2013-01-01 --end-time 2022-12-31 --no-context-annotations "{termo} -is:retweet -is:nullcast lang:pt" {termo}.json
Uma vez coletados os tweets, foi necessário realizar a limpeza dos dados, como links, imagens, emojis e símbolos que não correspondessem a caracteres da língua portuguesa utilizados na plataforma. Além disso, também foi realizada a remoção de menção a nomes de usuários, garantindo a anonimização dos dados coletados. Em seguida, foi preciso realizar a segmentação dos tweets em tokens, para que pudessem ser analisados com maior precisão. Dessa forma, todas as ocorrências de uma determinada unidade lexical em um período foram substituídos pelo token {unidade}20132017 para as ocorrências na Janela A e {unidade}20182022 para as ocorrências na Janela B.
O texto acima foi retirado do documento original: Dissertação de mestrado
A pasta corpus contém os arquivos csv após preprocessamento. O arquivo preprocess.py contém o código utilizado para a limpeza dos dados.
Notes
Files
biscate_prepro.csv
Files
(638.2 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:6c22bd9234419fd5f201d2591f5b2461
|
11.2 MB | Preview Download |
|
md5:f0047a8440c89ca08abdcf40e77c7576
|
53.1 MB | Preview Download |
|
md5:dccbd1b3a262acd424934548c22c7fde
|
38.4 MB | Preview Download |
|
md5:f744432a3de83b151418ff79b5b1bcd2
|
20.3 MB | Preview Download |
|
md5:09002165cf324be8548947ff75aa5da5
|
11.0 MB | Preview Download |
|
md5:c9dcf288595d33126fca917c10c47743
|
18.1 MB | Preview Download |
|
md5:8a9686b2b783bbe42b5a088680035d77
|
318.7 MB | Preview Download |
|
md5:4fb0215059ba589398ffd9ff4376bbec
|
72.4 MB | Preview Download |
|
md5:b2fd4db66965497f134c1de2789ffed4
|
25.1 MB | Preview Download |
|
md5:3714e92b16be244613ae9f80598b86a9
|
10.5 kB | Download |
|
md5:bb0521889a9b7169ac2d6df960afad49
|
64.5 MB | Preview Download |
|
md5:a3f4305465272b18199974dddfe1dcbf
|
5.2 MB | Preview Download |
Additional details
Related works
- Is documented by
- Dissertation: https://repositorio.ufba.br/handle/ri/40511 (URL)
Software
- Development Status
- Suspended
References
- SANTOS, Laila Pereira Mota. Análise da mudança semântica lexical: identificação e caracterização na língua portuguesa. 2024. 180 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024.