There is a newer version of the record available.

Published August 10, 2021 | Version 0.1.1.6
Dataset Open

Covid Data Analytics: Repositório de Dados Provenientes de Múltiplas Fontes sobre a Pandemia de COVID-19 no Brasil

Description

Uma estratégia para melhor compreender as diversas facetas e possíveis impactos da pandemia de COVID-19 na sociedade consiste na extração de informação e conhecimento a partir de dados provenientes de diversas fontes oficiais e não oficiais.

A importância desse tema fomentou a publicação de diversos artigos científicos que investigam aspectos relacionados à pandemia de COVID-19 no Brasil por meio de análises de dados. Alguns trabalhos, por exemplo, fornecem caracterizações e descrições da evolução da doença no país~\cite{ranzani2021characterisation}, considerando, inclusive, a subnotificação de casos pelas agências oficiais. Outros modelam e preveem a evolução da COVID-19, utilizando dados referentes aos primeiros meses da pandemia e empregando diferentes métodos ou mesmo utilizando dados de geolocalização e de dinâmica populacional.

Nesse contexto, é importante que, sempre que possível, os dados utilizados para as pesquisas sejam disponibilizados à comunidade científica, seja para fins de  replicabilidade dos resultados encontrados, seja para a promoção de novas investigações.

Os dados disponibilizados no nosso repositório foram coletados no período entre 23 de fevereiro e 8 de maio de 2021.
Este repositório agrega 1.086 arquivos, classificados em dois tipos principais: (i) bases de dados e tabelas extraídas das fontes descritas anteriormente e; (ii) artigos, relatórios, mapas e gráficos produzidos pelo projeto a partir da utilização dos dados coletados.

Dados de Fontes Externas

Estes arquivos representam 8\% do total de arquivos que compõem o repositório e estão distribuídos da seguinte maneira:

  • Séries temporais com indicadores econômicos das Unidades Federativas do Brasil e da União em formato .csv, com aproximadamente 18.400 registros;
  • 7 scripts de tratamento de dados em formato .py.
  • 5 arquivos com a contagem do número de tweets e retweets coletados semanalmente utilizando 13 palavras-chave (“corona”, “covid”, “coronavirus”, “covid19”, “quarentena”,“hidroxicloroquina”, “cloroquina”, “confinamento”, “distanciamento social”, “aglomeração”, “aglomerações”, “sars” e “covid-19”) formato .csv 
  • 3 arquivos do Google Trends no formato .csv com 249 registros contendo 124 termos pré-selecionados que têm relação com a pandemia e o percentual relativo de buscas na web nos níveis regional e nacional. %\ana{de novo, o que tem nestes csvs?}.
     
  • Análises e Relatórios
  • Os arquivos com as análises e relatórios representam 92\% do total de arquivos do repositório. Além de documentos de texto, também foram disponibilizados materiais visuais, como mapas e gráficos, em diversos formatos. Os arquivos estão distribuídos da seguinte maneira.

    

  • 23 gráficos comparativos de indicadores sociais e econômicos, análises descritivas dos ocupados em atividades essenciais e não essências por regiões em formato .svg;
  • 409 gráficos de novos casos e óbitos (02 a 09 de setembro) em formato .png;
  •  522 mapas e gráficos de linhas e barras acerca dos casos e óbitos acumulados de COVID-19 em todo o país entre as semanas epidemiológicas 9 e 32 de 2020 (23/02/2020 a 08/08/2020) em formato .png;
  • 15 arquivos de medidas provisórias em formato .pdf;
  • 1 gráfico interativo gerado a partir do cálculo da mortalidade (óbitos acumulados por 100 mil habitantes) no Brasil em formato .html;
  • 25 animações mostrando a evolução da letalidade (mortes acumuladas / casos acumulados) em \% em todos estados do Brasil a cada semana epidemiológica da 9ª à 31ª em formato .gif;
  • 1 relatório sobre análises das informações disponíveis para coleta na ferramenta Google Trends em formato .pdf;
  • 4 relatórios sobre análises das informações disponíveis dos grupos de pesquisa em formato .pdf;  

Limitações nas Bases de Dados Disponibilizadas
Devido a questões de privacidade, algumas bases de dados, obtidas através da extração de informações das redes sociais online não foram integralmente disponibilizadas no repositório.
Nestes casos, disponibilizamos análises extraídas a partir destas bases, realizadas com o propósito de responder algumas das perguntas de pesquisa do projeto. As análises realizadas durante o projeto estão disponíveis em  \url{https://covid.dcc.ufmg.br/}.

A disponibilização dos dados ocorreu por meio do  padrão Open Data Standards e, a partir dele, foram criados e organizados os arquivos, de acordo com o respectivo formato e tipo de informação. Eles foram integrados ao drive do grupo tecnológico por intermédio de um formulário, e utilizaram-se de um script para transformar os dados do formulário em um arquivo XML. Como resultado, pôde-se modelar e preencher o banco de dados a partir do arquivo XML e, por fim, integrá-lo a um buscador criado em Wordpress, que fica disponível para download no portal do projeto CDA maiores informações: https://covid.dcc.ufmg.br/linhas/dados/ 

Files

CovidDataAnalytics_DataSet.zip

Files (81.4 MB)

Name Size Download all
md5:a32450f4c84273d79c90be12154ea573
81.4 MB Preview Download