Covid Data Analytics: Repositório de Dados Provenientes de Múltiplas Fontes sobre a Pandemia de COVID-19 no Brasil
Description
Uma estratégia para melhor compreender as diversas facetas e possíveis impactos da pandemia de COVID-19 na sociedade consiste na extração de informação e conhecimento a partir de dados provenientes de diversas fontes oficiais e não oficiais.
A importância desse tema fomentou a publicação de diversos artigos científicos que investigam aspectos relacionados à pandemia de COVID-19 no Brasil por meio de análises de dados. Alguns trabalhos, por exemplo, fornecem caracterizações e descrições da evolução da doença no país~\cite{ranzani2021characterisation}, considerando, inclusive, a subnotificação de casos pelas agências oficiais. Outros modelam e preveem a evolução da COVID-19, utilizando dados referentes aos primeiros meses da pandemia e empregando diferentes métodos ou mesmo utilizando dados de geolocalização e de dinâmica populacional.
Nesse contexto, é importante que, sempre que possível, os dados utilizados para as pesquisas sejam disponibilizados à comunidade científica, seja para fins de replicabilidade dos resultados encontrados, seja para a promoção de novas investigações.
Os dados disponibilizados no nosso repositório foram coletados no período entre 23 de fevereiro e 8 de maio de 2021.
Este repositório agrega 1.086 arquivos, classificados em dois tipos principais: (i) bases de dados e tabelas extraídas das fontes descritas anteriormente e; (ii) artigos, relatórios, mapas e gráficos produzidos pelo projeto a partir da utilização dos dados coletados.
Dados de Fontes Externas
Estes arquivos representam 8\% do total de arquivos que compõem o repositório e estão distribuídos da seguinte maneira:
- Séries temporais com indicadores econômicos das Unidades Federativas do Brasil e da União em formato .csv, com aproximadamente 18.400 registros;
- 7 scripts de tratamento de dados em formato .py.
- 5 arquivos com a contagem do número de tweets e retweets coletados semanalmente utilizando 13 palavras-chave (“corona”, “covid”, “coronavirus”, “covid19”, “quarentena”,“hidroxicloroquina”, “cloroquina”, “confinamento”, “distanciamento social”, “aglomeração”, “aglomerações”, “sars” e “covid-19”) formato .csv
- 3 arquivos do Google Trends no formato .csv com 249 registros contendo 124 termos pré-selecionados que têm relação com a pandemia e o percentual relativo de buscas na web nos níveis regional e nacional. %\ana{de novo, o que tem nestes csvs?}.
- Análises e Relatórios
- Os arquivos com as análises e relatórios representam 92\% do total de arquivos do repositório. Além de documentos de texto, também foram disponibilizados materiais visuais, como mapas e gráficos, em diversos formatos. Os arquivos estão distribuídos da seguinte maneira.
- 23 gráficos comparativos de indicadores sociais e econômicos, análises descritivas dos ocupados em atividades essenciais e não essências por regiões em formato .svg;
- 409 gráficos de novos casos e óbitos (02 a 09 de setembro) em formato .png;
- 522 mapas e gráficos de linhas e barras acerca dos casos e óbitos acumulados de COVID-19 em todo o país entre as semanas epidemiológicas 9 e 32 de 2020 (23/02/2020 a 08/08/2020) em formato .png;
- 15 arquivos de medidas provisórias em formato .pdf;
- 1 gráfico interativo gerado a partir do cálculo da mortalidade (óbitos acumulados por 100 mil habitantes) no Brasil em formato .html;
- 25 animações mostrando a evolução da letalidade (mortes acumuladas / casos acumulados) em \% em todos estados do Brasil a cada semana epidemiológica da 9ª à 31ª em formato .gif;
- 1 relatório sobre análises das informações disponíveis para coleta na ferramenta Google Trends em formato .pdf;
- 4 relatórios sobre análises das informações disponíveis dos grupos de pesquisa em formato .pdf;
Limitações nas Bases de Dados Disponibilizadas
Devido a questões de privacidade, algumas bases de dados, obtidas através da extração de informações das redes sociais online não foram integralmente disponibilizadas no repositório.
Nestes casos, disponibilizamos análises extraídas a partir destas bases, realizadas com o propósito de responder algumas das perguntas de pesquisa do projeto. As análises realizadas durante o projeto estão disponíveis em \url{https://covid.dcc.ufmg.br/}.
A disponibilização dos dados ocorreu por meio do padrão Open Data Standards e, a partir dele, foram criados e organizados os arquivos, de acordo com o respectivo formato e tipo de informação. Eles foram integrados ao drive do grupo tecnológico por intermédio de um formulário, e utilizaram-se de um script para transformar os dados do formulário em um arquivo XML. Como resultado, pôde-se modelar e preencher o banco de dados a partir do arquivo XML e, por fim, integrá-lo a um buscador criado em Wordpress, que fica disponível para download no portal do projeto CDA maiores informações: https://covid.dcc.ufmg.br/linhas/dados/
Files
CovidDataAnalytics_DataSet.zip
Files
(81.4 MB)
Name | Size | Download all |
---|---|---|
md5:a32450f4c84273d79c90be12154ea573
|
81.4 MB | Preview Download |