Published June 8, 2025 | Version 1.0.0
Computational notebook Open

Experimento da Avaliação Empírica do SMOTE na Detecção de Malware Android com Machine Learning: Desafios e Desempenho no CICMalDroid 2020

  • 1. ROR icon Universidade Federal do Rio Grande do Sul
  • 1. ROR icon Universidade Federal do Rio Grande do Sul

Description

Malware, software malicioso projetado para danificar sistemas computacionais e aplicar golpes, prolifera-se em ritmo alarmante, com milhares de novas ameaças surgindo diariamente. Dispositivos Android, predominantes em smartphones, smartwatches, tablets e IoTs, representam uma vasta superfície de ataque, tornando a detecção de malware crucial. Embora existam técnicas avançadas de análise, o Aprendizado de Máquina (ML) emerge como uma ferramenta promissora para automatizar e acelerar a descoberta dessas ameaças. Este trabalho testa algoritmos de ML na detecção de códigos maliciosos a partir de características dinâmicas de execução. Para isso, foi empregada a base de dados CICMalDroid2020, composta por amostras de comportamento de malwares para Android obtidas dinamicamente, utilizando os algoritmos XGBoost, Naïve Bayes (NB), Support Vector Classifier (SVC) e Random Forest (RF). O estudo focou na avaliação empírica do impacto da técnica SMOTE, utilizada para mitigar o desequilíbrio de classes presente nos dados, na performance desses modelos. Os resultados indicam que, em 75% das configurações testadas, a aplicação do SMOTE levou a uma degradação de desempenho ou a melhorias apenas marginais, com uma perda média de 6,14 pontos percentuais. Algoritmos baseados em árvores, como XGBoost e Random Forest, consistentemente superaram os demais, alcançando sensibilidade ponderada acima de 94%. Infere-se que o SMOTE, embora amplamente utilizado, não se mostrou benéfico para a detecção de malware Android na base CICMalDroid2020, possivelmente devido à complexidade e esparsidade das características dinâmicas ou à natureza das relações maliciosas. Este trabalho destaca a robustez de modelos baseados em ensembles de árvores, como o XGBoost, e sugere que abordagens algorítmicas de balanceamento de dados podem ser mais eficazes que a geração de instâncias sintéticas em certos cenários de cibersegurança.

Files

exp.ipynb

Files (608.6 kB)

Name Size Download all
md5:94783bfdd9e4b3f04ec716e84ebd5ab2
608.6 kB Preview Download

Additional details