Experimento da Avaliação Empírica do SMOTE na Detecção de Malware Android com Machine Learning: Desafios e Desempenho no CICMalDroid 2020
Authors/Creators
Contributors
Researchers:
Description
Malware, software malicioso projetado para danificar sistemas computacionais e aplicar golpes, prolifera-se em ritmo alarmante, com milhares de novas ameaças surgindo diariamente. Dispositivos Android, predominantes em smartphones, smartwatches, tablets e IoTs, representam uma vasta superfície de ataque, tornando a detecção de malware crucial. Embora existam técnicas avançadas de análise, o Aprendizado de Máquina (ML) emerge como uma ferramenta promissora para automatizar e acelerar a descoberta dessas ameaças. Este trabalho testa algoritmos de ML na detecção de códigos maliciosos a partir de características dinâmicas de execução. Para isso, foi empregada a base de dados CICMalDroid2020, composta por amostras de comportamento de malwares para Android obtidas dinamicamente, utilizando os algoritmos XGBoost, Naïve Bayes (NB), Support Vector Classifier (SVC) e Random Forest (RF). O estudo focou na avaliação empírica do impacto da técnica SMOTE, utilizada para mitigar o desequilíbrio de classes presente nos dados, na performance desses modelos. Os resultados indicam que, em 75% das configurações testadas, a aplicação do SMOTE levou a uma degradação de desempenho ou a melhorias apenas marginais, com uma perda média de 6,14 pontos percentuais. Algoritmos baseados em árvores, como XGBoost e Random Forest, consistentemente superaram os demais, alcançando sensibilidade ponderada acima de 94%. Infere-se que o SMOTE, embora amplamente utilizado, não se mostrou benéfico para a detecção de malware Android na base CICMalDroid2020, possivelmente devido à complexidade e esparsidade das características dinâmicas ou à natureza das relações maliciosas. Este trabalho destaca a robustez de modelos baseados em ensembles de árvores, como o XGBoost, e sugere que abordagens algorítmicas de balanceamento de dados podem ser mais eficazes que a geração de instâncias sintéticas em certos cenários de cibersegurança.
Files
exp.ipynb
Files
(608.6 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:94783bfdd9e4b3f04ec716e84ebd5ab2
|
608.6 kB | Preview Download |
Additional details
Software
- Repository URL
- https://github.com/ugsto/experimento-smote-deteccao-de-malware-cicmaldroid-2020
- Programming language
- Jupyter Notebook , Python