Published October 14, 2020 | Version v1
Journal article Open

Validação e construção de um dicionário léxico para auxiliar a análise de sentimentos em repositórios de projetos de software

  • 1. Universidade Federal da Bahia (UFBA)

Description

A análise de sentimentos faz inferência sobre polaridades em palavras que podem representar possíveis emoções. A assertividade dessa classificação é importante para a confiabilidade do resultado esperado. Por esta razão, este trabalho busca investigar, validar e construir um dicionário léxico, no contexto de Engenharia de Software, utilizando como base 560 palavras, emoticons e expressões idiomáticas da ferramenta SentiStrength-SE. Um experimento com 559 questões respondidas por 48 participantes da área de Computação foi realizado para validação da concordância dos termos léxicos do dicionário. Ao final da coleta dos dados os termos foram reunidos para validação utilizando uma base de dados do Stack Overflow para encontrar os resultados sobre accuracy, precision, recall e F1-score do novo dicionário. O novo dicionário léxico apresenta 79% de acurácia e precisão, com 78% de Recall e F1-score com um intervalo de polaridade menor do que o dicionário original.

Abstract

Sentiment analysis makes inference about polarities in words that can represent possible emotions. The assertiveness of this classification is important for the results reliability. For this reason, this article investigates, validates and builds the lexicon dictionary, in the context of Software Engineering, using 560 words, emoticons and idiomatic expressions from the SentiStrength-SE tool. An experiment online with 559 questions answered from 48 participants in the Computing area was performed to validate lexical terms agreement from the dictionary. At the end of the data collection, the terms were gathered for validation using a Stack Overflow database to find the results on accuracy, precision, recall and F1-score of the new dictionary. The new lexical dictionary has 79% Accuracy and Precision, with 78% Recall and f1-score with a smaller polarity interval than the original dictionary.

Files

hiolanda_murielle.mp4

Files (18.7 MB)

Name Size Download all
md5:7a0ff34f18fe5e00c2cbd35be8f8b112
18.7 MB Preview Download