Criando um corpus de opiniões com emoções usando o Machine Learning
DOI:
https://doi.org/10.33414/rtyc.37.11-23.2020Palavras-chave:
classificação de texto, aprendizado semi-supervisionado, TwitterResumo
A identificação dos sentimentos expressos nas opiniões textuais pode ser entendida como a categorização deles de acordo com suas características, e é de grande interesse hoje. O aprendizado supervisionado é um dos métodos mais populares de classificação textual, mas muitos dados marcados são necessários para o treinamento. O aprendizado semi-supervisionado supera essa limitação, pois envolve trabalhar com um pequeno conjunto de dados marcados e um conjunto maior de dados não marcados. Foi desenvolvido um método de classificação de texto que combina os dois tipos de aprendizado. Foram coletados textos curtos ou opiniões da rede social Twitter, aos quais foram aplicadas uma série de ações de limpeza e preparação, e depois classificadas em quatro sentimentos: raiva, nojo, tristeza e felicidade. A precisão e o recall obtidos com o método foram satisfatórios e, como conseqüência, foi alcançado um corpus de mensagens categorizadas de acordo com o sentimento.