Abordagem combinada de Word2Vec e 2 gramas para a recuperação de classificados de imóveis semanticamente relacionados
DOI:
https://doi.org/10.33414/rtyc.39.195-206.2020Palavras-chave:
Pesquisa semântica, Word2Vec, processamento de linguagem natural, mineração de textoResumo
A publicação de anúncios classificados de imóveis tornou-se o meio de publicidade preferido tanto para pessoas físicas quanto para empresas imobiliárias. Isso tem causado um crescimento significativo no número de anúncios, dificultando a busca por um imóvel adequado, ainda mais se a busca for em uma cidade grande. Este trabalho propõe uma abordagem baseada em técnicas de mineração de texto e processamento de linguagem natural para a recuperação de anúncios classificados semanticamente relacionados. Para o efeito, foram recolhidos os avisos publicados pelo site lavoz.com.ar, através de um raspador. O título e a descrição desses editais foram utilizados para formar um corpus textual modelado em Word2Vec, avaliando-se a similaridade por meio do Word Mover's Distance. O uso de 2 gramas (bigramas) em comparação com outros esquemas de agrupamento de termos ofereceu os melhores resultados comparando os resultados com pesquisas sintáticas