Abordagem combinada de Word2Vec e 2 gramas para a recuperação de classificados de imóveis semanticamente relacionados

Autores

  • José Federico Medrano Universidad Nacional de Jujuy - Argentina

DOI:

https://doi.org/10.33414/rtyc.39.195-206.2020

Palavras-chave:

Pesquisa semântica, Word2Vec, processamento de linguagem natural, mineração de texto

Resumo


A publicação de anúncios classificados de imóveis tornou-se o meio de publicidade preferido tanto para pessoas físicas quanto para empresas imobiliárias. Isso tem causado um crescimento significativo no número de anúncios, dificultando a busca por um imóvel adequado, ainda mais se a busca for em uma cidade grande. Este trabalho propõe uma abordagem baseada em técnicas de mineração de texto e processamento de linguagem natural para a recuperação de anúncios classificados semanticamente relacionados. Para o efeito, foram recolhidos os avisos publicados pelo site lavoz.com.ar, através de um raspador. O título e a descrição desses editais foram utilizados para formar um corpus textual modelado em Word2Vec, avaliando-se a similaridade por meio do Word Mover's Distance. O uso de 2 gramas (bigramas) em comparação com outros esquemas de agrupamento de termos ofereceu os melhores resultados comparando os resultados com pesquisas sintáticas

Downloads

Não há dados estatísticos.

Publicado

2020-12-03

Como Citar

Medrano, J. F. (2020). Abordagem combinada de Word2Vec e 2 gramas para a recuperação de classificados de imóveis semanticamente relacionados. Revista De Tecnologia E Ciência, (39), 195–206. https://doi.org/10.33414/rtyc.39.195-206.2020