Enfoque Combinado de Word2Vec y 2-grams para la Recuperación de Avisos Clasificados Inmobiliarios Semánticamente Relacionados
DOI:
https://doi.org/10.33414/rtyc.39.195-206.2020Palabras clave:
Búsqueda semántica, Word2Vec, Procesamiento del Lenguaje Natural, Minería de TextosResumen
La publicación de avisos clasificados de inmuebles se ha convertido en el medio de publicidad preferido tanto para particulares como empresas inmobiliarias. Esto ha provocado un crecimiento importante en la cantidad de avisos, tornando difícil la búsqueda un inmueble adecuado, mucho más si la búsqueda es en una gran ciudad. Este trabajo propone un enfoque basado en técnicas de minería de textos y procesamiento del lenguaje natural para la recuperación de avisos clasificados semánticamente relacionados. Para tal propósito se recolectaron los avisos publicados por el sitio web lavoz.com.ar, mediante un scraper. El título y la descripción de estos avisos fueron empleados para conformar un corpus textual modelado mediante Word2Vec, evaluando la similitud por medio de Word Mover’s Distance. El empleo de 2-grams (bigramas) frente a otros esquemas de agrupación de términos ofrecieron los mejores resultados comparando los resultados con búsquedas sintácticas