Análisis de sentimiento de los comentarios en TripAdvisor: un caso de los hoteles de Bucaramanga

Cargando...
Miniatura

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Industrial de Santander

Resumen

El análisis de sentimiento es una herramienta utilizada en el Procesamiento de Lenguaje Natural (PLN) para identificar el sentimiento o la emoción expresada en un texto. Es ampliamente utilizada para analizar el contenido generado por usuarios en diferentes campos. En este trabajo, se explora la aplicación del análisis de sentimiento en español al sector hotelero en la ciudad de Bucaramanga, extrayendo reseñas de seis de los hoteles mejor clasificados en TripAdvisor. Se trabaja con 350 reseñas, clasificándolas en tres polaridades: positivo, neutro y negativo, y separando cada reseña en dos componentes, los títulos y los contenidos. Se realiza el proceso de etiquetado manualmente y se toma como referencia para comparar con dos librerías multilenguaje, VADER y Pysentimiento, así como con un modelo pre entrenado basado en la arquitectura de transformadores, BERT, utilizando la validación cruzada para probar los hiper parámetros. Al comparar las dos librerías, se concluye que Pysentimiento funciona mejor para el problema de clasificación presentado. Con este resultado, se propone un esquema para el preprocesamiento de los datos, realizando combinaciones entre los pasos para medir la precisión, el recall y el F1-score de Pysentimiento. Se halla que, tanto para el escenario de los títulos como de los contenidos, funcionó mejor al aplicar uno de los pasos del preprocesamiento al conjunto de datos. Se entrena el modelo BERT y se obtienen resultados deficientes debido al tamaño del conjunto de datos y las clases desbalanceadas. Finalmente un análisis para generar recomendaciones a los hoteles estudiados con base en los bigramas más frecuentes en cada polaridad detectada.

Descripción

Citación