Análisis de sentimiento de los comentarios en TripAdvisor: un caso de los hoteles de Bucaramanga
Cargando...
Fecha
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Industrial de Santander
Resumen
El análisis de sentimiento es una herramienta utilizada en el Procesamiento de
Lenguaje Natural (PLN) para identificar el sentimiento o la emoción expresada en un texto. Es
ampliamente utilizada para analizar el contenido generado por usuarios en diferentes campos. En
este trabajo, se explora la aplicación del análisis de sentimiento en español al sector hotelero en la
ciudad de Bucaramanga, extrayendo reseñas de seis de los hoteles mejor clasificados en
TripAdvisor. Se trabaja con 350 reseñas, clasificándolas en tres polaridades: positivo, neutro y
negativo, y separando cada reseña en dos componentes, los títulos y los contenidos. Se realiza el
proceso de etiquetado manualmente y se toma como referencia para comparar con dos librerías
multilenguaje, VADER y Pysentimiento, así como con un modelo pre entrenado basado en la
arquitectura de transformadores, BERT, utilizando la validación cruzada para probar los hiper
parámetros. Al comparar las dos librerías, se concluye que Pysentimiento funciona mejor para el
problema de clasificación presentado. Con este resultado, se propone un esquema para el
preprocesamiento de los datos, realizando combinaciones entre los pasos para medir la precisión,
el recall y el F1-score de Pysentimiento. Se halla que, tanto para el escenario de los títulos como
de los contenidos, funcionó mejor al aplicar uno de los pasos del preprocesamiento al conjunto de
datos. Se entrena el modelo BERT y se obtienen resultados deficientes debido al tamaño del
conjunto de datos y las clases desbalanceadas. Finalmente un análisis para generar
recomendaciones a los hoteles estudiados con base en los bigramas más frecuentes en cada
polaridad detectada.