Publicación: Análisis de sentimiento de los comentarios en TripAdvisor: un caso de los hoteles de Bucaramanga
| dc.contributor.advisor | Ramírez Sierra, Yuly Andrea | |
| dc.contributor.author | Díaz Pinzón, Ángela María | |
| dc.contributor.evaluator | Mosquera Navarro, Rodolfo | |
| dc.contributor.evaluator | Estupinan Ojeda, Diego Fabian | |
| dc.date.accessioned | 2024-05-22T12:31:07Z | |
| dc.date.available | 2024-05-22T12:31:07Z | |
| dc.date.created | 2024-05-21 | |
| dc.date.issued | 2024-05-21 | |
| dc.description.abstract | El análisis de sentimiento es una herramienta utilizada en el Procesamiento de Lenguaje Natural (PLN) para identificar el sentimiento o la emoción expresada en un texto. Es ampliamente utilizada para analizar el contenido generado por usuarios en diferentes campos. En este trabajo, se explora la aplicación del análisis de sentimiento en español al sector hotelero en la ciudad de Bucaramanga, extrayendo reseñas de seis de los hoteles mejor clasificados en TripAdvisor. Se trabaja con 350 reseñas, clasificándolas en tres polaridades: positivo, neutro y negativo, y separando cada reseña en dos componentes, los títulos y los contenidos. Se realiza el proceso de etiquetado manualmente y se toma como referencia para comparar con dos librerías multilenguaje, VADER y Pysentimiento, así como con un modelo pre entrenado basado en la arquitectura de transformadores, BERT, utilizando la validación cruzada para probar los hiper parámetros. Al comparar las dos librerías, se concluye que Pysentimiento funciona mejor para el problema de clasificación presentado. Con este resultado, se propone un esquema para el preprocesamiento de los datos, realizando combinaciones entre los pasos para medir la precisión, el recall y el F1-score de Pysentimiento. Se halla que, tanto para el escenario de los títulos como de los contenidos, funcionó mejor al aplicar uno de los pasos del preprocesamiento al conjunto de datos. Se entrena el modelo BERT y se obtienen resultados deficientes debido al tamaño del conjunto de datos y las clases desbalanceadas. Finalmente un análisis para generar recomendaciones a los hoteles estudiados con base en los bigramas más frecuentes en cada polaridad detectada. | |
| dc.description.abstractenglish | Sentiment analysis is a tool used in Natural Language Processing (NLP) to identify the sentiment or emotion expressed in a text. It is widely used to analyze user-generated content in different fields. In this work, we explore the application of sentiment analysis in Spanish to the hotel sector in the city of Bucaramanga, extracting reviews from six of the top-rated hotels on TripAdvisor. We work with 350 reviews, classifying them into three polarities: positive, neutral, and negative, and separating each review into two components, titles and contents. The manual labeling process is carried out and used as a reference for comparison with two multilanguage libraries, VADER and Pysentimiento, as well as with a pretrained model based on the transformer architecture, BERT, using cross validation to test the hyperparameters. When comparing the two libraries, it is concluded that Pysentimiento performs better for the classification problem presented. With this result, a scheme for data preprocessing is proposed, performing combinations between the steps to measure the precision, recall, and F1-score of Pysentimiento. It is found that, both for the titles and contents scenarios, it worked better to apply one of the preprocessing steps to the dataset. The BERT model is trained, and poor results are obtained due to the size of the dataset and the imbalanced classes. Finally, an analysis is conducted to generate recommendations to the studied hotels based on the most frequent bigrams in each detected polarity. | |
| dc.description.degreelevel | Pregrado | |
| dc.description.degreename | Ingeniero Industrial | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.instname | Universidad Industrial de Santander | |
| dc.identifier.reponame | Universidad Industrial de Santander | |
| dc.identifier.repourl | https://noesis.uis.edu.co | |
| dc.identifier.uri | https://noesis.uis.edu.co/handle/20.500.14071/42523 | |
| dc.language.iso | spa | |
| dc.publisher | Universidad Industrial de Santander | |
| dc.publisher.faculty | Facultad de Ingeníerias Fisicomecánicas | |
| dc.publisher.program | Ingeniería Industrial | |
| dc.publisher.school | Escuela de Estudios Industriales y Empresariales | |
| dc.rights | info:eu-repo/semantics/openAccess | |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
| dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
| dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
| dc.rights.license | Atribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO) | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Análisis de sentimiento | |
| dc.subject | turismo Bucaramanga | |
| dc.subject | hotelería Bucaramanga | |
| dc.subject | minería de texto | |
| dc.subject | comentarios en línea | |
| dc.subject.keyword | Sentiment analysis | |
| dc.subject.keyword | Bucaramanga tourism | |
| dc.subject.keyword | Bucaramanga hotel | |
| dc.subject.keyword | text mining | |
| dc.subject.keyword | online reviews | |
| dc.title | Análisis de sentimiento de los comentarios en TripAdvisor: un caso de los hoteles de Bucaramanga | |
| dc.title.english | Sentiment analysis of TripAdvisor reviews: a case of Bucaramanga hotels | |
| dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
| dc.type.hasversion | http://purl.org/coar/version/c_b1a7d7d4d402bcce | |
| dc.type.local | Tesis/Trabajo de grado - Monografía - Pregrado | |
| dspace.entity.type | Publication |
Archivos
Bloque original
1 - 5 de 9
Cargando...
- Nombre:
- Documento .pdf
- Tamaño:
- 2.44 MB
- Formato:
- Adobe Portable Document Format
Cargando...
- Nombre:
- Nota de Proyecto.pdf
- Tamaño:
- 268.48 KB
- Formato:
- Adobe Portable Document Format
Cargando...
- Nombre:
- Carta de Autorización.pdf
- Tamaño:
- 99.39 KB
- Formato:
- Adobe Portable Document Format
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 2.18 KB
- Formato:
- Item-specific license agreed to upon submission
- Descripción:
