Publicación: Evaluación de métodos de agrupamiento dbscan y lda para el análisis de contenido de la red social Twitter
| dc.contributor.advisor | Martinez Quezada, Daniel Orlando | |
| dc.contributor.advisor | Lamos Diaz, Henry | |
| dc.contributor.author | Ariza Pardo, Nicolas | |
| dc.contributor.author | Olarte Sierra, Diana Yamile | |
| dc.date.accessioned | 2024-03-04T00:43:53Z | |
| dc.date.available | 2020 | |
| dc.date.available | 2024-03-04T00:43:53Z | |
| dc.date.created | 2020 | |
| dc.date.issued | 2020 | |
| dc.description.abstract | En la actualidad debido al gran volumen de datos que se manejan es importante usar métodos de monitoreo no supervisado que permitan encontrar relaciones entre diferentes temas y se obtenga información valiosa sobre las discusiones que son tendencia. Dicha información tiene aplicaciones en los diferentes sectores de la industria siendo vital en la toma de decisiones estratégicas. En el presente trabajo se hace un análisis a una base de datos de prueba constituida a través de la red social Twitter, estos datos fueron recolectados a lo largo de cinco meses a través de la página oficial en Twitter de la Universidad Industrial de Santander. Se utiliza la herramienta Rstudio del lenguaje de programación R con la cual se realiza el preprocesamiento de los datos y se define el corpus, además se usa el método del codo y se aplican las métricas Griffits2004, CaoJuan2009, Arun2010 y Deveaud2014 para la definición de los parámetros iniciales para la ejecución de los algoritmos usados. Con esto se hace una evaluación de dos de los métodos de agrupamiento, LDA y DBSCAN aplicando el coeficiente de silueta para analizar la calidad y el grado de coherencia de los grupos obtenidos e identificar tendencias y temas relevantes en la información extraída. | |
| dc.description.abstractenglish | At present, due to the large volume of data that is handled, it is important to use unsupervised monitoring methods that allow finding relationships between different topics and obtain valuable information on the discussions that are trending. This information has applications in different sectors of the industry, being vital in making strategic decisions. In this work, an analysis is made of a test database constituted through the social network Twitter, these data were collected over five months through the official Twitter page of the Industrial University of Santander. The Rstudio tool of the R programming language is used with which the data is preprocessed and the corpus is defined, in addition the elbow method is used and the metrics Griffits2004, CaoJuan2009, Arun2010 and Deveaud2014 are applied to define the initial parameters for the execution of the algorithms used. With this, an evaluation of two of the grouping methods, LDA and DBSCAN, is made, applying the silhouette coefficient to analyze the quality and degree of coherence of the groups obtained and identify relevant trends and themes in the information extracted. | |
| dc.description.degreelevel | Pregrado | |
| dc.description.degreename | Ingeniero Industrial | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.instname | Universidad Industrial de Santander | |
| dc.identifier.reponame | Universidad Industrial de Santander | |
| dc.identifier.repourl | https://noesis.uis.edu.co | |
| dc.identifier.uri | https://noesis.uis.edu.co/handle/20.500.14071/40194 | |
| dc.language.iso | spa | |
| dc.publisher | Universidad Industrial de Santander | |
| dc.publisher.faculty | Facultad de Ingenierías Fisicomecánicas | |
| dc.publisher.program | Ingeniería Industrial | |
| dc.publisher.school | Escuela de Estudios Industriales y Empresariales | |
| dc.rights | http://creativecommons.org/licenses/by/4.0/ | |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
| dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
| dc.rights.license | Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc/4.0 | |
| dc.subject | aprendizaje automático | |
| dc.subject | ||
| dc.subject | Minería de texto | |
| dc.subject | Agrupamiento | |
| dc.subject | LDA | |
| dc.subject | DBSCAN. | |
| dc.subject.keyword | machine learning | |
| dc.subject.keyword | ||
| dc.subject.keyword | Data mining | |
| dc.subject.keyword | Cluster | |
| dc.subject.keyword | LDA | |
| dc.subject.keyword | DBSCAN. | |
| dc.title | Evaluación de métodos de agrupamiento dbscan y lda para el análisis de contenido de la red social Twitter | |
| dc.title.english | Evaluation of DBSCAN and LDA clustering methods for content analysis of the social network Twitter*. | |
| dc.type.coar | http://purl.org/coar/version/c_b1a7d7d4d402bcce | |
| dc.type.hasversion | http://purl.org/coar/resource_type/c_7a1f | |
| dc.type.local | Tesis/Trabajo de grado - Monografía - Pregrado | |
| dspace.entity.type | Publication |
Archivos
Bloque original
1 - 3 de 3
Cargando...
- Nombre:
- Carta de autorización.pdf
- Tamaño:
- 128.62 KB
- Formato:
- Adobe Portable Document Format
Cargando...
- Nombre:
- Nota de proyecto.pdf
- Tamaño:
- 103.75 KB
- Formato:
- Adobe Portable Document Format
