Publicación: Aplicación de técnicas de agrupamiento (clustering) para el análisis estadístico de tendencias en Twitter basado en el lenguaje de programación
| dc.contributor.advisor | Lamos Diaz, Henry | |
| dc.contributor.advisor | Martinez Quezada, Daniel Orlando | |
| dc.contributor.author | Sanabria Ruiz, Victor Alfonso | |
| dc.date.accessioned | 2024-03-03T23:23:47Z | |
| dc.date.available | 2017 | |
| dc.date.available | 2024-03-03T23:23:47Z | |
| dc.date.created | 2017 | |
| dc.date.issued | 2017 | |
| dc.description.abstract | En las últimas décadas, el uso de técnicas de aprendizaje automático no supervisado en aplicaciones de redes sociales se ha visto de manera positiva en la comunidad científica ya que permite el descubrimiento de conocimiento a partir de datos sin una intervención previa. Este tipo de aplicaciones normalmente se encuentra asociadas a un marco tradicional de análisis de texto el cual consta de cuatro fases consecutivas: definición de corpus, pre-procesamiento, representación y descubrimiento de conocimiento. En la primera se define los documentos objeto de estudio los cuales son conocidos como corpus, el pre-procesamiento da una forma al corpus que permite analizar con métodos estadísticos, la representación que consiste en la transformación del corpus de documentos a un espacio vectorial para ser procesados en la fase de descubrimiento de conocimiento generando modelos de aprendizaje automático como los de agrupamiento. En el presente trabajo se evaluaron diferentes variantes del algoritmo k-means en una base de datos de prueba. Además, un caso de estudio para el análisis de texto es presentado, en este se definió como corpus los tweets del usuario de un periódico local en una ventana de tiempo de dos meses, utilizando representaciones de TF-IDF con el fin de aplicar un algoritmo de agrupamiento k-means que permitieron identificar tendencias características, junto a análisis descriptivos adicionales se lograron identificar índices de impacto a lo largo del tiempo. | |
| dc.description.abstractenglish | In the last decades, the use of unsupervised machine learning techniques in social networks applications has been seen in a positive way for the scientific community since it allows the knowledge discovery from data without prior intervention. This type of applications is usually associated to a traditional text analysis framework which consists of four consecutive phases: definition of corpus, preprocessing, representation and knowledge discovery. In the first phase, the documents that are object of study are defined, which ones are known as corpus, the pre-processing gives a structure to the corpus that allows to analyze with statistical methods, the representation that consists in the transformation of the corpus of documents to a vector space to be processed in the knowledge discovery phase generating machine learning models such as clustering. In the present work we evaluated different variants of the k-means algorithm in a test database. Moreover, a case study for text analysis is presented, in which the user's tweets of a local newspaper were defined as a corpus in a two-month time window, using a TF-IDF representation in order to apply a k-means algorithm that allowed to identify characteristic trends, along with additional descriptive analyzes, were able to identify index of impact over time. | |
| dc.description.degreelevel | Pregrado | |
| dc.description.degreename | Ingeniero Industrial | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.instname | Universidad Industrial de Santander | |
| dc.identifier.reponame | Universidad Industrial de Santander | |
| dc.identifier.repourl | https://noesis.uis.edu.co | |
| dc.identifier.uri | https://noesis.uis.edu.co/handle/20.500.14071/36828 | |
| dc.language.iso | spa | |
| dc.publisher | Universidad Industrial de Santander | |
| dc.publisher.faculty | Facultad de Ingenierías Fisicomecánicas | |
| dc.publisher.program | Ingeniería Industrial | |
| dc.publisher.school | Escuela de Estudios Industriales y Empresariales | |
| dc.rights | http://creativecommons.org/licenses/by/4.0/ | |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
| dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
| dc.rights.license | Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc/4.0 | |
| dc.subject | Aprendizaje Automático | |
| dc.subject | Agrupamiento | |
| dc.subject | Minería De Texto | |
| dc.subject | Redes Sociales. | |
| dc.subject.keyword | Machine Learning | |
| dc.subject.keyword | Clustering | |
| dc.subject.keyword | Text Mining | |
| dc.subject.keyword | Social Networks | |
| dc.title | Aplicación de técnicas de agrupamiento (clustering) para el análisis estadístico de tendencias en Twitter basado en el lenguaje de programación | |
| dc.title.english | Application of clustering techniques for the statistical analysis of trends in twitter based on the programming language r | |
| dc.type.coar | http://purl.org/coar/version/c_b1a7d7d4d402bcce | |
| dc.type.hasversion | http://purl.org/coar/resource_type/c_7a1f | |
| dc.type.local | Tesis/Trabajo de grado - Monografía - Pregrado | |
| dspace.entity.type | Publication |
Archivos
Bloque original
1 - 3 de 3
Cargando...
- Nombre:
- Carta de autorización.pdf
- Tamaño:
- 545.93 KB
- Formato:
- Adobe Portable Document Format
Cargando...
- Nombre:
- Nota de proyecto.pdf
- Tamaño:
- 462.17 KB
- Formato:
- Adobe Portable Document Format
