Aplicación de técnicas de agrupamiento (clustering) para el análisis estadístico de tendencias en Twitter basado en el lenguaje de programación

Sanabria Ruiz, Victor Alfonso

Publicación:
Aplicación de técnicas de agrupamiento (clustering) para el análisis estadístico de tendencias en Twitter basado en el lenguaje de programación

dc.contributor.advisor	Lamos Diaz, Henry
dc.contributor.advisor	Martinez Quezada, Daniel Orlando
dc.contributor.author	Sanabria Ruiz, Victor Alfonso
dc.date.accessioned	2024-03-03T23:23:47Z
dc.date.available	2017
dc.date.available	2024-03-03T23:23:47Z
dc.date.created	2017
dc.date.issued	2017
dc.description.abstract	En las últimas décadas, el uso de técnicas de aprendizaje automático no supervisado en aplicaciones de redes sociales se ha visto de manera positiva en la comunidad científica ya que permite el descubrimiento de conocimiento a partir de datos sin una intervención previa. Este tipo de aplicaciones normalmente se encuentra asociadas a un marco tradicional de análisis de texto el cual consta de cuatro fases consecutivas: definición de corpus, pre-procesamiento, representación y descubrimiento de conocimiento. En la primera se define los documentos objeto de estudio los cuales son conocidos como corpus, el pre-procesamiento da una forma al corpus que permite analizar con métodos estadísticos, la representación que consiste en la transformación del corpus de documentos a un espacio vectorial para ser procesados en la fase de descubrimiento de conocimiento generando modelos de aprendizaje automático como los de agrupamiento. En el presente trabajo se evaluaron diferentes variantes del algoritmo k-means en una base de datos de prueba. Además, un caso de estudio para el análisis de texto es presentado, en este se definió como corpus los tweets del usuario de un periódico local en una ventana de tiempo de dos meses, utilizando representaciones de TF-IDF con el fin de aplicar un algoritmo de agrupamiento k-means que permitieron identificar tendencias características, junto a análisis descriptivos adicionales se lograron identificar índices de impacto a lo largo del tiempo.
dc.description.abstractenglish	In the last decades, the use of unsupervised machine learning techniques in social networks applications has been seen in a positive way for the scientific community since it allows the knowledge discovery from data without prior intervention. This type of applications is usually associated to a traditional text analysis framework which consists of four consecutive phases: definition of corpus, preprocessing, representation and knowledge discovery. In the first phase, the documents that are object of study are defined, which ones are known as corpus, the pre-processing gives a structure to the corpus that allows to analyze with statistical methods, the representation that consists in the transformation of the corpus of documents to a vector space to be processed in the knowledge discovery phase generating machine learning models such as clustering. In the present work we evaluated different variants of the k-means algorithm in a test database. Moreover, a case study for text analysis is presented, in which the user's tweets of a local newspaper were defined as a corpus in a two-month time window, using a TF-IDF representation in order to apply a k-means algorithm that allowed to identify characteristic trends, along with additional descriptive analyzes, were able to identify index of impact over time.
dc.description.degreelevel	Pregrado
dc.description.degreename	Ingeniero Industrial
dc.format.mimetype	application/pdf
dc.identifier.instname	Universidad Industrial de Santander
dc.identifier.reponame	Universidad Industrial de Santander
dc.identifier.repourl	https://noesis.uis.edu.co
dc.identifier.uri	https://noesis.uis.edu.co/handle/20.500.14071/36828
dc.language.iso	spa
dc.publisher	Universidad Industrial de Santander
dc.publisher.faculty	Facultad de Ingenierías Fisicomecánicas
dc.publisher.program	Ingeniería Industrial
dc.publisher.school	Escuela de Estudios Industriales y Empresariales
dc.rights	http://creativecommons.org/licenses/by/4.0/
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.creativecommons	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.license	Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.uri	http://creativecommons.org/licenses/by-nc/4.0
dc.subject	Aprendizaje Automático
dc.subject	Agrupamiento
dc.subject	Minería De Texto
dc.subject	Redes Sociales.
dc.subject.keyword	Machine Learning
dc.subject.keyword	Clustering
dc.subject.keyword	Text Mining
dc.subject.keyword	Social Networks
dc.title	Aplicación de técnicas de agrupamiento (clustering) para el análisis estadístico de tendencias en Twitter basado en el lenguaje de programación
dc.title.english	Application of clustering techniques for the statistical analysis of trends in twitter based on the programming language r
dc.type.coar	http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversion	http://purl.org/coar/resource_type/c_7a1f
dc.type.local	Tesis/Trabajo de grado - Monografía - Pregrado
dspace.entity.type	Publication