Logotipo del repositorio

Publicación:
Aplicación de técnicas de agrupamiento (clustering) para el análisis estadístico de tendencias en Twitter basado en el lenguaje de programación

dc.contributor.advisorLamos Diaz, Henry
dc.contributor.advisorMartinez Quezada, Daniel Orlando
dc.contributor.authorSanabria Ruiz, Victor Alfonso
dc.date.accessioned2024-03-03T23:23:47Z
dc.date.available2017
dc.date.available2024-03-03T23:23:47Z
dc.date.created2017
dc.date.issued2017
dc.description.abstractEn las últimas décadas, el uso de técnicas de aprendizaje automático no supervisado en aplicaciones de redes sociales se ha visto de manera positiva en la comunidad científica ya que permite el descubrimiento de conocimiento a partir de datos sin una intervención previa. Este tipo de aplicaciones normalmente se encuentra asociadas a un marco tradicional de análisis de texto el cual consta de cuatro fases consecutivas: definición de corpus, pre-procesamiento, representación y descubrimiento de conocimiento. En la primera se define los documentos objeto de estudio los cuales son conocidos como corpus, el pre-procesamiento da una forma al corpus que permite analizar con métodos estadísticos, la representación que consiste en la transformación del corpus de documentos a un espacio vectorial para ser procesados en la fase de descubrimiento de conocimiento generando modelos de aprendizaje automático como los de agrupamiento. En el presente trabajo se evaluaron diferentes variantes del algoritmo k-means en una base de datos de prueba. Además, un caso de estudio para el análisis de texto es presentado, en este se definió como corpus los tweets del usuario de un periódico local en una ventana de tiempo de dos meses, utilizando representaciones de TF-IDF con el fin de aplicar un algoritmo de agrupamiento k-means que permitieron identificar tendencias características, junto a análisis descriptivos adicionales se lograron identificar índices de impacto a lo largo del tiempo.
dc.description.abstractenglishIn the last decades, the use of unsupervised machine learning techniques in social networks applications has been seen in a positive way for the scientific community since it allows the knowledge discovery from data without prior intervention. This type of applications is usually associated to a traditional text analysis framework which consists of four consecutive phases: definition of corpus, preprocessing, representation and knowledge discovery. In the first phase, the documents that are object of study are defined, which ones are known as corpus, the pre-processing gives a structure to the corpus that allows to analyze with statistical methods, the representation that consists in the transformation of the corpus of documents to a vector space to be processed in the knowledge discovery phase generating machine learning models such as clustering. In the present work we evaluated different variants of the k-means algorithm in a test database. Moreover, a case study for text analysis is presented, in which the user's tweets of a local newspaper were defined as a corpus in a two-month time window, using a TF-IDF representation in order to apply a k-means algorithm that allowed to identify characteristic trends, along with additional descriptive analyzes, were able to identify index of impact over time.
dc.description.degreelevelPregrado
dc.description.degreenameIngeniero Industrial
dc.format.mimetypeapplication/pdf
dc.identifier.instnameUniversidad Industrial de Santander
dc.identifier.reponameUniversidad Industrial de Santander
dc.identifier.repourlhttps://noesis.uis.edu.co
dc.identifier.urihttps://noesis.uis.edu.co/handle/20.500.14071/36828
dc.language.isospa
dc.publisherUniversidad Industrial de Santander
dc.publisher.facultyFacultad de Ingenierías Fisicomecánicas
dc.publisher.programIngeniería Industrial
dc.publisher.schoolEscuela de Estudios Industriales y Empresariales
dc.rightshttp://creativecommons.org/licenses/by/4.0/
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.licenseAttribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0
dc.subjectAprendizaje Automático
dc.subjectAgrupamiento
dc.subjectMinería De Texto
dc.subjectRedes Sociales.
dc.subject.keywordMachine Learning
dc.subject.keywordClustering
dc.subject.keywordText Mining
dc.subject.keywordSocial Networks
dc.titleAplicación de técnicas de agrupamiento (clustering) para el análisis estadístico de tendencias en Twitter basado en el lenguaje de programación
dc.title.englishApplication of clustering techniques for the statistical analysis of trends in twitter based on the programming language r
dc.type.coarhttp://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversionhttp://purl.org/coar/resource_type/c_7a1f
dc.type.localTesis/Trabajo de grado - Monografía - Pregrado
dspace.entity.typePublication

Archivos

Bloque original

Mostrando 1 - 3 de 3
Cargando...
Miniatura
Nombre:
Carta de autorización.pdf
Tamaño:
545.93 KB
Formato:
Adobe Portable Document Format
Cargando...
Miniatura
Nombre:
Documento.pdf
Tamaño:
3.64 MB
Formato:
Adobe Portable Document Format
Cargando...
Miniatura
Nombre:
Nota de proyecto.pdf
Tamaño:
462.17 KB
Formato:
Adobe Portable Document Format

VIGILADA MINEDUCACIÓN

Ordenanza No. 83 de 1.944 (junio 22)

Carácter académico: Universidad

Notificaciones judiciales: notjudiciales@uis.edu.co 

.

Código SNIES: 1204   Nit: 890.201.213-4

Línea Anticorrupción:  +57 (601) 562 9300 EXT: 3633

Línea transparente: +57 (607) 630 3031