Modelos de aprendizaje automático ensamblados para la clasificación de datos desbalanceados

Meneses Ospina, María Isabella

Modelos de aprendizaje automático ensamblados para la clasificación de datos desbalanceados

dc.contributor.advisor	Ramírez Sierra, Yuly Andrea
dc.contributor.advisor	Lamos Díaz, Henry
dc.contributor.author	Meneses Ospina, María Isabella
dc.contributor.evaluator	Arias Osorio, Javier Eduardo
dc.contributor.evaluator	Ortiz Pineda, Iván David
dc.date.accessioned	2025-02-17T11:23:52Z
dc.date.available	2025-02-17T11:23:52Z
dc.date.created	2025-02-14
dc.date.issued	2025-02-14
dc.description.abstract	La tarea de clasificación en el aprendizaje automático implica predecir una etiqueta de clase para cada instancia, basándose en los patrones descubiertos durante la fase de entrenamiento del modelo, para automatizar su asignación en nuevas observaciones. No obstante, surge el problema de desbalance de clases, originado por tendencias de distribución sesgada. Este fenómeno se presenta cuando una clase está representada por un amplio número de elementos, en comparación con los elementos de las demás clases, lo que llevaría a que probablemente los modelos de aprendizaje automático tengan un rendimiento deficiente durante su fase de validación, evidenciado en baja precisión e incapacidad de generalización. Este trabajo aborda esta problemática mediante el uso de modelos ensamblados, específicamente Random Forest y XGBoost, combinados con técnicas de re-muestreo como RUS, ROS y SMOTE. La técnica RUS demostró ser efectiva para mejorar la detección de la clase minoritaria. Sin embargo, las técnicas de sobremuestreo ROS y SMOTE en todas sus configuraciones evaluadas presentaron sobreajuste. De esta forma, a partir de distintas estrategias de re-muestreo y configuración de hiperparámetros, se logró identificar los modelos recomendables para cada conjunto de datos priorizando la métrica Recall. En el caso de la base de datos con desequilibrio extremo, XGBoost con RUS fue el modelo más recomendable, mientras que, para el conjunto de datos con desbalance moderado, Random Forest con RUS logró un mejor equilibrio entre métricas clave y generalización de los modelos. De esta forma, se destaca la importancia de integrar técnicas a nivel de datos, optimización de hiperparámetros y análisis de métricas clave para abordar este problema de desequilibrio de clases.
dc.description.abstractenglish	The classification task in machine learning involves predicting a class label for each instance based on patterns discovered during the model’s training phase, with the goal of automating label assignment of new observations. However, the class imbalance problem arises as a result of skewed distribution trends. This phenomenon occurs when one class is represented by a significantly larger number of instances compared to other classes, which would likely lead to machine learning models performing poorly during their validation phase, as evidenced by low accuracy and a lack of generalization ability. This study addresses this issue by utilizing ensemble models, specifically Random Forest and XGBoost, in combination with resampling techniques such as RUS, ROS, and SMOTE. The RUS technique proved to be effective in improving minority class detection. However, the ROS and SMOTE oversampling techniques in all evaluated configurations showed overfitting. Then, based on different re-sampling strategies and hyperparameter settings, the recommended models for each dataset were identified by prioritizing the Recall metric. For the extreme imbalance dataset, XGBoost with RUS was the most suitable model, while for the moderate imbalance dataset, Random Forest with RUS achieved a better balance between key metrics and model generalization. Thus, the importance of integrating data-level techniques, hyperparameter optimization and key metric analysis to address this class imbalance problem is highlighted.
dc.description.degreelevel	Pregrado
dc.description.degreename	Ingeniero Industrial
dc.description.orcid	0009-0009-7658-8019
dc.format.mimetype	application/pdf
dc.identifier.instname	Universidad Industrial de Santander
dc.identifier.reponame	Universidad Industrial de Santander
dc.identifier.repourl	https://noesis.uis.edu.co
dc.identifier.uri	https://noesis.uis.edu.co/handle/20.500.14071/45004
dc.language.iso	spa
dc.publisher	Universidad Industrial de Santander
dc.publisher.faculty	Facultad de Ingeníerias Fisicomecánicas
dc.publisher.program	Ingeniería Industrial
dc.publisher.school	Escuela de Estudios Industriales y Empresariales
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.coar	http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.license	Atribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO)
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Aprendizaje automático
dc.subject	Problema de desbalance de clases
dc.subject	Datos desequilibrados
dc.subject	Técnicas de re-muestreo
dc.subject	Clasificadores ensamblados
dc.subject.keyword	Machine learning
dc.subject.keyword	Class imbalanced problem
dc.subject.keyword	Imbalanced data
dc.subject.keyword	Resampling techniques
dc.subject.keyword	Ensemble models
dc.title	Modelos de aprendizaje automático ensamblados para la clasificación de datos desbalanceados
dc.title.english	Ensemble machine learning models for imbalanced data classification
dc.type.coar	http://purl.org/coar/resource_type/c_7a1f
dc.type.hasversion	http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.local	Tesis/Trabajo de grado - Monografía - Pregrado