Modelos de aprendizaje automático ensamblados para la clasificación de datos desbalanceados
dc.contributor.advisor | Ramírez Sierra, Yuly Andrea | |
dc.contributor.advisor | Lamos Díaz, Henry | |
dc.contributor.author | Meneses Ospina, María Isabella | |
dc.contributor.evaluator | Arias Osorio, Javier Eduardo | |
dc.contributor.evaluator | Ortiz Pineda, Iván David | |
dc.date.accessioned | 2025-02-17T11:23:52Z | |
dc.date.available | 2025-02-17T11:23:52Z | |
dc.date.created | 2025-02-14 | |
dc.date.issued | 2025-02-14 | |
dc.description.abstract | La tarea de clasificación en el aprendizaje automático implica predecir una etiqueta de clase para cada instancia, basándose en los patrones descubiertos durante la fase de entrenamiento del modelo, para automatizar su asignación en nuevas observaciones. No obstante, surge el problema de desbalance de clases, originado por tendencias de distribución sesgada. Este fenómeno se presenta cuando una clase está representada por un amplio número de elementos, en comparación con los elementos de las demás clases, lo que llevaría a que probablemente los modelos de aprendizaje automático tengan un rendimiento deficiente durante su fase de validación, evidenciado en baja precisión e incapacidad de generalización. Este trabajo aborda esta problemática mediante el uso de modelos ensamblados, específicamente Random Forest y XGBoost, combinados con técnicas de re-muestreo como RUS, ROS y SMOTE. La técnica RUS demostró ser efectiva para mejorar la detección de la clase minoritaria. Sin embargo, las técnicas de sobremuestreo ROS y SMOTE en todas sus configuraciones evaluadas presentaron sobreajuste. De esta forma, a partir de distintas estrategias de re-muestreo y configuración de hiperparámetros, se logró identificar los modelos recomendables para cada conjunto de datos priorizando la métrica Recall. En el caso de la base de datos con desequilibrio extremo, XGBoost con RUS fue el modelo más recomendable, mientras que, para el conjunto de datos con desbalance moderado, Random Forest con RUS logró un mejor equilibrio entre métricas clave y generalización de los modelos. De esta forma, se destaca la importancia de integrar técnicas a nivel de datos, optimización de hiperparámetros y análisis de métricas clave para abordar este problema de desequilibrio de clases. | |
dc.description.abstractenglish | The classification task in machine learning involves predicting a class label for each instance based on patterns discovered during the model’s training phase, with the goal of automating label assignment of new observations. However, the class imbalance problem arises as a result of skewed distribution trends. This phenomenon occurs when one class is represented by a significantly larger number of instances compared to other classes, which would likely lead to machine learning models performing poorly during their validation phase, as evidenced by low accuracy and a lack of generalization ability. This study addresses this issue by utilizing ensemble models, specifically Random Forest and XGBoost, in combination with resampling techniques such as RUS, ROS, and SMOTE. The RUS technique proved to be effective in improving minority class detection. However, the ROS and SMOTE oversampling techniques in all evaluated configurations showed overfitting. Then, based on different re-sampling strategies and hyperparameter settings, the recommended models for each dataset were identified by prioritizing the Recall metric. For the extreme imbalance dataset, XGBoost with RUS was the most suitable model, while for the moderate imbalance dataset, Random Forest with RUS achieved a better balance between key metrics and model generalization. Thus, the importance of integrating data-level techniques, hyperparameter optimization and key metric analysis to address this class imbalance problem is highlighted. | |
dc.description.degreelevel | Pregrado | |
dc.description.degreename | Ingeniero Industrial | |
dc.description.orcid | 0009-0009-7658-8019 | |
dc.format.mimetype | application/pdf | |
dc.identifier.instname | Universidad Industrial de Santander | |
dc.identifier.reponame | Universidad Industrial de Santander | |
dc.identifier.repourl | https://noesis.uis.edu.co | |
dc.identifier.uri | https://noesis.uis.edu.co/handle/20.500.14071/45004 | |
dc.language.iso | spa | |
dc.publisher | Universidad Industrial de Santander | |
dc.publisher.faculty | Facultad de Ingeníerias Fisicomecánicas | |
dc.publisher.program | Ingeniería Industrial | |
dc.publisher.school | Escuela de Estudios Industriales y Empresariales | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
dc.rights.license | Atribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO) | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Aprendizaje automático | |
dc.subject | Problema de desbalance de clases | |
dc.subject | Datos desequilibrados | |
dc.subject | Técnicas de re-muestreo | |
dc.subject | Clasificadores ensamblados | |
dc.subject.keyword | Machine learning | |
dc.subject.keyword | Class imbalanced problem | |
dc.subject.keyword | Imbalanced data | |
dc.subject.keyword | Resampling techniques | |
dc.subject.keyword | Ensemble models | |
dc.title | Modelos de aprendizaje automático ensamblados para la clasificación de datos desbalanceados | |
dc.title.english | Ensemble machine learning models for imbalanced data classification | |
dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
dc.type.hasversion | http://purl.org/coar/version/c_b1a7d7d4d402bcce | |
dc.type.local | Tesis/Trabajo de grado - Monografía - Pregrado |
Files
Original bundle
1 - 4 of 4
No Thumbnail Available
- Name:
- Carta de Autorización.pdf
- Size:
- 189.49 KB
- Format:
- Adobe Portable Document Format
No Thumbnail Available
- Name:
- Nota de proyecto.pdf
- Size:
- 256.49 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 2.18 KB
- Format:
- Item-specific license agreed to upon submission
- Description: