Modelos de aprendizaje automático ensamblados para la clasificación de datos desbalanceados

dc.contributor.advisorRamírez Sierra, Yuly Andrea
dc.contributor.advisorLamos Díaz, Henry
dc.contributor.authorMeneses Ospina, María Isabella
dc.contributor.evaluatorArias Osorio, Javier Eduardo
dc.contributor.evaluatorOrtiz Pineda, Iván David
dc.date.accessioned2025-02-17T11:23:52Z
dc.date.available2025-02-17T11:23:52Z
dc.date.created2025-02-14
dc.date.issued2025-02-14
dc.description.abstractLa tarea de clasificación en el aprendizaje automático implica predecir una etiqueta de clase para cada instancia, basándose en los patrones descubiertos durante la fase de entrenamiento del modelo, para automatizar su asignación en nuevas observaciones. No obstante, surge el problema de desbalance de clases, originado por tendencias de distribución sesgada. Este fenómeno se presenta cuando una clase está representada por un amplio número de elementos, en comparación con los elementos de las demás clases, lo que llevaría a que probablemente los modelos de aprendizaje automático tengan un rendimiento deficiente durante su fase de validación, evidenciado en baja precisión e incapacidad de generalización. Este trabajo aborda esta problemática mediante el uso de modelos ensamblados, específicamente Random Forest y XGBoost, combinados con técnicas de re-muestreo como RUS, ROS y SMOTE. La técnica RUS demostró ser efectiva para mejorar la detección de la clase minoritaria. Sin embargo, las técnicas de sobremuestreo ROS y SMOTE en todas sus configuraciones evaluadas presentaron sobreajuste. De esta forma, a partir de distintas estrategias de re-muestreo y configuración de hiperparámetros, se logró identificar los modelos recomendables para cada conjunto de datos priorizando la métrica Recall. En el caso de la base de datos con desequilibrio extremo, XGBoost con RUS fue el modelo más recomendable, mientras que, para el conjunto de datos con desbalance moderado, Random Forest con RUS logró un mejor equilibrio entre métricas clave y generalización de los modelos. De esta forma, se destaca la importancia de integrar técnicas a nivel de datos, optimización de hiperparámetros y análisis de métricas clave para abordar este problema de desequilibrio de clases.
dc.description.abstractenglishThe classification task in machine learning involves predicting a class label for each instance based on patterns discovered during the model’s training phase, with the goal of automating label assignment of new observations. However, the class imbalance problem arises as a result of skewed distribution trends. This phenomenon occurs when one class is represented by a significantly larger number of instances compared to other classes, which would likely lead to machine learning models performing poorly during their validation phase, as evidenced by low accuracy and a lack of generalization ability. This study addresses this issue by utilizing ensemble models, specifically Random Forest and XGBoost, in combination with resampling techniques such as RUS, ROS, and SMOTE. The RUS technique proved to be effective in improving minority class detection. However, the ROS and SMOTE oversampling techniques in all evaluated configurations showed overfitting. Then, based on different re-sampling strategies and hyperparameter settings, the recommended models for each dataset were identified by prioritizing the Recall metric. For the extreme imbalance dataset, XGBoost with RUS was the most suitable model, while for the moderate imbalance dataset, Random Forest with RUS achieved a better balance between key metrics and model generalization. Thus, the importance of integrating data-level techniques, hyperparameter optimization and key metric analysis to address this class imbalance problem is highlighted.
dc.description.degreelevelPregrado
dc.description.degreenameIngeniero Industrial
dc.description.orcid0009-0009-7658-8019
dc.format.mimetypeapplication/pdf
dc.identifier.instnameUniversidad Industrial de Santander
dc.identifier.reponameUniversidad Industrial de Santander
dc.identifier.repourlhttps://noesis.uis.edu.co
dc.identifier.urihttps://noesis.uis.edu.co/handle/20.500.14071/45004
dc.language.isospa
dc.publisherUniversidad Industrial de Santander
dc.publisher.facultyFacultad de Ingeníerias Fisicomecánicas
dc.publisher.programIngeniería Industrial
dc.publisher.schoolEscuela de Estudios Industriales y Empresariales
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.licenseAtribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO)
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAprendizaje automático
dc.subjectProblema de desbalance de clases
dc.subjectDatos desequilibrados
dc.subjectTécnicas de re-muestreo
dc.subjectClasificadores ensamblados
dc.subject.keywordMachine learning
dc.subject.keywordClass imbalanced problem
dc.subject.keywordImbalanced data
dc.subject.keywordResampling techniques
dc.subject.keywordEnsemble models
dc.titleModelos de aprendizaje automático ensamblados para la clasificación de datos desbalanceados
dc.title.englishEnsemble machine learning models for imbalanced data classification
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.hasversionhttp://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.localTesis/Trabajo de grado - Monografía - Pregrado
Files
Original bundle
Now showing 1 - 4 of 4
No Thumbnail Available
Name:
Carta de Autorización.pdf
Size:
189.49 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Apéndices.zip
Size:
10.23 MB
Format:
Unknown data format
No Thumbnail Available
Name:
Nota de proyecto.pdf
Size:
256.49 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Documento.pdf
Size:
3.95 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.18 KB
Format:
Item-specific license agreed to upon submission
Description: