Modelos de aprendizaje automático ensamblados para la clasificación de datos desbalanceados

Abstract
La tarea de clasificación en el aprendizaje automático implica predecir una etiqueta de clase para cada instancia, basándose en los patrones descubiertos durante la fase de entrenamiento del modelo, para automatizar su asignación en nuevas observaciones. No obstante, surge el problema de desbalance de clases, originado por tendencias de distribución sesgada. Este fenómeno se presenta cuando una clase está representada por un amplio número de elementos, en comparación con los elementos de las demás clases, lo que llevaría a que probablemente los modelos de aprendizaje automático tengan un rendimiento deficiente durante su fase de validación, evidenciado en baja precisión e incapacidad de generalización. Este trabajo aborda esta problemática mediante el uso de modelos ensamblados, específicamente Random Forest y XGBoost, combinados con técnicas de re-muestreo como RUS, ROS y SMOTE. La técnica RUS demostró ser efectiva para mejorar la detección de la clase minoritaria. Sin embargo, las técnicas de sobremuestreo ROS y SMOTE en todas sus configuraciones evaluadas presentaron sobreajuste. De esta forma, a partir de distintas estrategias de re-muestreo y configuración de hiperparámetros, se logró identificar los modelos recomendables para cada conjunto de datos priorizando la métrica Recall. En el caso de la base de datos con desequilibrio extremo, XGBoost con RUS fue el modelo más recomendable, mientras que, para el conjunto de datos con desbalance moderado, Random Forest con RUS logró un mejor equilibrio entre métricas clave y generalización de los modelos. De esta forma, se destaca la importancia de integrar técnicas a nivel de datos, optimización de hiperparámetros y análisis de métricas clave para abordar este problema de desequilibrio de clases.
Description
Keywords
Aprendizaje automático, Problema de desbalance de clases, Datos desequilibrados, Técnicas de re-muestreo, Clasificadores ensamblados
Citation