Implementación de algoritmos de entrenamiento de modelos probabilísticos para predecir el rendimiento de celdas solares de perovskita con datos incompletos

Abstract
La calidad de los datos utilizados para implementar modelos de aprendizaje automático es crucial para su funcionamiento óptimo. Sin embargo, en numerosos estudios de investigación, la recopilación de datos de múltiples fuentes con diferentes estructuras resulta en datos con valores faltantes o erróneos. Este problema está presente y afecta la base de datos existente para el diseño de celdas de perovskita, dificultando la aplicación de métodos de aprendizaje automático. En este proyecto, se abordó este problema en los datos faltantes de una base de datos de celdas solares de perovskita mediante la implementación de Modelos de Mezcla Gaussiana Conscientes de Faltantes (MGMM). Estos métodos permiten entrenar modelos probabilísticos directamente sobre datos incompletos. Para evaluar el desempeño de los MGMM, se compararon sus resultados con aquellos obtenidos al utilizar datos imputados mediante los algoritmos imputaciones múltiples mediante ecuaciones encadenadas (MICE) y El algoritmo de Redes de imputación generativas adversarias (GAIN). La evaluación del rendimiento de los algoritmos de imputación demostró un mejor desempeño del modelo MICE y se evidenció que el número de muestras y parámetros puede influir en el rendimiento de los algoritmos. Posteriormente, se utilizaron los datos imputados por cada modelo para evaluar las predicciones de los modelos de mezcla gaussiana (GMM) con las métricas error cuadrático medio (RMSE) y error porcentual medio absoluto (MAPE). Los resultados mostraron que el modelo GMM con datos imputados por MICE tuvo mejores predicciones en comparación con GAIN. La implementación del modelo MGMM con la base de datos de menor tamaño demostró que la distribución de los datos seleccionados impacta en el rendimiento del modelo, obteniendo resultados inferiores a medida que aumenta el porcentaje de valores faltantes. Este estudio demuestra que datos de celdas solares de perovskita pueden ser tratados eficazmente con modelos de imputación como MICE y GAIN, considerando la naturaleza y características de los datos.
Description
Keywords
Modelos probabilísticos, Celdas solares de perovskita, Predicción, Aprendizaje automático, Modelos de imputación
Citation