Modelos de aprendizaje profundo para el análisis de tolerancia a fallas en sistemas HPC
No Thumbnail Available
Date
2024-11-13
Authors
Advisors
Evaluators
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Industrial de Santander
Abstract
Las aplicaciones ejecutadas en plataformas de HPC necesitan ser protegidas contra fallos. A medida que los sistemas computacionales se vuelven más grandes, la susceptibilidad a ser afectados por errores también crece. Por lo tanto, la necesidad de proporcionar resiliencia a los sistemas es crítica, y la predicción de fallos se ha convertido en uno de los temas más conocidos.
Obtener información sobre el estado actual de un sistema podría ayudar a establecer algunas estrategias para apoyar la gestión de este tipo de plataformas. Este tema ha sido ampliamente estudiado. Sin embargo, de manera más analítica, hoy en día, dado el creciente volumen de datos de registros que se están generando, han surgido nuevos enfoques en el horizonte.
Varias técnicas proporcionan resiliencia; aquí nos enfocamos en aprovechar los datos de registros para detectar patrones que podrían ofrecer protección adicional contra fallos, brindando mayor fiabilidad.
El uso de técnicas de aprendizaje profundo en los últimos años ha mostrado una mejora sobresaliente en la automatización de múltiples tareas. El monitoreo de plataformas HPC genera enormes cantidades de registros que pueden aprovecharse para descubrir patrones que no pueden ser observados con un análisis sencillo.
Description
Keywords
Aprendizaje automático, Aprendizaje profundo, Análisis de datos, Matemática aplicada, HPC, Tolerancia a fallos, Detección de anomalías