Modelos de aprendizaje profundo para el análisis de tolerancia a fallas en sistemas HPC

Acosta Ortiz, Diego Fernando

Modelos de aprendizaje profundo para el análisis de tolerancia a fallas en sistemas HPC

Files

Nota de proyecto.pdf (83.57 KB)

Documento.pdf (2.47 MB)

Carta de autorización.pdf (136.72 KB)

Date

2024-11-13

Publisher

Universidad Industrial de Santander

Abstract

Las aplicaciones ejecutadas en plataformas de HPC necesitan ser protegidas contra fallos. A medida que los sistemas computacionales se vuelven más grandes, la susceptibilidad a ser afectados por errores también crece. Por lo tanto, la necesidad de proporcionar resiliencia a los sistemas es crítica, y la predicción de fallos se ha convertido en uno de los temas más conocidos. Obtener información sobre el estado actual de un sistema podría ayudar a establecer algunas estrategias para apoyar la gestión de este tipo de plataformas. Este tema ha sido ampliamente estudiado. Sin embargo, de manera más analítica, hoy en día, dado el creciente volumen de datos de registros que se están generando, han surgido nuevos enfoques en el horizonte. Varias técnicas proporcionan resiliencia; aquí nos enfocamos en aprovechar los datos de registros para detectar patrones que podrían ofrecer protección adicional contra fallos, brindando mayor fiabilidad. El uso de técnicas de aprendizaje profundo en los últimos años ha mostrado una mejora sobresaliente en la automatización de múltiples tareas. El monitoreo de plataformas HPC genera enormes cantidades de registros que pueden aprovecharse para descubrir patrones que no pueden ser observados con un análisis sencillo.

Keywords

Aprendizaje automático, Aprendizaje profundo, Análisis de datos, Matemática aplicada, HPC, Tolerancia a fallos, Detección de anomalías

URI

https://noesis.uis.edu.co/handle/20.500.14071/44838

Collections

Maestría en Matemática Aplicada

Full item page