Modelos de aprendizaje profundo para el análisis de tolerancia a fallas en sistemas HPC

dc.contributor.advisorBarrios Hernández, Carlos Jaime
dc.contributor.authorAcosta Ortiz, Diego Fernando
dc.contributor.evaluatorWolovick, Nicolás
dc.contributor.evaluatorDíaz Toro, Gilberto Javier
dc.date.accessioned2024-11-26T13:32:40Z
dc.date.available2024-11-26T13:32:40Z
dc.date.created2024-11-13
dc.date.issued2024-11-13
dc.description.abstractLas aplicaciones ejecutadas en plataformas de HPC necesitan ser protegidas contra fallos. A medida que los sistemas computacionales se vuelven más grandes, la susceptibilidad a ser afectados por errores también crece. Por lo tanto, la necesidad de proporcionar resiliencia a los sistemas es crítica, y la predicción de fallos se ha convertido en uno de los temas más conocidos. Obtener información sobre el estado actual de un sistema podría ayudar a establecer algunas estrategias para apoyar la gestión de este tipo de plataformas. Este tema ha sido ampliamente estudiado. Sin embargo, de manera más analítica, hoy en día, dado el creciente volumen de datos de registros que se están generando, han surgido nuevos enfoques en el horizonte. Varias técnicas proporcionan resiliencia; aquí nos enfocamos en aprovechar los datos de registros para detectar patrones que podrían ofrecer protección adicional contra fallos, brindando mayor fiabilidad. El uso de técnicas de aprendizaje profundo en los últimos años ha mostrado una mejora sobresaliente en la automatización de múltiples tareas. El monitoreo de plataformas HPC genera enormes cantidades de registros que pueden aprovecharse para descubrir patrones que no pueden ser observados con un análisis sencillo.
dc.description.abstractenglishApplications executed in HPC platforms need to be protected against failure. As long as the computational systems become huge, the susceptibility to be affected by errors grows too, then, the necessity to provide resilience to the systems is critical, and failure prediction has become one of the most well-known issues. Getting information about the current state of a system could help establish some strategies to support the management of these types of platforms. This topic has been widely studied. However, more analytically, nowadays, given the increased volume of log data that currently are being generated, new approaches have arisen on the horizon. Several techniques provide resilience; here, we focus on taking advantage of log data to detect patterns that could give extra protection against occurring failures, bringing higher reliability. The use of DL techniques in recent years has shown an outstanding improvement in automatizing multiple tasks. Monitoring HPC creates vast amounts of log data that can be taken advantage of to discover patterns that can not be seen with a naive analysis.
dc.description.degreelevelMaestría
dc.description.degreenameMagíster en Matemática Aplicada
dc.format.mimetypeapplication/pdf
dc.identifier.instnameUniversidad Industrial de Santander
dc.identifier.reponameUniversidad Industrial de Santander
dc.identifier.repourlhttps://noesis.uis.edu.co
dc.identifier.urihttps://noesis.uis.edu.co/handle/20.500.14071/44838
dc.language.isospa
dc.publisherUniversidad Industrial de Santander
dc.publisher.facultyFacultad de Ciencias
dc.publisher.programMaestría en Matemática Aplicada
dc.publisher.schoolEscuela de Física
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.licenseAtribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO)
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAprendizaje automático
dc.subjectAprendizaje profundo
dc.subjectAnálisis de datos
dc.subjectMatemática aplicada
dc.subjectHPC
dc.subjectTolerancia a fallos
dc.subjectDetección de anomalías
dc.subject.keywordHPC
dc.subject.keywordFault Tolerance
dc.subject.keywordResilience
dc.subject.keywordDeep Learning
dc.titleModelos de aprendizaje profundo para el análisis de tolerancia a fallas en sistemas HPC
dc.title.englishDeep learning models for fault tolerance analysis in HPC systems
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.hasversionhttp://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.localTesis/Trabajo de grado - Monografía - Maestría
Files
Original bundle
Now showing 1 - 3 of 3
No Thumbnail Available
Name:
Nota de proyecto.pdf
Size:
83.57 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Documento.pdf
Size:
2.47 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Carta de autorización.pdf
Size:
136.72 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.18 KB
Format:
Item-specific license agreed to upon submission
Description: