Modelos de aprendizaje profundo para el análisis de tolerancia a fallas en sistemas HPC
dc.contributor.advisor | Barrios Hernández, Carlos Jaime | |
dc.contributor.author | Acosta Ortiz, Diego Fernando | |
dc.contributor.evaluator | Wolovick, Nicolás | |
dc.contributor.evaluator | Díaz Toro, Gilberto Javier | |
dc.date.accessioned | 2024-11-26T13:32:40Z | |
dc.date.available | 2024-11-26T13:32:40Z | |
dc.date.created | 2024-11-13 | |
dc.date.issued | 2024-11-13 | |
dc.description.abstract | Las aplicaciones ejecutadas en plataformas de HPC necesitan ser protegidas contra fallos. A medida que los sistemas computacionales se vuelven más grandes, la susceptibilidad a ser afectados por errores también crece. Por lo tanto, la necesidad de proporcionar resiliencia a los sistemas es crítica, y la predicción de fallos se ha convertido en uno de los temas más conocidos. Obtener información sobre el estado actual de un sistema podría ayudar a establecer algunas estrategias para apoyar la gestión de este tipo de plataformas. Este tema ha sido ampliamente estudiado. Sin embargo, de manera más analítica, hoy en día, dado el creciente volumen de datos de registros que se están generando, han surgido nuevos enfoques en el horizonte. Varias técnicas proporcionan resiliencia; aquí nos enfocamos en aprovechar los datos de registros para detectar patrones que podrían ofrecer protección adicional contra fallos, brindando mayor fiabilidad. El uso de técnicas de aprendizaje profundo en los últimos años ha mostrado una mejora sobresaliente en la automatización de múltiples tareas. El monitoreo de plataformas HPC genera enormes cantidades de registros que pueden aprovecharse para descubrir patrones que no pueden ser observados con un análisis sencillo. | |
dc.description.abstractenglish | Applications executed in HPC platforms need to be protected against failure. As long as the computational systems become huge, the susceptibility to be affected by errors grows too, then, the necessity to provide resilience to the systems is critical, and failure prediction has become one of the most well-known issues. Getting information about the current state of a system could help establish some strategies to support the management of these types of platforms. This topic has been widely studied. However, more analytically, nowadays, given the increased volume of log data that currently are being generated, new approaches have arisen on the horizon. Several techniques provide resilience; here, we focus on taking advantage of log data to detect patterns that could give extra protection against occurring failures, bringing higher reliability. The use of DL techniques in recent years has shown an outstanding improvement in automatizing multiple tasks. Monitoring HPC creates vast amounts of log data that can be taken advantage of to discover patterns that can not be seen with a naive analysis. | |
dc.description.degreelevel | Maestría | |
dc.description.degreename | Magíster en Matemática Aplicada | |
dc.format.mimetype | application/pdf | |
dc.identifier.instname | Universidad Industrial de Santander | |
dc.identifier.reponame | Universidad Industrial de Santander | |
dc.identifier.repourl | https://noesis.uis.edu.co | |
dc.identifier.uri | https://noesis.uis.edu.co/handle/20.500.14071/44838 | |
dc.language.iso | spa | |
dc.publisher | Universidad Industrial de Santander | |
dc.publisher.faculty | Facultad de Ciencias | |
dc.publisher.program | Maestría en Matemática Aplicada | |
dc.publisher.school | Escuela de Física | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
dc.rights.license | Atribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO) | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Aprendizaje automático | |
dc.subject | Aprendizaje profundo | |
dc.subject | Análisis de datos | |
dc.subject | Matemática aplicada | |
dc.subject | HPC | |
dc.subject | Tolerancia a fallos | |
dc.subject | Detección de anomalías | |
dc.subject.keyword | HPC | |
dc.subject.keyword | Fault Tolerance | |
dc.subject.keyword | Resilience | |
dc.subject.keyword | Deep Learning | |
dc.title | Modelos de aprendizaje profundo para el análisis de tolerancia a fallas en sistemas HPC | |
dc.title.english | Deep learning models for fault tolerance analysis in HPC systems | |
dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
dc.type.hasversion | http://purl.org/coar/version/c_b1a7d7d4d402bcce | |
dc.type.local | Tesis/Trabajo de grado - Monografía - Maestría |
Files
Original bundle
1 - 3 of 3
No Thumbnail Available
- Name:
- Nota de proyecto.pdf
- Size:
- 83.57 KB
- Format:
- Adobe Portable Document Format
No Thumbnail Available
- Name:
- Carta de autorización.pdf
- Size:
- 136.72 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 2.18 KB
- Format:
- Item-specific license agreed to upon submission
- Description: