Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias

dc.contributor.advisorEscobar Ramírez, Juan Carlos
dc.contributor.advisorBarrios Hernández, Carlos Jaime
dc.contributor.authorUribe Espinosa, Rosemberg José
dc.date.accessioned2024-03-03T18:38:22Z
dc.date.available2011
dc.date.available2024-03-03T18:38:22Z
dc.date.created2011
dc.date.issued2011
dc.description.abstractPoder contar con un nivel de tolerancia a fallas que se presentan en un momento dado dentro de estructuras clúster es indispensable para que el tiempo de cómputo utilizado junto con los cálculos realizados no se pierdan. En la creación de un clúster se usan herramientas que conforman lo que se conoce como un middleware que permite la calendarización y administración de recursos. OAR es la herramienta que administra los recursos que hacen parte del clúster facilitando de cierta manera su creación y manejo, mientras que Computemode es una herramienta que permite crear un clúster ligero a partir de recursos ociosos administrándolos con OAR. Ninguna de estas herramientas cuenta con un sistema que le permita responder a fallas de infraestructura eléctrica, nodos, equipos de redes, entre otras, lo que crea inconformismo en los usuarios que ven a esta pérdida de tiempo de cómputo como un atraso en sus proyectos. Dentro de la tolerancia a fallas, la creación de checkpoints (puntos de chequeo) es una solución que permite presentar una respuesta a más de una falla y a la vez crea un sentimiento de seguridad en el usuario de la estructura de computación de alto rendimiento. Al contar con un respaldo de la información que se va obteniendo, se incrementaría el uso de estas plataformas, al aumentar la confianza en el uso de estas estructuras, especialmente en un Clúster basado en Computemode. Este proyecto busca realizar una investigación sobre los tipos de fallas que se pueden presentar categorizarlas y buscar una posible solución, además de las diferentes opciones de creación de checkpoints, su aplicabilidad, funcionamiento y compatibilidad para escoger la más apropiada e integrarla a Computemode y así dotarlo de un sistema de tolerancias a fallas. 1 Trabajo de grado. Modalidad:
dc.description.abstractenglishAble to have a fault tolerance level that occur in a given time in those structures is essential for the computing time used along the done calculation do not get lost In a cluster creation are used tools known as a middleware that allows scheduling and resources management. OAR is a tool that administrates the resources that are part of the cluster, facilitating its creation and management, while Computemode is a tool that allows a light cluster creation from idle resources, managing it with OAR. None of these tools count with a system against electric infrastructure failure, nodes, network equipment, among others, creating nonconformity among users that see this computing time lost like a delay in his projects. Inside the fault tolerance, the checkpoints creation is a solution that allows present a response to more than a failure and at the same time it create a safety sense at the user about the high performance computing structure. Having a backup of the information to be obtained, would increase the use of this platforms, increasing the structure use confidence, especially in a Computemode based cluster . This project aims to conduct an investigation about the types of failures that may occur, categorize and find a possible solution, besides the different checkpoint creation options, its applicability, operation and compatibility to choose the most appropriate and integrate it to Computemode and give it a fault tolerance system 4
dc.description.degreelevelPregrado
dc.description.degreenameIngeniero de Sistemas
dc.format.mimetypeapplication/pdf
dc.identifier.instnameUniversidad Industrial de Santander
dc.identifier.reponameUniversidad Industrial de Santander
dc.identifier.repourlhttps://noesis.uis.edu.co
dc.identifier.urihttps://noesis.uis.edu.co/handle/20.500.14071/25145
dc.language.isospa
dc.publisherUniversidad Industrial de Santander
dc.publisher.facultyFacultad de Ingenierías Fisicomecánicas
dc.publisher.programIngeniería de Sistemas
dc.publisher.schoolEscuela de Ingeniería de Sistemas e Informática
dc.rightshttp://creativecommons.org/licenses/by/4.0/
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.licenseAttribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0
dc.subjectClúster
dc.subjectComputemode3
dc.subjectTolerancia a fallas
dc.subjectComputación de alto rendimiento
dc.subjectPuntos de restauración (Checkpoints)
dc.subjectRecursos ociosos
dc.subjectnúcleo (Kernel).
dc.subject.keywordCluster
dc.subject.keywordComputemode6.
dc.subject.keywordFault tolerance
dc.subject.keywordHigh performance computing
dc.subject.keywordCheckpoints
dc.subject.keywordidle resources
dc.subject.keywordkernel
dc.titleAnálisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias
dc.title.englishAnalysis and implementation of a fault tolerance mechanism and restoration for distributed computaton infrastructure at univeristy networks.
dc.type.coarhttp://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversionhttp://purl.org/coar/resource_type/c_7a1f
dc.type.localTesis/Trabajo de grado - Monografía - Pregrado
Files
Original bundle
Now showing 1 - 3 of 3
No Thumbnail Available
Name:
Carta de autorización.pdf
Size:
498.49 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Documento.pdf
Size:
2.43 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Nota de proyecto.pdf
Size:
348.58 KB
Format:
Adobe Portable Document Format