Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias

Uribe Espinosa, Rosemberg José

Publicación:
Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias

Portada

498.49 KB

Carta de autorización.pdf

PDF

2.43 MB

Documento.pdf

PDF

FLIP

348.58 KB

Nota de proyecto.pdf

PDF

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autor/a

Uribe Espinosa, Rosemberg José

Director

Escobar Ramírez, Juan Carlos

Barrios Hernández, Carlos Jaime

Editor

Universidad Industrial de Santander

Fecha

2011

Palabras clave

Clúster

Computemode3

Tolerancia a fallas

Computación de alto rendimiento

Puntos de restauración (Checkpoints)

Recursos ociosos

núcleo (Kernel).

Resumen

Poder contar con un nivel de tolerancia a fallas que se presentan en un momento dado dentro de estructuras clúster es indispensable para que el tiempo de cómputo utilizado junto con los cálculos realizados no se pierdan. En la creación de un clúster se usan herramientas que conforman lo que se conoce como un middleware que permite la calendarización y administración de recursos. OAR es la herramienta que administra los recursos que hacen parte del clúster facilitando de cierta manera su creación y manejo, mientras que Computemode es una herramienta que permite crear un clúster ligero a partir de recursos ociosos administrándolos con OAR. Ninguna de estas herramientas cuenta con un sistema que le permita responder a fallas de infraestructura eléctrica, nodos, equipos de redes, entre otras, lo que crea inconformismo en los usuarios que ven a esta pérdida de tiempo de cómputo como un atraso en sus proyectos. Dentro de la tolerancia a fallas, la creación de checkpoints (puntos de chequeo) es una solución que permite presentar una respuesta a más de una falla y a la vez crea un sentimiento de seguridad en el usuario de la estructura de computación de alto rendimiento. Al contar con un respaldo de la información que se va obteniendo, se incrementaría el uso de estas plataformas, al aumentar la confianza en el uso de estas estructuras, especialmente en un Clúster basado en Computemode. Este proyecto busca realizar una investigación sobre los tipos de fallas que se pueden presentar categorizarlas y buscar una posible solución, además de las diferentes opciones de creación de checkpoints, su aplicabilidad, funcionamiento y compatibilidad para escoger la más apropiada e integrarla a Computemode y así dotarlo de un sistema de tolerancias a fallas. 1 Trabajo de grado. Modalidad:

URI

https://noesis.uis.edu.co/handle/20.500.14071/25145

Colecciones

Ingeniería de Sistemas

Página completa del ítem Ver Estadísticas de uso

Publicación:
Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias

Portada

Carta de autorización.pdf

Documento.pdf

Nota de proyecto.pdf

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autor/a

Director

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor

Fecha

Palabras clave

Citación

Título de serie/ reporte/ volumen/ colección

Es Parte de

Resumen

Descripción

Notas

URL del Recurso

URI

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación: Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias

Portada

Carta de autorización.pdf

Documento.pdf

Nota de proyecto.pdf

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autor/a

Director

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor

Fecha

Palabras clave

Citación

Título de serie/ reporte/ volumen/ colección

Es Parte de

Resumen

Descripción

Notas

URL del Recurso

URI

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación:
Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias