Aplicación de minería de datos para la agilización del proceso de anotación de proteínas mediante la selección de secuencias en base de datos densamente pobladas

Cargando...
Miniatura

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Industrial de Santander

Resumen

En este documento se indica las fases a seguir para dar lugar al desarrolló y validación de un algoritmo computacional, que agilizará el proceso de comparación de secuencias de proteínas del café codificadas a través de la metodología HCA (Hydrophobic Cluster Analysis), la cual ofrece buenos resultados, pero es incapaz de procesar automáticamente grandes cantidades de secuencias ni trabajar en conjunto con una base de datos. Este proyecto se basa en la aplicación de la técnica de Minería de Datos SOM (Self Organizing Más), que junto con el algoritmo VCM (Vector Composición de Momento), permite extraer, recodificar, clasificar y agrupar de acuerdo a su contenido estructural un conjunto de secuencias de proteínas almacenadas en la base de datos conocida como PDB (Proteo Data Bank), logrando una significativa reducción de los tiempos de búsqueda y le selección de secuencias con un alto porcentaje de similaridad. La realización del presente proyecto ofrece como resultado, una base de datos reestructurada y una función de búsqueda, que en conjunto permiten la agilización del proceso de anotación de proteínas y propone la posibilidad de encontrar datos que en algún momento fueron ignorados y que puedan aportar información valiosa sobre la similaridad entre secuencias, y por lo tanto para el proceso de anotación. 1

Descripción

Citación