Aplicación de minería de datos para la agilización del proceso de anotación de proteínas mediante la selección de secuencias en base de datos densamente pobladas

Granados Jiménez, Diana Marcela; Rincón Tello, Pedro Arturo

Publicación:
Aplicación de minería de datos para la agilización del proceso de anotación de proteínas mediante la selección de secuencias en base de datos densamente pobladas

dc.contributor.advisor	Bautista Rozo, Lola Xiomara
dc.contributor.advisor	Blanco Tirado, Cristian
dc.contributor.advisor	Delgado, Darío José
dc.contributor.author	Granados Jiménez, Diana Marcela
dc.contributor.author	Rincón Tello, Pedro Arturo
dc.date.accessioned	2024-03-03T20:08:16Z
dc.date.available	2013
dc.date.available	2024-03-03T20:08:16Z
dc.date.created	2013
dc.date.issued	2013
dc.description.abstract	En este documento se indica las fases a seguir para dar lugar al desarrolló y validación de un algoritmo computacional, que agilizará el proceso de comparación de secuencias de proteínas del café codificadas a través de la metodología HCA (Hydrophobic Cluster Analysis), la cual ofrece buenos resultados, pero es incapaz de procesar automáticamente grandes cantidades de secuencias ni trabajar en conjunto con una base de datos. Este proyecto se basa en la aplicación de la técnica de Minería de Datos SOM (Self Organizing Más), que junto con el algoritmo VCM (Vector Composición de Momento), permite extraer, recodificar, clasificar y agrupar de acuerdo a su contenido estructural un conjunto de secuencias de proteínas almacenadas en la base de datos conocida como PDB (Proteo Data Bank), logrando una significativa reducción de los tiempos de búsqueda y le selección de secuencias con un alto porcentaje de similaridad. La realización del presente proyecto ofrece como resultado, una base de datos reestructurada y una función de búsqueda, que en conjunto permiten la agilización del proceso de anotación de proteínas y propone la posibilidad de encontrar datos que en algún momento fueron ignorados y que puedan aportar información valiosa sobre la similaridad entre secuencias, y por lo tanto para el proceso de anotación. 1
dc.description.abstractenglish	This paper indicates the steps to result in the development and validation of a computational algorithm, which will speed up the comparison process of coffee protein sequences encoded through the HCA (Hydrophobic Cluster Analysis) methodology, which already offers good results, unable to automatically process large amounts of sequences nor to work together with a database. This project is based on the application of the SOM (Self-Organizing Maps) a Clustering Data Mining technique which along with the VCM (Composition Moment Vector), allows to extract, recode, classify and group, according to its structural and therefore functional- content, a set of protein sequences stored in the international data base known as PDB (Protein Data Bank), thus achieving a significant search time reduction and the selection of sequences with a high similarity percentage. The realization of this project provides as a result, a restructured database and a search function, which together allow the speeding up of the protein annotation process, the reduction o ambiguity and offering the possibility of finding data that were previously ignored and that can provide valuable information about the similarity between sequences and therefore for the annotation process. 3
dc.description.degreelevel	Pregrado
dc.description.degreename	Ingeniero de Sistemas
dc.format.mimetype	application/pdf
dc.identifier.instname	Universidad Industrial de Santander
dc.identifier.reponame	Universidad Industrial de Santander
dc.identifier.repourl	https://noesis.uis.edu.co
dc.identifier.uri	https://noesis.uis.edu.co/handle/20.500.14071/29174
dc.language.iso	spa
dc.publisher	Universidad Industrial de Santander
dc.publisher.faculty	Facultad de Ingenierías Fisicomecánicas
dc.publisher.program	Ingeniería de Sistemas
dc.publisher.school	Escuela de Ingeniería de Sistemas e Informática
dc.rights	http://creativecommons.org/licenses/by/4.0/
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.creativecommons	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.license	Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.uri	http://creativecommons.org/licenses/by-nc/4.0
dc.subject	Análisis De Clusters Hidrofóbicos
dc.subject	Bases De Datos Densamente Pobladas
dc.subject	Minería De Datos.
dc.subject.keyword	Hydrophobic Cluster Analysis
dc.subject.keyword	Densely Populated Databases
dc.subject.keyword	Data Mining.
dc.title	Aplicación de minería de datos para la agilización del proceso de anotación de proteínas mediante la selección de secuencias en base de datos densamente pobladas
dc.title.english	Data mining application to speed up the protein annotation process through selection of sequences in densely populated databases3
dc.type.coar	http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversion	http://purl.org/coar/resource_type/c_7a1f
dc.type.local	Tesis/Trabajo de grado - Monografía - Pregrado
dspace.entity.type	Publication