IMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ
dc.contributor.advisor | Roa Fuentes, Elkim Felipe | |
dc.contributor.author | Amaya Hernández, José David | |
dc.contributor.author | León Suárez, Karen Dayanna | |
dc.contributor.evaluator | Moya Baquero, Juán Sebastián | |
dc.contributor.evaluator | Sepúlveda Sepúlveda, Franklin Alexander | |
dc.date.accessioned | 2022-09-15T17:35:04Z | |
dc.date.available | 2022-09-15T17:35:04Z | |
dc.date.created | 2022-09-09 | |
dc.date.issued | 2022-09-09 | |
dc.description.abstract | Los sistemas de reconocimiento de voz permiten interactuar con sistemas utilizando nuestra voz, útil para aplicaciones como atención al cliente automatizada, asistentes de voz, etc. El desarrollo de estos sistemas se ha beneficiado de los avances en Deep Learning haciéndolos más fiables y precisos. Sin embargo, el despliegue de estos sistemas suele requerir una gran cantidad de recursos de hardware y potencia para conseguir un buen rendimiento. Los aceleradores de redes neuronales analógicas son una posible solución, ya que proporcionan un rendimiento rápido con bajo consumo de energía a costa de precisión, ya que son susceptibles a variabilidad estocástica. Una solución a este problema es A-Connect, una metodología de entrenamiento que aumenta la resiliencia en precisión de las redes neuronales analógicas a la variabilidad estocástica. Se ha desarrollado una librería A-Connect en un proyecto anterior con implementaciones para capas totalmente conectadas y convolucionales. En este trabajo se extiende a diferentes tipos de RNNs utilizadas en aplicaciones de reconocimiento de voz como: FastGRNN, LSTM y GRU. Presentamos resultados utilizando las capas implementadas en diferentes modelos entrenados y probados en los datasets Spoken Digits y Speech Commands. Obtenemos con A-Connect un mejor rendimiento cuando se aplica error comparado con el modelo base, por ejemplo, con un modelo LSTM-S, logrando un 68,25% de precisión en el dataset Speech Commands utilizando A-Connect al 70%, lo que supone un 22,78% más que el modelo base. Además, presentamos la implementación en FPGA del modelo GRU. Una versión grande que alcanza el 94,78% en el dataset Speech Commands, y una versión pequeña entrenada con A-Connect 70% que alcanza una precisión del 72,19% en el dataset Speech Commands, un 27,54% más que el modelo base. También proporcionamos una demostración que ofrece una interfaz web permitiendo al usuario grabar un clip de audio y realizar inferencia en FPGA. | |
dc.description.abstractenglish | Speech recognition systems allow us to interface with systems using our voice, useful for applications such as automated customer service, voice assistants, etc. The development of these systems has benefited from advances in Deep Learning making them more reliable and precise. However, the deployment of these systems requires a high amount of hardware resources and power to achieve good performance. Analog neural network accelerators are a possible solution as they provide fast performance with low power consumption at the cost of lower accuracy because they are susceptible to stochastic variability. A solution to this problem is A-Connect, a training methodology that increases analog neural network accuracy resilience to stochastic variability. An A-Connect library has already been developed in a previous undergraduate project containing implementations for fully connected and convolutional layers. In this work, the library is extended to different kinds of recurrent neural networks (RNNs) used in speech recognition applications such as: Fast, Accurate, Stable, and Tiny Gated Recurrent Neural Network (FastGRNN), Long Short-Term Memory (LSTM), and Gated Recurrent Unit (GRU). We present results using the implemented layers on different models trained and tested on the Spoken Digits and Speech Commands datasets. A-Connect shows better performance when error is applied compared to the base model, for example, for the LSTM-S model, achieving up to 68.25% accuracy on Speech Commands dataset using A-Connect 70%, which is 22.78% higher than the base model. In addition, we present the FPGA implementation of a GRU model. A large version which achieves 94.78% on Speech Commands dataset, and a small version trained with A-Connect 70% which achieves an accuracy of 72.19% on Speech Commands dataset, 27.54% higher than the base model. We also provide a demo that offers a web interface that allows the user to record an audio clip and perform inference on FPGA. | |
dc.description.cvlac | https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0001944665 | |
dc.description.degreelevel | Pregrado | |
dc.description.degreename | Ingeniero Electrónico | |
dc.format.mimetype | application/pdf | |
dc.identifier.instname | Universidad Industrial de Santander | |
dc.identifier.reponame | Universidad Industrial de Santander | |
dc.identifier.repourl | https://noesis.uis.edu.co | |
dc.identifier.uri | https://noesis.uis.edu.co/handle/20.500.14071/11436 | |
dc.language.iso | eng | |
dc.publisher | Universidad Industrial de Santander | |
dc.publisher.faculty | Facultad de Ingeníerias Fisicomecánicas | |
dc.publisher.program | Ingeniería Electrónica | |
dc.publisher.school | Escuela de Ingenierías Eléctrica, Electrónica y Telecomunicaciones | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
dc.rights.license | Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Redes neuronales recurrentes | |
dc.subject | Redes neuronales profundas | |
dc.subject | Detección de palabras clave | |
dc.subject.keyword | Recurrent Neural Networks | |
dc.subject.keyword | Deep Neural Networks | |
dc.subject.keyword | Keyword Spotting | |
dc.title | IMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ | |
dc.title.english | IMPLEMENTATION AND VALIDATION OF A-CONNECT IN SPEECH RECOGNITION APPLICATIONS | |
dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
dc.type.hasversion | http://purl.org/coar/version/c_b1a7d7d4d402bcce | |
dc.type.local | Tesis/Trabajo de grado - Monografía - Pregrado | |
dspace.entity.type |
Files
Original bundle
1 - 3 of 3
No Thumbnail Available
- Name:
- Nota de proyecto.pdf
- Size:
- 1.46 MB
- Format:
- Adobe Portable Document Format
No Thumbnail Available
- Name:
- Carta de autorización.pdf
- Size:
- 213.7 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 2.18 KB
- Format:
- Item-specific license agreed to upon submission
- Description: