IMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ

Amaya Hernández, José David; León Suárez, Karen Dayanna

IMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ

dc.contributor.advisor	Roa Fuentes, Elkim Felipe
dc.contributor.author	Amaya Hernández, José David
dc.contributor.author	León Suárez, Karen Dayanna
dc.contributor.evaluator	Moya Baquero, Juán Sebastián
dc.contributor.evaluator	Sepúlveda Sepúlveda, Franklin Alexander
dc.date.accessioned	2022-09-15T17:35:04Z
dc.date.available	2022-09-15T17:35:04Z
dc.date.created	2022-09-09
dc.date.issued	2022-09-09
dc.description.abstract	Los sistemas de reconocimiento de voz permiten interactuar con sistemas utilizando nuestra voz, útil para aplicaciones como atención al cliente automatizada, asistentes de voz, etc. El desarrollo de estos sistemas se ha beneficiado de los avances en Deep Learning haciéndolos más fiables y precisos. Sin embargo, el despliegue de estos sistemas suele requerir una gran cantidad de recursos de hardware y potencia para conseguir un buen rendimiento. Los aceleradores de redes neuronales analógicas son una posible solución, ya que proporcionan un rendimiento rápido con bajo consumo de energía a costa de precisión, ya que son susceptibles a variabilidad estocástica. Una solución a este problema es A-Connect, una metodología de entrenamiento que aumenta la resiliencia en precisión de las redes neuronales analógicas a la variabilidad estocástica. Se ha desarrollado una librería A-Connect en un proyecto anterior con implementaciones para capas totalmente conectadas y convolucionales. En este trabajo se extiende a diferentes tipos de RNNs utilizadas en aplicaciones de reconocimiento de voz como: FastGRNN, LSTM y GRU. Presentamos resultados utilizando las capas implementadas en diferentes modelos entrenados y probados en los datasets Spoken Digits y Speech Commands. Obtenemos con A-Connect un mejor rendimiento cuando se aplica error comparado con el modelo base, por ejemplo, con un modelo LSTM-S, logrando un 68,25% de precisión en el dataset Speech Commands utilizando A-Connect al 70%, lo que supone un 22,78% más que el modelo base. Además, presentamos la implementación en FPGA del modelo GRU. Una versión grande que alcanza el 94,78% en el dataset Speech Commands, y una versión pequeña entrenada con A-Connect 70% que alcanza una precisión del 72,19% en el dataset Speech Commands, un 27,54% más que el modelo base. También proporcionamos una demostración que ofrece una interfaz web permitiendo al usuario grabar un clip de audio y realizar inferencia en FPGA.
dc.description.abstractenglish	Speech recognition systems allow us to interface with systems using our voice, useful for applications such as automated customer service, voice assistants, etc. The development of these systems has benefited from advances in Deep Learning making them more reliable and precise. However, the deployment of these systems requires a high amount of hardware resources and power to achieve good performance. Analog neural network accelerators are a possible solution as they provide fast performance with low power consumption at the cost of lower accuracy because they are susceptible to stochastic variability. A solution to this problem is A-Connect, a training methodology that increases analog neural network accuracy resilience to stochastic variability. An A-Connect library has already been developed in a previous undergraduate project containing implementations for fully connected and convolutional layers. In this work, the library is extended to different kinds of recurrent neural networks (RNNs) used in speech recognition applications such as: Fast, Accurate, Stable, and Tiny Gated Recurrent Neural Network (FastGRNN), Long Short-Term Memory (LSTM), and Gated Recurrent Unit (GRU). We present results using the implemented layers on different models trained and tested on the Spoken Digits and Speech Commands datasets. A-Connect shows better performance when error is applied compared to the base model, for example, for the LSTM-S model, achieving up to 68.25% accuracy on Speech Commands dataset using A-Connect 70%, which is 22.78% higher than the base model. In addition, we present the FPGA implementation of a GRU model. A large version which achieves 94.78% on Speech Commands dataset, and a small version trained with A-Connect 70% which achieves an accuracy of 72.19% on Speech Commands dataset, 27.54% higher than the base model. We also provide a demo that offers a web interface that allows the user to record an audio clip and perform inference on FPGA.
dc.description.cvlac	https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0001944665
dc.description.degreelevel	Pregrado
dc.description.degreename	Ingeniero Electrónico
dc.format.mimetype	application/pdf
dc.identifier.instname	Universidad Industrial de Santander
dc.identifier.reponame	Universidad Industrial de Santander
dc.identifier.repourl	https://noesis.uis.edu.co
dc.identifier.uri	https://noesis.uis.edu.co/handle/20.500.14071/11436
dc.language.iso	eng
dc.publisher	Universidad Industrial de Santander
dc.publisher.faculty	Facultad de Ingeníerias Fisicomecánicas
dc.publisher.program	Ingeniería Electrónica
dc.publisher.school	Escuela de Ingenierías Eléctrica, Electrónica y Telecomunicaciones
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.coar	http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.license	Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Redes neuronales recurrentes
dc.subject	Redes neuronales profundas
dc.subject	Detección de palabras clave
dc.subject.keyword	Recurrent Neural Networks
dc.subject.keyword	Deep Neural Networks
dc.subject.keyword	Keyword Spotting
dc.title	IMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ
dc.title.english	IMPLEMENTATION AND VALIDATION OF A-CONNECT IN SPEECH RECOGNITION APPLICATIONS
dc.type.coar	http://purl.org/coar/resource_type/c_7a1f
dc.type.hasversion	http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.local	Tesis/Trabajo de grado - Monografía - Pregrado
dspace.entity.type