IMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ

dc.contributor.advisorRoa Fuentes, Elkim Felipe
dc.contributor.authorAmaya Hernández, José David
dc.contributor.authorLeón Suárez, Karen Dayanna
dc.contributor.evaluatorMoya Baquero, Juán Sebastián
dc.contributor.evaluatorSepúlveda Sepúlveda, Franklin Alexander
dc.date.accessioned2022-09-15T17:35:04Z
dc.date.available2022-09-15T17:35:04Z
dc.date.created2022-09-09
dc.date.issued2022-09-09
dc.description.abstractLos sistemas de reconocimiento de voz permiten interactuar con sistemas utilizando nuestra voz, útil para aplicaciones como atención al cliente automatizada, asistentes de voz, etc. El desarrollo de estos sistemas se ha beneficiado de los avances en Deep Learning haciéndolos más fiables y precisos. Sin embargo, el despliegue de estos sistemas suele requerir una gran cantidad de recursos de hardware y potencia para conseguir un buen rendimiento. Los aceleradores de redes neuronales analógicas son una posible solución, ya que proporcionan un rendimiento rápido con bajo consumo de energía a costa de precisión, ya que son susceptibles a variabilidad estocástica. Una solución a este problema es A-Connect, una metodología de entrenamiento que aumenta la resiliencia en precisión de las redes neuronales analógicas a la variabilidad estocástica. Se ha desarrollado una librería A-Connect en un proyecto anterior con implementaciones para capas totalmente conectadas y convolucionales. En este trabajo se extiende a diferentes tipos de RNNs utilizadas en aplicaciones de reconocimiento de voz como: FastGRNN, LSTM y GRU. Presentamos resultados utilizando las capas implementadas en diferentes modelos entrenados y probados en los datasets Spoken Digits y Speech Commands. Obtenemos con A-Connect un mejor rendimiento cuando se aplica error comparado con el modelo base, por ejemplo, con un modelo LSTM-S, logrando un 68,25% de precisión en el dataset Speech Commands utilizando A-Connect al 70%, lo que supone un 22,78% más que el modelo base. Además, presentamos la implementación en FPGA del modelo GRU. Una versión grande que alcanza el 94,78% en el dataset Speech Commands, y una versión pequeña entrenada con A-Connect 70% que alcanza una precisión del 72,19% en el dataset Speech Commands, un 27,54% más que el modelo base. También proporcionamos una demostración que ofrece una interfaz web permitiendo al usuario grabar un clip de audio y realizar inferencia en FPGA.
dc.description.abstractenglishSpeech recognition systems allow us to interface with systems using our voice, useful for applications such as automated customer service, voice assistants, etc. The development of these systems has benefited from advances in Deep Learning making them more reliable and precise. However, the deployment of these systems requires a high amount of hardware resources and power to achieve good performance. Analog neural network accelerators are a possible solution as they provide fast performance with low power consumption at the cost of lower accuracy because they are susceptible to stochastic variability. A solution to this problem is A-Connect, a training methodology that increases analog neural network accuracy resilience to stochastic variability. An A-Connect library has already been developed in a previous undergraduate project containing implementations for fully connected and convolutional layers. In this work, the library is extended to different kinds of recurrent neural networks (RNNs) used in speech recognition applications such as: Fast, Accurate, Stable, and Tiny Gated Recurrent Neural Network (FastGRNN), Long Short-Term Memory (LSTM), and Gated Recurrent Unit (GRU). We present results using the implemented layers on different models trained and tested on the Spoken Digits and Speech Commands datasets. A-Connect shows better performance when error is applied compared to the base model, for example, for the LSTM-S model, achieving up to 68.25% accuracy on Speech Commands dataset using A-Connect 70%, which is 22.78% higher than the base model. In addition, we present the FPGA implementation of a GRU model. A large version which achieves 94.78% on Speech Commands dataset, and a small version trained with A-Connect 70% which achieves an accuracy of 72.19% on Speech Commands dataset, 27.54% higher than the base model. We also provide a demo that offers a web interface that allows the user to record an audio clip and perform inference on FPGA.
dc.description.cvlachttps://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0001944665
dc.description.degreelevelPregrado
dc.description.degreenameIngeniero Electrónico
dc.format.mimetypeapplication/pdf
dc.identifier.instnameUniversidad Industrial de Santander
dc.identifier.reponameUniversidad Industrial de Santander
dc.identifier.repourlhttps://noesis.uis.edu.co
dc.identifier.urihttps://noesis.uis.edu.co/handle/20.500.14071/11436
dc.language.isoeng
dc.publisherUniversidad Industrial de Santander
dc.publisher.facultyFacultad de Ingeníerias Fisicomecánicas
dc.publisher.programIngeniería Electrónica
dc.publisher.schoolEscuela de Ingenierías Eléctrica, Electrónica y Telecomunicaciones
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.licenseAttribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectRedes neuronales recurrentes
dc.subjectRedes neuronales profundas
dc.subjectDetección de palabras clave
dc.subject.keywordRecurrent Neural Networks
dc.subject.keywordDeep Neural Networks
dc.subject.keywordKeyword Spotting
dc.titleIMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ
dc.title.englishIMPLEMENTATION AND VALIDATION OF A-CONNECT IN SPEECH RECOGNITION APPLICATIONS
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.hasversionhttp://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.localTesis/Trabajo de grado - Monografía - Pregrado
dspace.entity.type
Files
Original bundle
Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
Documento.pdf
Size:
9.24 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Nota de proyecto.pdf
Size:
1.46 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Carta de autorización.pdf
Size:
213.7 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.18 KB
Format:
Item-specific license agreed to upon submission
Description: