IMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ

Amaya Hernández, José David; León Suárez, Karen Dayanna

Publicación:
IMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ

Portada

9.24 MB

Documento.pdf

PDF

FLIP

1.46 MB

Nota de proyecto.pdf

PDF

213.7 KB

Carta de autorización.pdf

PDF

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autor/a

Amaya Hernández, José David

León Suárez, Karen Dayanna

Director

Roa Fuentes, Elkim Felipe

Editor

Universidad Industrial de Santander

Fecha

2022-09-09

Palabras clave

Redes neuronales recurrentes

Redes neuronales profundas

Detección de palabras clave

Resumen

Los sistemas de reconocimiento de voz permiten interactuar con sistemas utilizando nuestra voz, útil para aplicaciones como atención al cliente automatizada, asistentes de voz, etc. El desarrollo de estos sistemas se ha beneficiado de los avances en Deep Learning haciéndolos más fiables y precisos. Sin embargo, el despliegue de estos sistemas suele requerir una gran cantidad de recursos de hardware y potencia para conseguir un buen rendimiento. Los aceleradores de redes neuronales analógicas son una posible solución, ya que proporcionan un rendimiento rápido con bajo consumo de energía a costa de precisión, ya que son susceptibles a variabilidad estocástica. Una solución a este problema es A-Connect, una metodología de entrenamiento que aumenta la resiliencia en precisión de las redes neuronales analógicas a la variabilidad estocástica. Se ha desarrollado una librería A-Connect en un proyecto anterior con implementaciones para capas totalmente conectadas y convolucionales. En este trabajo se extiende a diferentes tipos de RNNs utilizadas en aplicaciones de reconocimiento de voz como: FastGRNN, LSTM y GRU. Presentamos resultados utilizando las capas implementadas en diferentes modelos entrenados y probados en los datasets Spoken Digits y Speech Commands. Obtenemos con A-Connect un mejor rendimiento cuando se aplica error comparado con el modelo base, por ejemplo, con un modelo LSTM-S, logrando un 68,25% de precisión en el dataset Speech Commands utilizando A-Connect al 70%, lo que supone un 22,78% más que el modelo base. Además, presentamos la implementación en FPGA del modelo GRU. Una versión grande que alcanza el 94,78% en el dataset Speech Commands, y una versión pequeña entrenada con A-Connect 70% que alcanza una precisión del 72,19% en el dataset Speech Commands, un 27,54% más que el modelo base. También proporcionamos una demostración que ofrece una interfaz web permitiendo al usuario grabar un clip de audio y realizar inferencia en FPGA.

URI

https://noesis.uis.edu.co/handle/20.500.14071/11436

Colecciones

Ingeniería Electrónica

Página completa del ítem Ver Estadísticas de uso

Publicación:
IMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ

Portada

Documento.pdf

Nota de proyecto.pdf

Carta de autorización.pdf

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autor/a

Director

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor

Fecha

Palabras clave

Citación

Título de serie/ reporte/ volumen/ colección

Es Parte de

Resumen

Descripción

Notas

URL del Recurso

URI

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación: IMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ

Portada

Documento.pdf

Nota de proyecto.pdf

Carta de autorización.pdf

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

Autor/a

Director

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor

Fecha

Palabras clave

Citación

Título de serie/ reporte/ volumen/ colección

Es Parte de

Resumen

Descripción

Notas

URL del Recurso

URI

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación:
IMPLEMENTACIÓN Y VALIDACIÓN DE A-CONNECT EN APLICACIONES DE RECONOCIMIENTO DE VOZ