Publicación: Reconocimiento de gestos en el lenguaje de señas utilizando descriptores basados en primitivas locales de movimiento y forma
Portada
Citas bibliográficas
Gestores Bibliográficos
Código QR
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor
Fecha
Citación
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen
El reconocimiento automático en el lenguaje de señas (SLR) es una tarea fundamental para ayudar en la inclusión de la comunidad sorda en la sociedad, facilitando en la actualidad, muchas tareas de interacción multimedia convencionales. Sin embargo, el reconocimiento de gestos continúa siendo un problema abierto debido a las múltiples variaciones entre persona dadas por su cultura, historia y las interpretaciones particulares según las regiones. Tales variaciones implican grandes desafíos para entender y asociar etiquetas del lenguaje semántico a los gestos espaciotemporales. Además, los escenarios en línea requieren predicciones en cada instante de tiempo necesitando reconocer los gestos mientras se desarrollan. Este trabajo presenta un enfoque novedoso para reconocer gestos predominantes en el lenguaje de señas. Este reconocimiento puede realizarse para secuencias de video completas, así como también para secuencias parciales e incompletas. El método comienza computando parches volumétricos que contienen información cinemática de diferentes primitivas de flujo y de apariencia. A continuación, se aprenden varios intervalos secuenciales para llevar a cabo la tarea de reconocimiento parcial. Para cada nuevo vídeo, se obtiene una representación acumulativa utilizando la estrategia Shape Difference VLAD en diferentes intervalos del vídeo. Cada descriptor SD-VLAD recupera la media y la varianza de la información de movimiento como firma del gesto calculado. El enfoque propuesto fue evaluado en un conjunto de datos públicos con 64 clases diferentes, registrados en 3200 videos. El enfoque propuesto es capaz de reconocer gestos en señas usando sólo 40% de la secuencia con una precisión promedio de 54%. Para secuencias completas, alcanza un promedio del 85 %.

PDF
FLIP 
