Publicación: Reconocimiento de actividades en video utilizando un descriptor local de covarianza volumétrica
Portada
Citas bibliográficas
Gestores Bibliográficos
Código QR
Autor/a
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor
Fecha
Citación
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen
La caracterización de acciones involucra reconocer gestos, actividades cotidianas e interacciones entre humanos, objetos o agentes presentes en un video. Sin embargo, esta caracterización es compleja debido a las múltiples variaciones de las acciones, el cambio de iluminación, la superposición de objetos, variaciones de movimiento, entre otros factores. Existen numerosos métodos que han sido propuestos para el reconocimiento y clasificación de acciones, tales como algoritmos densos de aprendizaje mediante redes convolucionales profundas. Estos trabajos son ampliamente analizados en imágenes, sin embargo, su extensión a un análisis volumétrico ha sido poco explorada. Además, estos trabajos requieren extensas bases de datos para aprender representaciones volumétricas y sus procesos de entrenamiento suelen ser redundantes y complejos. En el presente trabajo, se presenta un método computacional, el cual reconoce acciones a partir del modelamiento local de covarianzas, que resumen patrones densos convolucionales de forma local, usando un soporte temporal guiado por trayectorias de movimiento. Para ello, cada cuadro del video es descrito por un conjunto de activaciones de arquitecturas convolucionales pre-entrenadas. Las regiones salientes, que siguen trayectorias de movimiento, son utilizadas como entrada en las matrices de covarianza. Para el cálculo de la covarianza se utilizó una estrategia integral que permite permanecer eficientes en cuanto al costo computacional. Entonces, para cada secuencia se calculan M covarianzas locales, las cuales son representadas por K, K« M centroides, que conforman el descriptor de video. El método propuesto logro en la base de datos publica UT-Interaction, una exactitud de 83.3 %, una sensibilidad de 86.1 %, y una especificidad de 91.3% para su primer segmento, y para el segundo, una exactitud de 83.3 %, una sensibilidad de 83.3 %, y una especificidad de 96.4 %.

PDF
FLIP 
