Reconocimiento de actividades en video utilizando un descriptor local de covarianza volumétrica
Cargando...
Fecha
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Industrial de Santander
Resumen
La caracterización de acciones involucra reconocer gestos, actividades cotidianas e interacciones
entre humanos, objetos o agentes presentes en un video. Sin embargo, esta caracterización es compleja
debido a las múltiples variaciones de las acciones, el cambio de iluminación, la superposición de objetos, variaciones
de movimiento, entre otros factores. Existen numerosos métodos que han sido propuestos para el
reconocimiento y clasificación de acciones, tales como algoritmos densos de aprendizaje mediante redes convolucionales
profundas. Estos trabajos son ampliamente analizados en imágenes, sin embargo, su extensión a un
análisis volumétrico ha sido poco explorada. Además, estos trabajos requieren extensas bases de datos para
aprender representaciones volumétricas y sus procesos de entrenamiento suelen ser redundantes y complejos.
En el presente trabajo, se presenta un método computacional, el cual reconoce acciones a partir del modelamiento
local de covarianzas, que resumen patrones densos convolucionales de forma local, usando un soporte
temporal guiado por trayectorias de movimiento. Para ello, cada cuadro del video es descrito por un conjunto
de activaciones de arquitecturas convolucionales pre-entrenadas. Las regiones salientes, que siguen trayectorias
de movimiento, son utilizadas como entrada en las matrices de covarianza. Para el cálculo de la covarianza se
utilizó una estrategia integral que permite permanecer eficientes en cuanto al costo computacional. Entonces,
para cada secuencia se calculan M covarianzas locales, las cuales son representadas por K, K« M centroides, que
conforman el descriptor de video. El método propuesto logro en la base de datos publica UT-Interaction, una
exactitud de 83.3 %, una sensibilidad de 86.1 %, y una especificidad de 91.3% para su primer segmento, y para
el segundo, una exactitud de 83.3 %, una sensibilidad de 83.3 %, y una especificidad de 96.4 %.