Reconocimiento de actividades en video utilizando un descriptor local de covarianza volumétrica

Cargando...
Miniatura

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Industrial de Santander

Resumen

La caracterización de acciones involucra reconocer gestos, actividades cotidianas e interacciones entre humanos, objetos o agentes presentes en un video. Sin embargo, esta caracterización es compleja debido a las múltiples variaciones de las acciones, el cambio de iluminación, la superposición de objetos, variaciones de movimiento, entre otros factores. Existen numerosos métodos que han sido propuestos para el reconocimiento y clasificación de acciones, tales como algoritmos densos de aprendizaje mediante redes convolucionales profundas. Estos trabajos son ampliamente analizados en imágenes, sin embargo, su extensión a un análisis volumétrico ha sido poco explorada. Además, estos trabajos requieren extensas bases de datos para aprender representaciones volumétricas y sus procesos de entrenamiento suelen ser redundantes y complejos. En el presente trabajo, se presenta un método computacional, el cual reconoce acciones a partir del modelamiento local de covarianzas, que resumen patrones densos convolucionales de forma local, usando un soporte temporal guiado por trayectorias de movimiento. Para ello, cada cuadro del video es descrito por un conjunto de activaciones de arquitecturas convolucionales pre-entrenadas. Las regiones salientes, que siguen trayectorias de movimiento, son utilizadas como entrada en las matrices de covarianza. Para el cálculo de la covarianza se utilizó una estrategia integral que permite permanecer eficientes en cuanto al costo computacional. Entonces, para cada secuencia se calculan M covarianzas locales, las cuales son representadas por K, K« M centroides, que conforman el descriptor de video. El método propuesto logro en la base de datos publica UT-Interaction, una exactitud de 83.3 %, una sensibilidad de 86.1 %, y una especificidad de 91.3% para su primer segmento, y para el segundo, una exactitud de 83.3 %, una sensibilidad de 83.3 %, y una especificidad de 96.4 %.

Descripción

Citación