Publicación: Reconocimiento de actividades en video utilizando un descriptor regional de covarianza
Portada
Citas bibliográficas
Gestores Bibliográficos
Código QR
Autor/a
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor
Fecha
Citación
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen
El reconocimiento de actividades es una de las áreas predominantes en visión por computador cuyo principal objetivo es la caracterización y cuantificación de patrones de movimiento y de apariencia involucrados en las actividades desarrolladas en video. Estos principios han sido utilizados en una gran variedad de aplicaciones, tales como: la video-vigilancia, el análisis deportivo, los sistemas de interacción persona ordenador, entre muchos otros. A pesar del amplio espectro de propuestas descritas en el estado del arte, existen aún problemas abiertos en cuanto a la descripción de actividades en contextos específicos, la caracterización de patrones frente a cambios de iluminación, la cuantificación de la variabilidad de los objetos de interés, las variaciones de movimiento, entre otros. Por otra parte, los enfoques clásicos son computacionalmente costosos y la precisión en su clasificación depende de la dimensionalidad de los descriptores. Este trabajo presenta un descriptor de covarianza compacto que permite analizar características espacio-temporales que modelan y caracterizan las actividades. Inicialmente se capturan un conjunto de primitivas de bajo nivel que describen la secuencia de video. El descriptor propuesto es calculado en cada cuadro del video de forma eficiente utilizando una representación de imagen integral. Una vez calculado el descriptor en cada cuadro de la secuencia se obtiene una estimación media de la covarianza utilizando la geometría de Riemann que representa la actividad registrada en el video. Finalmente el descriptor propuesto es mapeado hacia un algoritmo de clasificación para realizar una clasificación automática de las actividades. El enfoque propuesto fue evaluado sobre un conjunto de datos públicos (UT-interacción) con un esquema de validación cruzada (k-fold) obteniendo una precisión promedio de 70, 83% para todo el conjunto de datos, con un tamaño del descriptor de 275 valores por secuencia de video.

PDF
FLIP 
