Cálculo de primitivas densas de movimiento en 3D utilizando imagenes RGB-D
Cargando...
Fecha
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Industrial de Santander
Resumen
Los sensores RGB-D permiten capturar escenas 3D, codificando y haciendo una correlación entre la profundidad y la clásica información de apariencia (RGB). En la literatura se han reportado diversas estrategias para representar la información de la escena, pero estas requieren complejos procesos de calibración y asumen observaciones independientes. En cuanto a la caracterización del movimiento, las típicas estrategias utilizadas están limitadas a capturar el flujo de escena para describir el movimiento local. Sin embargo, estas estrategias sólo capturan información de movimiento entre dos pares consecutivos de imágenes. Limitando el análisis coherente en largos desplazamientos en el tiempo. En este trabajo, se presenta una novedosa estrategia para calcular primitivas densas de movimiento 3D como primitivas cinemáticas fundamentales para representar secuencias de video. El enfoque propuesto empieza calculando flujos densos de movimiento para capturar los campos de velocidad aparente en cada cuadro. Luego, se realiza un muestreo denso sobre una grilla en la que se seleccionan un conjunto de puntos espaciales que son seguidos de acuerdo a la información de velocidad local. Estos puntos seguidos son filtrados utilizando un kernel mediano para remover el ruido del movimiento presente en periodos cortos de tiempo. Cada trayectoria contiene información coherente de movimiento la cual es caracterizada mediante el cálculo de primitivas cinemáticas de movimiento. Donde cada trayectoria representa primitivas cinemáticas que juntas describen acciones complejas realizadas en secuencias de video. Estás características cinemáticas fueron procesadas en una metodología Bag of Words (BoW) para obtener histogramas que describen videos. Finalmente, se validó el método propuesto a través de un nuevo dataset con 5 acciones y 100 videos. El descriptor basado en trayectorias de movimiento 3D+t alcanzó una precisión promedio de 77%.