Modelos de integración de información multimodal en cnn para el análisis de imagen satelital en entornos urbanos

No Thumbnail Available
Date
2020
Evaluators
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Industrial de Santander
Abstract
El aprendizaje multimodal ofrece la posibilidad de capturar correspondencias entre modalidades y obtener una mayor generalización de la problemática analizada. Una modalidad se refiere a la forma en que los datos son percibidos, audio, imágenes o datos estructurados. Este proyecto aborda el análisis de la inyección de datos multimodales en el entrenamiento de arquitecturas pre-entrenadas de redes neuronales para la identificación de tipologías estructurales en edificios residenciales. Se utiliza un conjunto de imágenes obtenidas por exploración remota mediante StreetView en el área urbana de Medellín, cada una de las entradas en el dataset incluye el registro del número de pisos, las coordenadas de latitud y longitud y el estrato del edificio. Usando sólo imágenes se realiza un entrenamiento de diferentes arquitecturas convolucionales para establecer una base de resultados. Seguidamente, un perceptrón multicapa recibe como entrada datos en otra modalidad existentes por cada edificio, y se entrena simultáneamente con las mismas arquitecturas definidas, los vectores finales de características de estas dos redes son concatenados para producir una salida conjunta. Posteriormente, se usan métricas de clasificación para modelos de aprendizaje de máquinas y demostramos el impacto positivo de incluir información bajo otra modalidad, particularmente en clases poco representadas en el dataset, sin embargo se muestran las limitaciones y un tiempo de entrenamiento mayor bajo redes multimodales.
Description
Keywords
Redes convolucionales, Datos multimodales, Deep learning, Inteligencia artificial.
Citation