Modelos de integración de información multimodal en cnn para el análisis de imagen satelital en entornos urbanos

Rueda Plata, Diego Alexander

Modelos de integración de información multimodal en cnn para el análisis de imagen satelital en entornos urbanos

dc.contributor.advisor	Ramos Pollan, Raul
dc.contributor.advisor	Nuñez, Luis Alberto
dc.contributor.author	Rueda Plata, Diego Alexander
dc.date.accessioned	2024-03-04T00:47:04Z
dc.date.available	2020
dc.date.available	2024-03-04T00:47:04Z
dc.date.created	2020
dc.date.issued	2020
dc.description.abstract	El aprendizaje multimodal ofrece la posibilidad de capturar correspondencias entre modalidades y obtener una mayor generalización de la problemática analizada. Una modalidad se refiere a la forma en que los datos son percibidos, audio, imágenes o datos estructurados. Este proyecto aborda el análisis de la inyección de datos multimodales en el entrenamiento de arquitecturas pre-entrenadas de redes neuronales para la identificación de tipologías estructurales en edificios residenciales. Se utiliza un conjunto de imágenes obtenidas por exploración remota mediante StreetView en el área urbana de Medellín, cada una de las entradas en el dataset incluye el registro del número de pisos, las coordenadas de latitud y longitud y el estrato del edificio. Usando sólo imágenes se realiza un entrenamiento de diferentes arquitecturas convolucionales para establecer una base de resultados. Seguidamente, un perceptrón multicapa recibe como entrada datos en otra modalidad existentes por cada edificio, y se entrena simultáneamente con las mismas arquitecturas definidas, los vectores finales de características de estas dos redes son concatenados para producir una salida conjunta. Posteriormente, se usan métricas de clasificación para modelos de aprendizaje de máquinas y demostramos el impacto positivo de incluir información bajo otra modalidad, particularmente en clases poco representadas en el dataset, sin embargo se muestran las limitaciones y un tiempo de entrenamiento mayor bajo redes multimodales.
dc.description.abstractenglish	Multimodal learning offers the possibility of capturing relations among modalities and obtain a higher generalization of the analyzed problem using machine learning. A modality refers to how data is presented, audio, images or structured data. This project studies the impact of injecting multimodal data on pre-trained neural network architectures to identify structural typologies of residential buildings . An annotated dataset of the metropolitan area of Medellin has been used obtained from StreetView, each one of the buildings includes data on the number of stories, geolocalization (latitude and longitude pairs) and socio-economic stratification of the building. Initially, we train convolutional networks using only the images from the dataset, in order to establish a baseline of results. Following, a multilayer perceptron is created using as input the information from each building, and we train simultaneously with the same convolutional architectures, the final feature vectors are concatenated to produce a single output. We use machine learning classification metrics to measure the positive impact of including data from a different modality, particularly for underrepresented classes in the dataset, while showcasing the limitations and increased training time from multimodal networks.
dc.description.degreelevel	Maestría
dc.description.degreename	Magíster en Matemática Aplicada
dc.format.mimetype	application/pdf
dc.identifier.instname	Universidad Industrial de Santander
dc.identifier.reponame	Universidad Industrial de Santander
dc.identifier.repourl	https://noesis.uis.edu.co
dc.identifier.uri	https://noesis.uis.edu.co/handle/20.500.14071/40506
dc.language.iso	spa
dc.publisher	Universidad Industrial de Santander
dc.publisher.faculty	Facultad de Ciencias
dc.publisher.program	Maestría en Matemática Aplicada
dc.publisher.school	Escuela de Física
dc.rights	http://creativecommons.org/licenses/by/4.0/
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.creativecommons	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.license	Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.uri	http://creativecommons.org/licenses/by-nc/4.0
dc.subject	Redes convolucionales
dc.subject	Datos multimodales
dc.subject	Deep learning
dc.subject	Inteligencia artificial.
dc.subject.keyword	Convolutional networks
dc.subject.keyword	Multimodal data
dc.subject.keyword	Deep learning
dc.subject.keyword	Machine learning.
dc.title	Modelos de integración de información multimodal en cnn para el análisis de imagen satelital en entornos urbanos
dc.title.english	Multimodal information integration models on CNN for satelital image analysis in urban environments.
dc.type.coar	http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversion	http://purl.org/coar/resource_type/c_bdcc
dc.type.local	Tesis/Trabajo de grado - Monografía - Maestria

Files

Original bundle

Now showing 1 - 3 of 3

Name:: Carta de autorización.pdf
Size:: 55.25 KB
Format:: Adobe Portable Document Format

Download

Name:: Documento.pdf
Size:: 4.67 MB
Format:: Adobe Portable Document Format

Download

Name:: Nota de proyecto.pdf
Size:: 121.12 KB
Format:: Adobe Portable Document Format

Download

Collections

Maestría en Matemática Aplicada