Modelos de integración de información multimodal en cnn para el análisis de imagen satelital en entornos urbanos

dc.contributor.advisorRamos Pollan, Raul
dc.contributor.advisorNuñez, Luis Alberto
dc.contributor.authorRueda Plata, Diego Alexander
dc.date.accessioned2024-03-04T00:47:04Z
dc.date.available2020
dc.date.available2024-03-04T00:47:04Z
dc.date.created2020
dc.date.issued2020
dc.description.abstractEl aprendizaje multimodal ofrece la posibilidad de capturar correspondencias entre modalidades y obtener una mayor generalización de la problemática analizada. Una modalidad se refiere a la forma en que los datos son percibidos, audio, imágenes o datos estructurados. Este proyecto aborda el análisis de la inyección de datos multimodales en el entrenamiento de arquitecturas pre-entrenadas de redes neuronales para la identificación de tipologías estructurales en edificios residenciales. Se utiliza un conjunto de imágenes obtenidas por exploración remota mediante StreetView en el área urbana de Medellín, cada una de las entradas en el dataset incluye el registro del número de pisos, las coordenadas de latitud y longitud y el estrato del edificio. Usando sólo imágenes se realiza un entrenamiento de diferentes arquitecturas convolucionales para establecer una base de resultados. Seguidamente, un perceptrón multicapa recibe como entrada datos en otra modalidad existentes por cada edificio, y se entrena simultáneamente con las mismas arquitecturas definidas, los vectores finales de características de estas dos redes son concatenados para producir una salida conjunta. Posteriormente, se usan métricas de clasificación para modelos de aprendizaje de máquinas y demostramos el impacto positivo de incluir información bajo otra modalidad, particularmente en clases poco representadas en el dataset, sin embargo se muestran las limitaciones y un tiempo de entrenamiento mayor bajo redes multimodales.
dc.description.abstractenglishMultimodal learning offers the possibility of capturing relations among modalities and obtain a higher generalization of the analyzed problem using machine learning. A modality refers to how data is presented, audio, images or structured data. This project studies the impact of injecting multimodal data on pre-trained neural network architectures to identify structural typologies of residential buildings . An annotated dataset of the metropolitan area of Medellin has been used obtained from StreetView, each one of the buildings includes data on the number of stories, geolocalization (latitude and longitude pairs) and socio-economic stratification of the building. Initially, we train convolutional networks using only the images from the dataset, in order to establish a baseline of results. Following, a multilayer perceptron is created using as input the information from each building, and we train simultaneously with the same convolutional architectures, the final feature vectors are concatenated to produce a single output. We use machine learning classification metrics to measure the positive impact of including data from a different modality, particularly for underrepresented classes in the dataset, while showcasing the limitations and increased training time from multimodal networks.
dc.description.degreelevelMaestría
dc.description.degreenameMagíster en Matemática Aplicada
dc.format.mimetypeapplication/pdf
dc.identifier.instnameUniversidad Industrial de Santander
dc.identifier.reponameUniversidad Industrial de Santander
dc.identifier.repourlhttps://noesis.uis.edu.co
dc.identifier.urihttps://noesis.uis.edu.co/handle/20.500.14071/40506
dc.language.isospa
dc.publisherUniversidad Industrial de Santander
dc.publisher.facultyFacultad de Ciencias
dc.publisher.programMaestría en Matemática Aplicada
dc.publisher.schoolEscuela de Física
dc.rightshttp://creativecommons.org/licenses/by/4.0/
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.licenseAttribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0
dc.subjectRedes convolucionales
dc.subjectDatos multimodales
dc.subjectDeep learning
dc.subjectInteligencia artificial.
dc.subject.keywordConvolutional networks
dc.subject.keywordMultimodal data
dc.subject.keywordDeep learning
dc.subject.keywordMachine learning.
dc.titleModelos de integración de información multimodal en cnn para el análisis de imagen satelital en entornos urbanos
dc.title.englishMultimodal information integration models on CNN for satelital image analysis in urban environments.
dc.type.coarhttp://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversionhttp://purl.org/coar/resource_type/c_bdcc
dc.type.localTesis/Trabajo de grado - Monografía - Maestria
Files
Original bundle
Now showing 1 - 3 of 3
No Thumbnail Available
Name:
Carta de autorización.pdf
Size:
55.25 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Documento.pdf
Size:
4.67 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Nota de proyecto.pdf
Size:
121.12 KB
Format:
Adobe Portable Document Format