Modelos de integración de información multimodal en cnn para el análisis de imagen satelital en entornos urbanos
dc.contributor.advisor | Ramos Pollan, Raul | |
dc.contributor.advisor | Nuñez, Luis Alberto | |
dc.contributor.author | Rueda Plata, Diego Alexander | |
dc.date.accessioned | 2024-03-04T00:47:04Z | |
dc.date.available | 2020 | |
dc.date.available | 2024-03-04T00:47:04Z | |
dc.date.created | 2020 | |
dc.date.issued | 2020 | |
dc.description.abstract | El aprendizaje multimodal ofrece la posibilidad de capturar correspondencias entre modalidades y obtener una mayor generalización de la problemática analizada. Una modalidad se refiere a la forma en que los datos son percibidos, audio, imágenes o datos estructurados. Este proyecto aborda el análisis de la inyección de datos multimodales en el entrenamiento de arquitecturas pre-entrenadas de redes neuronales para la identificación de tipologías estructurales en edificios residenciales. Se utiliza un conjunto de imágenes obtenidas por exploración remota mediante StreetView en el área urbana de Medellín, cada una de las entradas en el dataset incluye el registro del número de pisos, las coordenadas de latitud y longitud y el estrato del edificio. Usando sólo imágenes se realiza un entrenamiento de diferentes arquitecturas convolucionales para establecer una base de resultados. Seguidamente, un perceptrón multicapa recibe como entrada datos en otra modalidad existentes por cada edificio, y se entrena simultáneamente con las mismas arquitecturas definidas, los vectores finales de características de estas dos redes son concatenados para producir una salida conjunta. Posteriormente, se usan métricas de clasificación para modelos de aprendizaje de máquinas y demostramos el impacto positivo de incluir información bajo otra modalidad, particularmente en clases poco representadas en el dataset, sin embargo se muestran las limitaciones y un tiempo de entrenamiento mayor bajo redes multimodales. | |
dc.description.abstractenglish | Multimodal learning offers the possibility of capturing relations among modalities and obtain a higher generalization of the analyzed problem using machine learning. A modality refers to how data is presented, audio, images or structured data. This project studies the impact of injecting multimodal data on pre-trained neural network architectures to identify structural typologies of residential buildings . An annotated dataset of the metropolitan area of Medellin has been used obtained from StreetView, each one of the buildings includes data on the number of stories, geolocalization (latitude and longitude pairs) and socio-economic stratification of the building. Initially, we train convolutional networks using only the images from the dataset, in order to establish a baseline of results. Following, a multilayer perceptron is created using as input the information from each building, and we train simultaneously with the same convolutional architectures, the final feature vectors are concatenated to produce a single output. We use machine learning classification metrics to measure the positive impact of including data from a different modality, particularly for underrepresented classes in the dataset, while showcasing the limitations and increased training time from multimodal networks. | |
dc.description.degreelevel | Maestría | |
dc.description.degreename | Magíster en Matemática Aplicada | |
dc.format.mimetype | application/pdf | |
dc.identifier.instname | Universidad Industrial de Santander | |
dc.identifier.reponame | Universidad Industrial de Santander | |
dc.identifier.repourl | https://noesis.uis.edu.co | |
dc.identifier.uri | https://noesis.uis.edu.co/handle/20.500.14071/40506 | |
dc.language.iso | spa | |
dc.publisher | Universidad Industrial de Santander | |
dc.publisher.faculty | Facultad de Ciencias | |
dc.publisher.program | Maestría en Matemática Aplicada | |
dc.publisher.school | Escuela de Física | |
dc.rights | http://creativecommons.org/licenses/by/4.0/ | |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
dc.rights.license | Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc/4.0 | |
dc.subject | Redes convolucionales | |
dc.subject | Datos multimodales | |
dc.subject | Deep learning | |
dc.subject | Inteligencia artificial. | |
dc.subject.keyword | Convolutional networks | |
dc.subject.keyword | Multimodal data | |
dc.subject.keyword | Deep learning | |
dc.subject.keyword | Machine learning. | |
dc.title | Modelos de integración de información multimodal en cnn para el análisis de imagen satelital en entornos urbanos | |
dc.title.english | Multimodal information integration models on CNN for satelital image analysis in urban environments. | |
dc.type.coar | http://purl.org/coar/version/c_b1a7d7d4d402bcce | |
dc.type.hasversion | http://purl.org/coar/resource_type/c_bdcc | |
dc.type.local | Tesis/Trabajo de grado - Monografía - Maestria |
Files
Original bundle
1 - 3 of 3
No Thumbnail Available
- Name:
- Carta de autorización.pdf
- Size:
- 55.25 KB
- Format:
- Adobe Portable Document Format
No Thumbnail Available
- Name:
- Nota de proyecto.pdf
- Size:
- 121.12 KB
- Format:
- Adobe Portable Document Format