Segmentación de materiales a partir de imágenes RGB usando arquitecturas de transformadores de visión e integración de información multiespectral

Atribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO)Rueda Chacón, Hoover FabiánMonroy Chaparro, Brayan EsneiderPérez Pérez, Nelson Fabián2024-11-132024-11-132024-11-122024-11-12https://noesis.uis.edu.co/handle/20.500.14071/44669La segmentación de materiales en imágenes RGB es una tarea desafiante debido a la complejidad de las texturas y la variabilidad de las condiciones de iluminación de los materiales. Aunque la información espectral puede mejorar significativamente esta tarea, su uso está limitado por la escasez de sensores espectrales en aplicaciones del mundo real. En este trabajo, presentamos un novedoso enfoque que integra eficientemente información espectral en un modelo de segmentación basado en transformers, manteniendo la capacidad de operar solo con imágenes RGB durante la inferencia. Nuestro modulo propuesto, denominado Adaptive Spectral Prompt (ASP), incorpora prompts espectrales adaptativos que se ajustan dinámicamente durante el entrenamiento, permitiendo al modelo aprovechar la riqueza de la información espectral sin depender de ella en la inferencia. Ademas, implementamos una estrategia de modality dropout para mejorar la robustez del modelo ante la ausencia de datos espectrales. Evaluamos exhaustivamente nuestro método en el dataset LIB-HSI, logrando un rendimiento significativo, con una precisión del 88.36% y un IoU promedio por clase de 53.28%, superando significativamente a los métodos existentes. Nuestros experimentos demuestran la eficacia de ASP para integrar información multimodal de manera eficiente, mejorando la segmentación de materiales incluso en escenarios con modalidad faltante.application/pdfspainfo:eu-repo/semantics/openAccesstransformers de visionaprendizaje multimodalimagenes espectralesmodalidad faltanteSegmentación de materiales a partir de imágenes RGB usando arquitecturas de transformadores de visión e integración de información multiespectralUniversidad Industrial de SantanderTesis/Trabajo de grado - Monografía - PregradoUniversidad Industrial de Santanderhttps://noesis.uis.edu.coVision transformersMultimodal learningSpectral imagesMissing modalityMaterial Segmentation From Rgb Images Using Vision Transformer Architectures And Multispectral Informationhttp://purl.org/coar/access_right/c_abf2info:eu-repo/semantics/openAccessAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)