Segmentación de materiales a partir de imágenes RGB usando arquitecturas de transformadores de visión e integración de información multiespectral
No Thumbnail Available
Date
2024-11-12
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Industrial de Santander
Abstract
La segmentación de materiales en imágenes RGB es una tarea desafiante debido a la complejidad de las texturas y la variabilidad de las condiciones de iluminación de los materiales. Aunque la información espectral puede mejorar significativamente esta tarea, su uso está limitado por la escasez de sensores espectrales en aplicaciones del mundo real. En este trabajo, presentamos un novedoso enfoque que integra eficientemente información espectral en un modelo de segmentación basado en transformers, manteniendo la capacidad de operar solo con imágenes RGB durante la inferencia. Nuestro modulo propuesto, denominado Adaptive Spectral Prompt (ASP), incorpora prompts espectrales adaptativos que se ajustan dinámicamente durante el entrenamiento, permitiendo al modelo aprovechar la riqueza de la información espectral sin depender de ella en la inferencia. Ademas, implementamos una estrategia de modality dropout para mejorar la robustez del modelo ante la ausencia de datos espectrales. Evaluamos exhaustivamente nuestro método en el dataset LIB-HSI, logrando un rendimiento significativo, con una precisión del 88.36% y un IoU promedio por clase de 53.28%, superando significativamente a los métodos existentes. Nuestros experimentos demuestran la eficacia de ASP para integrar información multimodal de manera eficiente, mejorando la segmentación de materiales incluso en escenarios con modalidad faltante.
Description
Keywords
transformers de vision, aprendizaje multimodal, imagenes espectrales, modalidad faltante