Redes convolucionales basadas en escalado uniforme de dimensiones para la clasificación de imágenes multiespectrales

En el campo de la clasificación de imágenes multi e hiperespectrales se ha popularizado en la última década el uso de técnicas basadas en aprendizaje profundo, en particular las basadas en redes convolucionales. Dado que su coste computacional es más alto que el de las técnicas de aprendizaje automático más clásicas, recientemente se han propuesto nuevos esquemas de clasificación que tienen como objetivo reducir el tiempo de ejecución requerido por ellas. Un modelo de red que ha sido aplicado con éxito a problemas de clasificación de imágenes en la literatura es la llamada red EfficientNet. Este tipo de redes de aprendizaje profundo se caracterizan por realizar un escalado uniforme de las tres dimensiones que componen la red: profundidad, anchura y resolución. De esta forma, se obtiene un modelo con buenas precisiones de clasificación a la vez que se cumplen las restricciones computacionales impuestas por el problema. En este trabajo se propone la adaptación de las redes tipo EfficientNet para resolver la clasificación de imágenes multiespectrales de alta resolución. Se analizan diferentes configuraciones de este tipo de redes variando el escalado de la arquitectura, tanto en términos de precisión de la clasificación del esquema resultante como de tiempo de ejecución. Los experimentos realizados sobre imágenes multiespectrales de alta resolución espacial obtenidas mediante vehículos aéreos no tripulados han mostrado que algunas variantes específicas de EfficientNet permiten una reducción importante del coste computacional sin degradar la precisión de clasificación.

keywords: multiespectral, clasificación de imágenes, redes convolucionales, GPU, aprendizaje profundo