关键词:
地物分割
深度学习
多模态数据
注意力机制
摘要:
地物分割作为遥感领域中的重点研究问题之一,一方面直接影响土地利用和土地覆盖变化动态监测等下游任务,同时城乡规划,森林保护,水源监测等诸多领域广泛采用地物分割结果用作问题分析。精确的地物分割结果可以帮助人类实时了解自然动态,带来更好的社会、经济和环境效益。因此,基于遥感卫星提供的实时影像进行及时而准确地分割显得十分重要。现有基于深度学习的地物分割工作对于遥感影像的全局信息利用不够充分,没有针对多通道遥感影像的特点,在模型上进行针对性结构设计。针对上述问题,本文从多通道数据的特点入手,提出了一个新颖的模型结构,并以此为基础,设计了一个通用框架,以求问题的解决。本文的主要工作整理如下:
(1)本文提出了基于Transformer的双分支地物分割模型(DBFormer)。针对多通道遥感影像输入数据模态不一致问题,该模型提出双分支编码器的结构设计,保证可见光与近红外的特征信息在模型编码时不会受到不同模态数据的影响;针对现有语义分割模型无法充分提取全局信息的问题,该模型通过基于Transformer的骨干网络Swin-Transformer进行特征编码,更好地对全局信息进行建模;针对不同模态特征融合不充分问题,该模型基于Transformer的融合模块(TBFM),对不同模态数据间的特征互补关系进行建模,确保各模态的特征均得到充分利用;针对模型较大导致的优化问题,该模型通过构建辅助损失来加速模型收敛,降低优化难度,提升模型精度。DBFormer在大规模真实的公开遥感数据集上进行了评估,实验结果证明DBFormer可以有效地将多通道数据信息进行充分利用,其性能优于现有方法。同时通过消融实验,分别证明了基于Transformer的骨干网络相较于卷积神经网络可以更好地提取全局信息,提升模型性能;TBFM相较于现有的融合方法,可以更充分地将各模态信息进行融合;辅助损失的使用可以加速模型收敛,提升模型性能。
(2)本文在第一项工作的基础上,进一步提出了通用双分支地物分割框架(GDBFramework)。不同于先前的工作,该工作并未提出特定的模型,而是通过构建一个通用框架,使可见光数据下表现良好的语义分割模型可以基于该框架解决多通道遥感影像下的地物分割任务。为解决多通道数据模态不一致问题,该框架参考本文第一项工作,在不改变模型精心设计的编码器和解码器结构的前提下,通过双分支结构的拓展,充分挖掘多模态数据间的互补信息,提高了基于单模态数据设计的编码器-解码器模型面对多光谱数据时的表征能力;针对不同模态数据特征融合问题,该框架提出高效多光谱注意力模块(Efficient Multi-Spectral Attention Module,EMSAM)。该模块对特征通道数和尺寸不敏感,通过相较于TBFM更少的参数进行特征融合。并在训练过程中引入额外的解耦函数,避免冗余特征的学习,提升融合特征的多样性,实现对模型性能的提升。本文针对三个在语义分割任务中表现出色的模型上开展实验,结果显示使用GDBFramework后的三个模型在多通道数据输入场景下,其性能均实现了提升,证明了GDBFramework的有效性。在消融实验中,通过对比EMSAM与TBFM和其他注意力模块,证明了EMSAM的高效性;通过对比解耦损失使用前后的模型性能,证明了解耦损失的有效性。