关键词:
自监督学习
对比学习
BEV感知
多模态融合
摘要:
随着自动驾驶技术的发展,鸟瞰图(Bird's Eye View,BEV)感知作为关键技术之一,已经成为了研究热点。然而,有监督BEV感知技术往往依赖于大量的标记数据,且易受到标注偏差的影响。少数的自监督BEV感知方法又聚焦于单模态,存在忽略多模态信息和缺乏语义的缺陷。为了解决这些问题,提出了一种新颖的自监督多模态对比学习方法,旨在降低对标记数据的依赖,并提高BEV感知的准确性与鲁棒性。首先,通过为图像生成像素级的文本标签,然后利用图像和点云作为桥梁,建立起文本标签与BEV网格之间的映射关系,从而构建对比学习的正负样本对。其次,提出了一种基于BEV网格的投票策略,为BEV网格保留高质量的文本标签,有效解决了映射过程中引入的噪声问题。最后,利用预先生成的文本标签,实现了多模态的对比预训练,为模型注入了丰富的文本语义信息。实验结果表明,在不同标记数据微调比例(5%、10%、20%、50%、100%)下,本文提出的方法在3D目标检测任务中分别实现了2.19%、2.74%、1.62%、1.17%和0.6%的3D mAP提升,这显示了该方法较好的性能。