跨模态学习在三维语义分割领域适应中的应用
重磅干货,第一时间送达
![](http://n4.ikafan.com/assetsj/blank.gif)
小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
![](http://n4.ikafan.com/assetsj/blank.gif)
在标签稀缺的情况下,领域适应是一项重要的学习任务。虽然大多数的工作只关注图像的模态,但有许多重要的多模态数据集。为了利用多模态进行领域适应,作者提出了跨模态学习,通过相互模仿来加强两种模态预测之间的一致性。作者限制作者的网络对标记数据做出正确的预测,并对未标记的目标域数据跨模式做出一致的预测。在无监督和半监督域自适应环境下的实验证明了该策略的有效性。具体来说,作者利用图像和点云模态对三维语义分割任务进行了评估。作者利用最近的自动驾驶数据集,生成各种领域适应场景,包括场景布局、照明、传感器设置和天气的变化,以及合成到真实场景的设置。作者的方法在所有的适应场景下都显著地改进了以前的单模态适应基线。代码将可用。
作者的贡献是:
为了完成3D语义分割的任务,作者引入了新的领域适应场景(4个无监督场景和2个半监督场景),利用带有摄像机和激光雷达的近期2D-3D驾驶数据集。
作者提出了一种新的具有无监督跨模态损耗的DA方法,它加强了多模态一致性,并补充了其他现有的无监督技术[10]。
作者设计了一个健壮的双头结构,将跨模态损失与主要分割目标解耦。
作者分别评估了作者的无监督和半监督DA场景xMUDA和xMoSSDA,并展示了它们优越的性能。
![](http://n4.ikafan.com/assetsj/blank.gif)
区域适应的跨模态学习概述。在这里,2D和3D网络分别以图像和点云作为输入,并预测3D分割标签。请注意,2D的预测被提升到了3D。所提出的跨模态学习通过相互模仿加强了二维和三维预测之间的一致性,这在无监督和半监督领域适应中都被证明是有益的。
![](http://n4.ikafan.com/assetsj/blank.gif)
作者的跨模态无监督学习体系结构用于领域适应。有两个独立的网络流:一个是以图像为输入的2D流,使用U-Net风格的2D ConvNet[11];另一个是以点云为输入的3D流,使用u - net风格的3D SparseConvNet[12]。两个流的特征输出张量的第一个维度的大小为N,等于3D点的个数。为了实现这一等式,作者将三维点投影到图像中,并在相应的像素位置采样二维特征。
![](http://n4.ikafan.com/assetsj/blank.gif)
单头和双头架构。(a)直接在主要分割头之间强制一致性的简单方法。(b)作者提出了一个双头架构,将模仿从主要分割头部解耦,从而获得更强的鲁棒性。
![](http://n4.ikafan.com/assetsj/blank.gif)
提出的用于三维语义分割的DA场景。作者实验中使用的五种DA场景的概述。作者使用元数据生成nuScenes[45]拆分。第三和第四种DA场景使用semantic - kitti[2]作为目标域数据集,使用合成的VirtualKITTI[46]或真实的A2D2[47]作为源域数据集。请注意,作者使用激光雷达覆盖显示A2D2/SemanticKITTI场景,以可视化密度差和由此产生的域间隙。最后,Waymo OD[48]提供了旧金山(SF)、菲尼克斯(PHX)和山景城(MTV)的源域数据集和Kirkland (KRK)的目标域数据集。
![](http://n4.ikafan.com/assetsj/blank.gif)
![](http://n4.ikafan.com/assetsj/blank.gif)
在这项工作中,作者提出了用于无监督(xMUDA)和半监督(xMoSSDA)环境下的领域适应的跨模态学习。为此,作者设计了一个双流、双头架构,并在三维语义分割任务中对图像和点云模式应用了跨模态损失。跨模态损失由应用于两种模式预测之间的KL分歧组成,从而加强一致性。
在4个无监督和2个半监督的领域自适应场景下的实验表明,跨模态学习优于单模态自适应基线,并且与伪标签学习是互补的。
作者认为,跨模态学习可以推广到许多涉及多模态输入数据的任务,既不局限于领域适应任务,也不局限于图像和点云模式。
下面作者将提供关于数据集分割和其他定性结果的详细信息。
论文链接:https://arxiv.org/pdf/2101.07253.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -