基于尺寸划分的RGB显著物体检测方法
作者:明泽Danny
来源:微信公众号|3D视觉工坊(系投稿)
SDCNet: Size Divide and Conquer Network for Salient Object Detection
Senbo Yan, Xiaowen Song, and Chuer Yu
论文及代码下载:
在微信公众号「3D视觉工坊」后台,回复「RGB检测」,即可获取论文及代码下载链接。
简介:为了解决现有的显著物体检测方法在检测小对象或大对象方面比较困难这一问题,该文提出了一种大小划分和征服网络(SDCNet),用以分别学习不同大小的突出对象的特征,以便提高检测性能。具体来说,SDCNet包含两个主要方面:(1)通过计算具有像素级的地面真相图像中物体的比例,并训练一个大小推理模块(SIM)来预测突出物体的大小。(2)提出了一种多通道尺寸划分模块(MSDM),分别学习不同尺寸的显著物体的特征。详细地,使用MSDM跟踪骨干网络的每个块,并使用不同的通道在不同的分辨率下提取不同大小范围内的突出对象的特征。与耦合附加特征不同,该文基于对不同数据分布的分治思想对网络进行编码,并专门学习不同大小的显著对象的特征。实验结果表明,SDCNet在五个基准数据集上的性能优于14种最先进的方法。
主要贡献:
- 该文提出了一种新的网络设计方法来划分和克服不同的数据分布。MSDM可以分别学习不同大小范围的突出对象的特征。这种基于数据特征的网络设计是有意义的。
- 该文提供了一个有效的思路,将数据集划分为不同的大小分类,来解决显著对象之间巨大的尺寸偏差,从而显著提高了显着性映射的准确性。
- 该文比较了所提出的方法和14种最先进的方法在五个基准数据集。在没有预处理和后处理的情况下,在三个评估指标上取得了更好的性能。
与其他方法的比较的可视化图片:
模型:
1)建立了一个基于FPN(参考论文Feature Pyramid Networks for Object Detection)的侧输出体系结构,实现了高、低层次特征的融合。
2)通过大小引用模块(SIM)获得突出对象的大小推断,该模块与SDCNet共享相同的主干。SIM生成二值化的粗糙显着性推理,并通过计算SOP(突出的对象比例)得到突出对象的预测尺寸范围。根据SOP将尺寸范围分为(0-10%,10%-20%,20%-30%,30%-40%和40%以上五类)见表1。
SOP计算方式:
3)在侧输出结构中,我们在特征融合的过程中加入了MSDM。MSDM将每个边层的特征映射划分为大小无关流和大小相关流。将与大小无关的流放入一个公共卷积层,并将与大小相关的流放入多通道卷积层。多通道卷积层的每个通道对应于特定的大小范围,再将与大小无关的特征与互补的大小相关特征集成在一起。
MSDM的结构:
使用通用特征提取模块(CFEM)来获得大小无关的特征和大小特征提取模块(SFEM)来获得大小相关的特征。根据尺寸推断θ在SFEM中激活不同的卷积信道。CFi表示大小无关的特征映射,SFi表示大小相关的特征映射。Up(∗;Fi)是指通过双线性插值将上采样*采样到与Fi相同大小的。Cat(A,B)是指级联特征映射A和B。f(i)conv表示由三个卷积层和非线性激活函数组成的CFEM。f(i)(conv,θ)的结构由几个平行的f(i)conv组成,根据大小推断θ为每幅图像激活其中一幅。θ的计算方式与SOP相同。
各模块的具体结构如下:
损失函数:
为了快速收敛,将深度监督应用于各侧路径。gxy和pixy表示GT的像素值和归一化显着性预测。 用wi表示每个层的损失函数的权重,值为1。总损失函数是:
实验结果:
SDCNet和其他14种最先进的方法在5个数据集上的定量评价结果:
总结:
该文致力于解决显著大小差异的显著目标检测。首先,划分了基准数据集中突出对象的大小分布,并训练了一个SIM来使用逐像素计算来执行大小推断。其次,使用一个由上到下的多尺度特征融合网络作为基本结构。该文设计了一个MSDM,根据SIM获得的大小推断激活不同的通道,并学习了不同大小的突出对象的特征。最后,利用低级特征映射作为一对一的指导,以保留更多关于小突出对象的信息。实验结果表明,该方法对小尺寸物体的检测性能有了显著的提高。该方法在三个评估指标下在五个基准数据集中获得最先进的性能。
备注:作者系我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区本文仅做学术分享,如有侵权,请联系删文。