Softer-NMS:CMU&旷视最新论文提出定位更加精确的目标检测算法
前天arXiv新上论文《Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection》,来自卡内基梅隆大学与旷视科技的研究人员在文中提出了一种新的非极大抑制算法Softer-NMS,显著改进了目标检测的定位精度,代码已经开源,目前Github上的Star已超100,可谓短短两天已经引起了不小的关注。
作者信息:
目前NMS算法的问题
非极大抑制(Non-maximum suppression,NMS)算法对于目前state-of-the-art目标检测算法从多个候选位置定位目标非常重要,在目前的NMS算法中,使用目标的分类分数作为候选位置精确度的体现,即分类成某类物体的分数越高代表定位精度也越精确,但作者发现,其实很多时候并不是如此。
作者关注了两种目前NMS会出问题的情况:
1)所有的候选包围框都不够精确(这时候该选择哪一个?或者有没有可能综合这些候选框的信息提高精度?);
2)拥有高的分类分数的候选包围框不精确(如何更有效地评价候选框的定位精度?)。
请看下图:
图中(a)展示了2个均在某些坐标不精确的候选包围框,(b)展示了定位精度高的候选框分类分数较低。
以上检测失败的例子都表明,定位置信度并不是与分类置信度强相关(事实上好的分类器应该对定位信息不敏感)。
算法思想
基于上述观察,该文提出了一种新的包围框回归的损失函数(KL Loss),用来同时学习包围框变换和定位置信度。
KL Loss 包围框回归
作者建模包围框预测是一种高斯分布,而ground truth包围框是Dirac delta function(狄拉克delta函数,又称为狄拉克delta分布,是一种标准差趋近于0的高斯分布的极限,如下图所示)。
KL 散度用来衡量两个概率分布的非对称性度量,KL散度越接近0代表两个概率分布越相似。
KL loss即为最小化包围框预测的高斯分布和ground truth的狄拉克delta分布的KL散度。直观上解释,KL Loss使得包围框预测呈高斯分布,且与ground truth相近。而将包围框预测的标准差看作置信度。
网络架构
由图中可知,标准差估计与包围框定位都包含在损失函数Lreg中。
损失函数定义:
当候选框预测不准确的时候,希望方差尽可能小,减小Lreg。(更接近ground truth的包围框预测肯定是稳定的,方差较小的)
Softer-NMS算法流程
得到上述置信度,即可以在Soft NMS后进一步改进,将大于一定重叠度阈值Nt的候选包围框根据置信度加权平均。(因为在训练的时候寻求包围框预测的方差小,所以这一步加权平均后不会出现框出来“四不像”的情况)
实验结果
作者使用多个网络模型在PASCAL VOC2007和MS-COCO数据库上进行了实验。
作者首先研究了加权时的阈值,Table 1中,发现0.5~0.8是较理想的区间,作者在后续实验使用了0.7。
Table 2通过分析实验表明,该文提出KL Loss和softer-NMS稳定提高了定位的精度。
作者测试了在MS-COCO数据库上的推断速度,发现Softer-NMS只是轻微增加了一点时间,可以忽略不计。
通过与FPN ResNet-50 、fast rcnn结合在 MS-COCO 上的实验,与其他NMS方法比如IoU-Net相比,取得了性能优势,达到了state-of-the-art的包围框定位精度(37.8%)。
使用Faster R-CNN在PASCAL VOC 2007数据集上结合不同的骨干网也取得了显著的性能优势。
Softer-NMS运行结果示例:
图中(a)展示通过加权平均提精了定位精度,(b)展示了对于定位来说包围框预测置信度比分类置信度更可靠。
总结
通过设计新的包围框回归损失函数KL Loss和基于此包围框置信度的加权平均NMS方法,该文发明的Softer-NMS取得了显著的性能提升,提精了目标检测定位精度。
论文地址:
https://arxiv.org/abs/1809.08545
代码地址:
https://github.com/yihui-he/softer-NMS
长按关注我爱计算机视觉
【点赞与转发】就是一种鼓励