CVPR 2019 | 目标检测之面向更高精度的包围框回归
加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
本文由CMU和旷视科技合作发表于CVPR2019,论文重点关注目标检测任务中的包围框回归问题,提出了一种区别于传统smooth L1的新的损失函数,显著提升了各类检测器的定位精度。
论文地址:
http://openaccess.thecvf.com/content_CVPR_2019/html/He_Bounding_Box_Regression_With_Uncertainty_for_Accurate_Object_Detection_CVPR_2019_paper.html
代码地址:
https://github.com/yihui-he/KL-Loss
背景介绍
在当前anchor-based类目标检测器中,目标包围框回归是一个不可或缺的组件,其目的是为了得到更紧致的更好地包围在目标周围的检测框。尽管近年来anchor-based类目标检测取得了长足进展,分类精度得到了突飞猛进的提升,大量的工作主要集中与网络架构的设计、正负样本的选取等,然而少有工作关注包围框回归的问题。
从这一问题出发,作者分析了目前检测器中通用的smooth L1损失函数的局限性,提出了一种新的包围框回归损失函数——KL loss,在网络预测阶段更有利于得到更高定位精度的检测结果。作者通过在PASCAL VOC 2007和MS-COCO上的实验验证了该损失函数的有效性。
主要内容
包围框参数化
目前检测器中常用目标中心点坐标和宽高
来表示一个包围框,网络只要预测与anchor-box的偏差
,然后和利用ground truth计算得到的真实偏差进行比对得到训练损失,如下式所示:
而本文采用上顶点下顶点坐标
来表示一个包围框,在预测目标位置的同时还要预测定位置信度。具体而言,将定位置信度简化建模为一个高斯分布,如下式所示:
其中
是需要网络进行学习的参数,高斯函数中的标准差代表预测值的不确定性,也即当其趋于0时意味着预测值置信度非常高。这一思路的具体实现为在原有检测头的类别分类和位置回归两个分支之外,再添加一个新的分支如下图所示:
同样ground truth也可以构建为一个标准差趋于0的高斯分布,如下式所示:
用于包围框回归的KL loss
根据上一节的参数表示,本文的包围框回归分支的目的是最小化式(2)和(3)中的
和
之间的KL散度,如下式所示:
则包围框回归部分的损失函数定义如下:
上式后两部分和网络预测无关,所以包围框回归部分的损失函数只和前两部分有关:
对于不太准确的位置预测,上式会驱使网络预测更大的使得损失最小。具体实现细节在此不再赘述,详情可见原文。
测试阶段的方差投票机制
对于测试阶段而言,作者希望利用网络预测的方差用于非极大值抑制(NMS)后处理阶段来提高包围框的定位精度。具体而言,对于一个分类得分较高的包围框周围的包围框而言,我们希望将那些离它最近且定位不确定性较低的包围框分配更高的权重,如下式所示:
本质上该机制主要用于nms或soft-nms中,算法流程图如下:
实验分析
实验细节:
验证实验在PASCAL VOC 2007和MS-COCO上进行,对比实验分别在CityPersons验证集和Caltech测试集上和最新方法进行了全方位对比,评估指标采用行人检测通用的Miss rate。
实验结果:
从上表中的剥离实验结果分析,以AP为标准,利用KL loss带来的性能提升有1.6个点,而在soft-nms的基础上加上方差投票机制,又可以提升1.3个点,随着对精度要求的提高,性能提升更为明显。此外值得一提的是加上方差投票机制只带来2ms的耗时,显然是一种经济有效的涨点方案。
在上表中作者分析了不同检测头对采用KL loss能带来的性能提升的影响,从上表中可以发现,无论采用什么样的检测头,采用KL loss带来的性能提升是一致的,但利用resnet-50第五阶段卷积层作为检测头可以得到最明显的性能提升,而采用两层全连接层限制了KL loss带来的性能提升。
上表给出了在MS-COCO上的实验结果,作者采用的baseline为ResNet-50-FPN Mask R-CNN,在soft-nms的加持下,本文所提出的方法可以将baseline提升1.8个点,有意思的是在AP50的评估标准下,性能指标却有所下降,而在AP90评估标准下性能提升有6.2个点,充分说明了本文所提出的方法可以获得较高的定位性能。
上表展示了在PASCAL VOC 2007上的实验结果,可见无论在采用什么基础网络架构下,本文提出的方法都能将mAP性能提升2-3个百分点。下图给出了本文方法有效性的一个可视化例子,从上下两列的对比来看,经过网络预测的位置不确定性加权,包围框能更紧致地包围在目标周围。
总结
本文另辟蹊径,重点关注目标包围框的位置不确定性问题,围绕这一问题,在训练和测试阶段分别进行了精心设计,在训练阶段提出了KL loss,测试阶段提出了方差投票机制,实验结果充分证明了提出方法的有效性。值得一提的是,发表于ICCV 2019的Gaussian YoloV3[1]与本文有异曲同工之妙,将在后续进行解读。
参考文献
[1] Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving. ICCV2019.