华科PAMI黑科技,方向任意目标检测新算法
在目标检测中,常用的目标包围框是水平矩形包围框,这对于一些目标方向不定的场景,并不能很好的进行检测。
典型的场景比如遥感图像中的目标检测,船只、飞机、大型建筑物等目标的方向不保证总是平行于图像 x 轴。在场景文本检测、鱼眼图像行人检测、无人机航拍目标检测中也都存在这种问题。允许倾斜的带方向的包围框能更好的描述目标区域。
华科等单位研究学者发表于计算机视觉顶级期刊PAMI的文章 Gliding vertex on the horizontal bounding box for multi-oriented object detection,试图改进目标的包围框表示来解决这个问题,方法简单有效,易于扩展,在通用的目标检测算法上修改得来,几乎不增加计算负担,取得了较好的效果。
该文作者信息:
作者来自华中科技大学、武汉大学、上海交通大学。
该文称业界已经有一些多方向目标检测的文章,比如 EAST: An efficient and accurate scene text detector ,通过对经典目标检测方法得到的包围框进行旋转,更好的表示带方向的目标,但这种方法对于旋转角度计算误差异常敏感,没有很好的解决这一问题。
算法原理
该文如何解决这一问题呢?正如题目中所透露的,作者在通用的水平包围框(x,y,w,h)上设计了滑动的顶点的目标表示方法,通过检测时一次性回归得到这些参数,获得计算新包围框的必要元素。
看懂了下面这两幅图,就可完全理解该算法的要义。
该文算法整体过程:
图1 整体流程
目标包围框的滑动顶点表示方法:
图2
图像经过CNN检测网络,对于每一个候选目标,得到三部分计算结果:
1)分类分数,代表是不是某类目标;
2)回归得到的包围框表示(细节在图2),除了中心点(x,y)、宽高(w,h),还有表示四个滑动顶点的长度比例参数(a1,a2,a3,a4);
3)回归得到的倾斜因子(r,obliquity factor),表示目标方向偏离水平方向的大小,倾斜因子越大代表越水平。
根据倾斜因子大小,若其大于某个阈值,则将其看作为水平目标检测,反之,则使用包围框参数计算新的包围框。
如何计算新的包围框呢?从图 2 显而易见可知,(a1,a2,a3,a4)这四个长度比例参数代表着目标新包围框顶点位置。
所以回过头来,该文实际上是增加了目标的包围框表示参数,在任意目标检测算法框架下回归这些参数,都可完成方向任意的目标检测。
文中,作者使用的是Faster RCNN算法,改动示意图如下:
因为增加了预测目标,相应的多任务损失函数也需要做改变:
实验结果
作者在含有方向任意目标的遥感图像数据集DOTA、HRSC2016,文本数据集MARA-TD500、RCTW-17,鱼眼镜头行人数据集MW-18Mar上进行了实验,并与之前的state-of-the-art方法进行了比较。
DOTA数据集上的结果比较:
该文提出的方法几乎都是精度第一高或第二高。
HRSC2016上也超越了其他算法:
在多方向文本检测领域也表现的很好:
在鱼眼行人检测数据集上也大幅超越了baseline和之前的方法;
下图为在遥感图像的检测结果示例:
遥感和文本图像上的结果:
与之前方法在遥感图像上结果的比较可视化:
鱼眼行人检测比较可视化:
可见,该文提出的方法在多个方向任意目标检测问题中均取得了进步,无论是数值比较还是可视化效果。
另外,作者已经开源了代码,欢迎大家参考!
论文地址:
https://arxiv.org/abs/1911.09358