全方位!深度学习目标检测近年进展


常见视觉任务,图(b)为目标检测

向大家推荐一篇今天新出的论文Recent Advances in Deep Learning for Object Detection,该文调查了2012年以来的256篇深度学习目标检测的文献,用40页的篇幅由远及近、有浅入深从目标检测算法组件、学习策略、应用与基准测评三个角度展现了该领域近年进展,内容详实而全面,非常值得参考。

该文作者信息:

作者来自新加坡管理大学、Salesforce亚洲研究中心。

本文仅提纲挈领其部分内容,想要细致考察该领域的朋友欢迎在“我爱计算机视觉”公众号对话界面回复“目标检测进展”,查看论文原文。

深度学习目标检测算法的里程碑:

该图横轴以上代表著名的目标检测算法,从OverFeat到DetNas,横轴以下代表著名的网络结构,从AlexNet到EfficientNet。

下图为该文总结的目标检测所涉及的主要内容,检测组件、学习策略、应用和基准测试:

著名的二阶段目标检测算法网络结构示意图:

著名的一阶段目标检测算法网络结构示意图:

特征表示部分多尺度学习的四种形式:

分别为图像金字塔、预测金字塔、集成特征、特征金字塔。

目标检测的度量标准汇总:

著名目标检测算法在PASCAL VOC 数据集上的检测结果汇总:

著名目标检测算法在MS COCO数据集上检测结果汇总:

未来展望

作者在近年趋势基础上对未来目标检测的发展方向进行了展望:

1)Scalable Proposal Generation Strategy 可扩展的候选区域生成策略

尤其是anchor-free相关的算法是最近的热点。

2)Effective Encoding of Contextual Information 上下文信息的有效编码

上下文信息对于理解视觉世界是非常重要的,但目前这方面的文献还比较匮乏。

3)Detection based on Auto Machine Learning(AutoML) 基于AutoML的检测算法

这虽是非常耗GPU的一个方向,但新出的工作不少,也取得了很不错的效果。

4)Emerging Benchmarks for Object Detection 新的目标检测基准测试数据集

MS COCO虽然被广泛应用,但其仅有80类。而新出的LVIS数据集含有1000+个类别,164000幅图像,总计220万高质量实例分割Mask,各类别目标数量差异也很大。

A. Gupta, P. Dollar, R. Girshick, Lvis: A dataset for large vocabulary instance segmentation, in: CVPR, 2019.

5)Low-shot Object Detection 少样本目标检测

业界已经提出了一些算法,但还有很大改进空间。

6)Backbone Architecture for Detection Task 适用于目标检测的骨干网结构

大部分SOTA检测算法使用分类的骨干网,仅有少量算法使用检测专用骨干网。

7)Other Research Issues 其他研究话题

比如大批量学习、增量学习等。

论文地址:

https://arxiv.org/abs/1908.03673v1

(0)

相关推荐