全方位!深度学习目标检测近年进展
常见视觉任务,图(b)为目标检测
向大家推荐一篇今天新出的论文Recent Advances in Deep Learning for Object Detection,该文调查了2012年以来的256篇深度学习目标检测的文献,用40页的篇幅由远及近、有浅入深从目标检测算法组件、学习策略、应用与基准测评三个角度展现了该领域近年进展,内容详实而全面,非常值得参考。
该文作者信息:
作者来自新加坡管理大学、Salesforce亚洲研究中心。
本文仅提纲挈领其部分内容,想要细致考察该领域的朋友欢迎在“我爱计算机视觉”公众号对话界面回复“目标检测进展”,查看论文原文。
深度学习目标检测算法的里程碑:
该图横轴以上代表著名的目标检测算法,从OverFeat到DetNas,横轴以下代表著名的网络结构,从AlexNet到EfficientNet。
下图为该文总结的目标检测所涉及的主要内容,检测组件、学习策略、应用和基准测试:
著名的二阶段目标检测算法网络结构示意图:
著名的一阶段目标检测算法网络结构示意图:
特征表示部分多尺度学习的四种形式:
分别为图像金字塔、预测金字塔、集成特征、特征金字塔。
目标检测的度量标准汇总:
著名目标检测算法在PASCAL VOC 数据集上的检测结果汇总:
著名目标检测算法在MS COCO数据集上检测结果汇总:
未来展望
作者在近年趋势基础上对未来目标检测的发展方向进行了展望:
1)Scalable Proposal Generation Strategy 可扩展的候选区域生成策略
尤其是anchor-free相关的算法是最近的热点。
2)Effective Encoding of Contextual Information 上下文信息的有效编码
上下文信息对于理解视觉世界是非常重要的,但目前这方面的文献还比较匮乏。
3)Detection based on Auto Machine Learning(AutoML) 基于AutoML的检测算法
这虽是非常耗GPU的一个方向,但新出的工作不少,也取得了很不错的效果。
4)Emerging Benchmarks for Object Detection 新的目标检测基准测试数据集
MS COCO虽然被广泛应用,但其仅有80类。而新出的LVIS数据集含有1000+个类别,164000幅图像,总计220万高质量实例分割Mask,各类别目标数量差异也很大。
A. Gupta, P. Dollar, R. Girshick, Lvis: A dataset for large vocabulary instance segmentation, in: CVPR, 2019.
5)Low-shot Object Detection 少样本目标检测
业界已经提出了一些算法,但还有很大改进空间。
6)Backbone Architecture for Detection Task 适用于目标检测的骨干网结构
大部分SOTA检测算法使用分类的骨干网,仅有少量算法使用检测专用骨干网。
7)Other Research Issues 其他研究话题
比如大批量学习、增量学习等。
论文地址:
https://arxiv.org/abs/1908.03673v1