ICCV 2019 | 南开提出边缘引导的显著目标检测算法EGNet,刷新主流数据集所有评价指标


人类的视觉感知中,可以非常容易的聚焦于场景的显著性目标,在计算机视觉的很多问题中,也需要类似的机制,可以让计算机更好地理解场景。尤其是人类目的明确的应用场景。

比如,52CV曾经跟大家分享过淘宝的拍照购物算法 KDD2018 阿里巴巴论文揭示自家大规模视觉搜索算法,用户上传的照片往往是背景复杂的,算法其实很需要聚焦于用户在拍照时到底感兴趣的哪个目标(这时候往往就是场景里最显著的目标),然后再去数据库检索相同和相似的商品。

在阿里巴巴的视觉搜索算法中并没有显式地进行显著目标检测,那是因为阿里海量的数据训练已经使网络内部学习到了这种感知目标显著性或者用户意图的能力。

显著性目标检测无疑是重要的,可以让计算机更好的进行场景感知。

今天跟大家分享一篇来自南开大学程明明老师组的显著目标检测的论文EGNet: Edge Guidance Network for Salient Object Detection,该文已中ICCV 2019。

下图为该文提出的EGNet检测出的显著目标的例子:

可见在目标与背景颜色相近,甚至场景中存在目标倒影的较难的场景中,该文提出的算法仍然取得了非常好的检测结果。

以下是作者信息:

程明明老师组在显著性检测领域成果颇丰,而且乐于开源代码,同样本文的代码也已经开源。👍

主要原理

从论文的题目EGNet: Edge Guidance Network for Salient Object Detection,我们可以知道,该文最大的创新在于使用边缘信息引导网络进行显著目标检测。

这是容易理解的,显著性目标与背景间往往有清晰的边缘。

从显著目标数据集标注的掩膜中提取边缘是不难的,那如何利用边缘信息呢?

下面这幅图展示了作者算法设计原理:

在CNN深度网络中,较低层的网络表示图像的低层次特征,较高层网络表示图像的语义特征。

作者即利用主流的分类网络结构中(VGG,ResNet),在低层CNN网络(图中使用的Conv2-2层)使用边缘监督信息,训练网络提取物体边缘的能力(上图中NLSEM部分);

在高层CNN网络(图中使用的Conv3-3、Conv4-3、Conv5-3、Conv6-3层)使用显著目标监督信息,进行渐进地显著目标检测(上图中PSFSEM部分),然后将这两大部分特征融合(图中O2OGM部分),进行显著性目标检测。

总结起来就是:显式地训练网络进行边缘提取,然后将能够很好的进行边缘提取的网络的特征融合进显著目标检测部分。

其实一个好的显著性目标检测网络也要能够很好的进行边缘提取,而作者显式地用监督信息让网络学习,可以使网络在训练中更直接向这个目标调整。

实验结果

作者提出的边缘引导的EGNet,大大提高了显著性目标检测的效果。

作者使用的三个评价指标不再赘述,感兴趣的朋友可以查看原论文。

在主流的显著目标检测数据集上,与state-of-the-art算法相比,EGNet取得了无可争议的第一。

如下表:

作者使用了VGG、ResNet两种网络结构实验,尤以ResNet的结果更好,在大多数情况下都是大幅领先第二名。

检测结果可视化(请点击查看大图):

在第3、4、5行中,即使看起来很难的情况,EGNet依然取得了不错的检测效果。

论文地址:

https://arxiv.org/pdf/1908.08297v1.pdf

代码地址:

http://mmcheng.net/egnet/


目标检测交流群

(0)

相关推荐