ECCV 2018 | 行人检测全新视角：从人体中轴线标注出发

2024-06-15 04:51:43

极市平台是专业的视觉算法开发和分发平台，加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“阅读原文”立刻申请入群~

论文地址：https://arxiv.org/abs/1807.01438

背景介绍

弱小目标是行人检测中一个非常普遍的问题，尤其是在自动驾驶或者监控场景中，当行人目标距离摄像头较远时，对现有算法而言非常具有挑战性。作为通用目标检测中的一个特定问题，现有基于CNN的行人检测方法依然来源于通过目标检测方法（如Faster R-CNN，SSD），这些方法采用铺设目标候选框的方式完成，我们称其为anchor-based方法。然而，anchor-based方法存在三个问题：一是需要根据特定数据集人工选定特定的anchor以更好地匹配行人目标，二是需要人工设定阈值来定义正负样本，三是训练过程中存在基于数据集标注的bias，尤其对于弱小目标，行人框中的目标信息本身就十分微弱，这种bias使得检测器更加难以胜任对弱小目标的检测。

为此，针对弱小目标检测，作者提出预测人体中轴线来代替预测人体标注框，在弱小目标检测上取得了十分惊艳的效果；此外，作为本文的另外一个贡献，作者提出利用Conv-LSTM来构建连续帧的运动信息，实验表明这种运动信息对弱小目标检测也有一定效果。

主要内容

行人检测的标注问题

现有行人检测数据集都是采用的矩形框标注，如下图1所示，行人检测的任务就是输出包含行人目标的矩形框。对于检测网络的训练而言，只有尽可能正确的标注才会使得网络学到更具判别力的特征，进而或者更为精确的检测结果，早在CVPR2016，Zhang等人[1]就对此问题展开深入探讨，并证明采用更精细的标注会极大提升行人检测的正确率。基于矩形框标注的anchor-based方法会带来三个问题在背景内容中已经介绍过了，而采用线型标注则会克服以上问题，这也正是本文作者的motivation，如下图所示，只标注人体中轴线，其优势在于避免了矩形框标注中的背景信息。

为了验证标注人体中轴线的优越性，作者采取了人工对照实验：两组实验人员分别采用框和中轴线对测试集中的行人目标进行标注，并采用官方评估协议进行评估，如下图2所示：1、中轴线标注所取得的结果明显优于框标注；2、这种优势在小目标上更为明显。因此，采用人体中轴线标注会给检测器的训练带来更少的bias。

基于中轴线定位的行人检测方法（TLL）

有了人体中轴线标注，如何完成行人检测任务？也即如何在有行人目标的位置预测出人体中轴线。作者将这一任务简化为3个子任务，一个网络分别输出行人目标的上顶点、下顶点和这两点之间的连接线。网络架构如下图3所示：基础网络为ResNet-50，将conv3/4/5的最后一层经过上采样后拼接起来作为多尺度特征表示，分辨率为原图的1/4，在此特征图上接3个1x1conv分别得到三个输出：上顶点置信图、下顶点置信图以及中轴线置信图。

对于训练，每一个行人目标的上下顶点构建为一个二维高斯热图

，假设共有Nk个行人目标，整张图像的顶点置信图表示为

；每一个行人目标的中轴线定义为连接两个顶点的单位向量

，则整张图像的中轴线置信图表示为

，对应网络三个输出，损失函数包含三部分，采用平方差损失：

对于测试，每一张图像输入网络会输出三个置信图（上顶点，下顶点和中轴线），首先通过非极大值抑制（具体如何做论文没有公开详细细节，笔者认为可参考CornerNet[2]）在上下顶点两个置信图上得到响应最大的top N个点，再将上下顶点进行配对，依据的是两个点在中轴线置信图上连线的值，如下式计算：

这就是一个简单的双边图匹配问题，可以通过匈牙利算法进行求解，得到的配对点连成中轴线就是一个预测的行人目标，根据数据集中固定的长宽比0.41得到行人矩形框，至此就可以用官方评估协议进行评估并和其他state-of-the-art算法进行公平对比了。

此外，作者还提出了一种基于MRF的后处理方式，重点针对的是行人自遮挡比较严重的情况，具体处理方式如下图5所示，通过这种方式对式（5）中的匹配点对的得分值进行更新得到更为准确的匹配结果（如图5中红色错误匹配对得到了修正）。

作为本文的另一个贡献，作者提出利用连续帧之间的特征融合（或者称为连续帧之间的运动信息）来进一步提高小目标检测的召回率。具体而言，在基础网络输出的特征图上接一层Conv-LSTM进行连续帧之间的特征融合，在Conv-LSTM的输出上进行三个置信图的预测，如下图6所示：

实验分析

实验细节：

验证实验在Caltech测试集上做的，训练和测试均采用的是原始标注。对比实验分别在Caltech和CityPersons验证集上和最新方法进行了全方位对比，重点验证本文算法对小目标和严重遮挡情况的检测的优越性。评估指标采用行人检测通用的Miss rate（越低越好）。

实验效果：

首先我们看下基础网络中对多尺度特征图的选择的直观解释，如下图4所示：最浅层conv2的响应对大小目标均不够强烈，浅层conv3对小目标的响应更为强烈而高层如conv4对大目标的响应更为强烈，因此本文的多尺度特征图选择从conv3开始，并融合conv3/4/5以胜任对不同尺度目标的检测。

结合下表对Caltech上的结果进行分析，其中本文方法为TLL，Far代表小目标（距离摄像头较远），可以发现本文方法TLL对小目标检测的优势非常明显，不加任何后处理的miss rate达到68.03，已经远远优于其他方法，同时可以发现加上Conv-LSTM的特征融合能进一步将miss rate降到60.79。

结合下表对CityPersons上的结果进行分析，其中heavy partial bare代表不同的遮挡程度，可以发现本文算法虽然在Reasonable子集上不占优势，但在严重遮挡情况下的miss rate要远优于其他方法，尤其是加上MRF后处理能够更好地完成自遮挡严重情况下的行人检测。

总结展望

本文贡献：

（1）深入研究了行人检测中的标注问题，并分析和验证了中轴线标注的优越性。

（2）基于中轴线标注，提出了一种基于中轴线预测的行人检测方法，实验表明对小目标检测十分有效。

（3）实验分析并验证了：融合连续帧特征信息可以进一步提升小目标检测的性能。

个人见解：

（1）本文从行人检测最低层的问题（标注）出发，为行人检测贡献了一种全新的解决方案，是极具启发性的一篇工作。

（2）本文和同发表于ECCV2018的CornerNet[2]有很多共通之处，我们可以将这两种方法称为anchor-free方法，它们抛弃了anchor-based方法需要人工设定不同大小比例anchors的束缚，取得了更为出色的检测性能。其实早在CVPR2016的YOLOv1也是anchor-free的方法，为了突出real-time的亮点，检测性能较anchor-based方法还有一定差距，为此从YOLOv2开始作者就又采用了anchor-based的思路。本文和CornerNet[2]的成功再一次打开了anchor-free的视角，前者是预测中轴线，后者是预测对角点，方式不同但本质一致。有关CornerNet[2]的技术解读已发表于极市平台，详情可见[3]。

参考文献

[1] How Far are We from Solving Pedestrian Detection? CVPR (2016)

[2] CornerNet: Detecting Objects as Paired Keypoints. ECCV (2018)

[3] ECCV 2018 | CornerNet：目标检测算法新思路

END

目标检测集 | ECCV 2020 论文大盘点(附论文&代码下载)

计算机视觉研究院 " --------计算机视觉研究院专栏-------- 作者:Edison_G 微信公众号 : 计算机视觉研究院知乎专栏:计算机视觉战队不知不觉2020年已经进入11 ...
华科PAMI黑科技，方向任意目标检测新算法

在目标检测中,常用的目标包围框是水平矩形包围框,这对于一些目标方向不定的场景,并不能很好的进行检测. 典型的场景比如遥感图像中的目标检测,船只.飞机.大型建筑物等目标的方向不保证总是平行于图像 x 轴 ...
ECCV18 Oral | CornerNet目标检测开启预测“边界框”到预测“点对”的新思路

性能超过所有one-stage类型目标检测算法,训练和测试代码均已开源. 本文来自ECCV2018 Oral论文<CornerNet: Detecting Objects as Paired K ...
深兰科技的征途，AI的赛场与战场

在顶尖学术会议中成功"刷榜",一直被看做是AI企业实力的绝对证明.尤其是在AI研究创新涌现.几大顶会迎来"论文大爆炸"的背景下,学术竞争也愈加激烈,想要&quo ...
【科研】行人检测 | Pedestrian Detection历年论文及项目总结

AI研习图书馆,发现不一样的精彩世界行人检测一.相关科研工作者 Piotr Dollár 张姗姗欧阳万里二.历年优秀论文 [CVPR-2019] High-level Semantic Fea ...
霸榜 GitHub：又一款神器面世！

不论你需要通用目标检测.实例分割.旋转框检测,还是行人检测.人脸检测.车辆检测等垂类算法: 不论是精度效果超强,还是超轻量适合在边缘部署的算法: 不论你是学术科研工作者,还是产业开发者: 不论你是刚入 ...
ECCV18 | 无监督难分样本挖掘改进目标检测

大量训练数据有助于目标检测系统性能的提升,对于已经训练好的系统而言,有研究发现,那些被系统误分类的少量"难分样本",加入训练集重新训练能得到显著的性能提升. 但如果在实际系统中人工 ...
ECCV | Pixel2Mesh：单目彩色相机重建三维模型

重磅干货,第一时间送达该paper是由普林斯顿大学3个英特尔实验室4个复旦大学数据科学学院以及5个腾讯人工智能实验室研究员合作的.来自于复旦大学计算机科学学院上海市智能信息处理重点实验室.该论文已经 ...
ECCV18 | 如何正确使用样本扩充改进目标检测性能（附Github地址）

在大多数视觉任务中,对图像进行颜色改变或是增加随机噪声等这些通用数据增广操作,都会改进模型预测能力,但如果能利用特定任务的先验知识则往往会获得更大的性能改进.比如在目标检测的任务中,将目标的图像随机复 ...
ECCV 2018 | Bi-box行人检测：‘行人遮挡’为几何？

极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖 ...
ECCV 2018 | OR-CNN行人检测：为‘遮挡’而生

极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖 ...
ECCV 2018 | ALFNet：向高效行人检测迈进（附代码）

极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖 ...
ECCV 2018 | CornerNet：目标检测算法新思路

极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖 ...
CVPR 2018 | Repulsion loss：专注于遮挡情况下的行人检测

极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖 ...
基于分割的包围盒生成用于全方位行人检测

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
V2F-Net：遮挡行人检测的显式分解

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
科幻研究新星专访（4）| 陶明玉：科幻能带来超越日常世界的全新视角

首届"科幻研究新星论坛"于2021年4月18日圆满落幕,本次论坛共选拔出来自清华大学.北京大学.浙江大学.复旦大学.伦敦大学学院.马来西亚理工大学等海内外的30位高校学子及青年学者 ...
四周时间大赚60万，这七根均线全新视角刷...

四周时间大赚60万,这七根均线全新视角刷新你的三观! 如果说什么对散户帮助最大,那么就是七根均线!今天我把所有的均线用法分享给大家.阿鲸我就是用这个方法吃了一波大菜,一个月赚了60万.相信会让你用全新 ...