V2F-Net:遮挡行人检测的显式分解
重磅干货,第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
在行人检测中,遮挡是一个非常具有挑战性的问题。在本文中,作者提出了一种简单而有效的方法,即V2F-Net,它明确地将遮挡行人检测分解为可见区域检测和全身估计。V2F-Net由两个子网络组成:可见区域检测网络(VDN)和全身估计网络(FEN)。VDN尝试对可见区域进行定位,FEN根据可见盒子估算全身盒子。此外,为了进一步提高对整个身体的估计,作者提出了一种新的基于嵌入的部件感知模块(EPM)。通过监控零件的可见性,该网络被鼓励提取具有重要零件信息的特征。通过对两个具有挑战性的数据集进行实验,作者验证了V2F-Net的有效性。相较于FPN基线,V2F-Net在CrowdHuman上获得5.85%的AP增益,在CityPersons上获得2.24%的MR 2改进。此外,一级和两级探测器上的一致增益验证了该方法的可推广性。
作者的贡献如下:
作者提出了一个简单而有效的管道来处理遮挡行人检测显式分解。可以作为遮挡行人检测的较强基线。
作者提出了一种新的基于嵌入的部件感知模块(EPM),以进一步提高全身估计的精度。在推理过程中可以丢弃该模块,不会带来额外的计算开销。
作者的方法在CrowdHuman上提高了FPN基线5.85%的AP,在CityPersons上提高了2.24%的MR 2,在这两个具有挑战性的基准上都取得了最先进的结果。此外,一级和两级探测器上的一致增益也证明了该方法的可推广性。
框架结构
V2F-Net框架
首先对输入图像进行可见区域检测网络(Visible region Detection Network, VDN)处理,检测出所有行人的可见区域。经过NMS(仅在推理过程中需要),这些保存的盒子被输入全身估计网络(FEN),以估计每个行人的全身盒子。在训练过程中,可视框也会被传递给基于嵌入式的部件感知模块(EPM),以预测相应行人的每个部分的可见性。EPM通过监督零件的可见性,作为一个辅助模块,使整个车身的估计更加准确。圆圈点是点积运算。虚线和矩形表示可以在推理期间丢弃它们。在输出图像中,绿色的方框和数字分别代表EPM划分的部分和预测的分数。
实验结果
EPM对每个部分的预测分数进行可视化
根据检测到的行人全身盒,从原始图像中裁剪出样例图像。绿色和红色的矩形代表检测到的可见框,分为[40]的五个部分。每个部件的预测分数表明其可见度。最好是彩色的。
V2F-Net的插图
(a) fast - rcnn[27]与FPN[16]基线结果。(b)作者方法的结果。实方框表示检测到的方框,虚线方框表示网管的假抑制。属于同一个行人的盒子用相同的颜色绘制。图1 (b)中的箭头表示从可见区域估计全身。直接检测全身行人容易导致不准确的回归;同时,使用满箱执行NMS负责虚假抑制。该方法对行人的可见箱和全身箱进行顺序预测,并在网管中对可见箱进行欠条计算,而不是对满箱进行欠条计算。因此,两个满箱都是精确的,可以保持他们之间的欠条是高的。最好是彩色的。
可视化检测结果
第一行来自FPN基线,第二行是作者的结果。所有检测到的框都按0.3分进行过滤。实线和虚线的方框分别表示被NMS保留的方框和假抑制的方框。
结论
作者提出了一种简单有效的方法来处理行人检测中的遮挡:V2F-Net。通过将被遮挡行人检测分解为可见区域检测和全身估计,网络学习变得更容易,收敛到更好的最小值。为了进一步提高全身估计的精度,作者提出了一个新的模块,称为EPM,在推理过程中是免费的。实验证明了该方法的有效性,并验证了该方法在单级和两级探测器上的可推广性。作者将V2F-Net作为一个新的行人检测基线。作者相信,如果与其他出色的想法结合起来,这条管道的发展将带来比作者更好的性能。
论文链接:https://arxiv.org/pdf/2104.03106.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。