【泡泡图灵智库】概率回归的视觉追踪 / 四六文摘

泡泡图灵智库，带你精读机器人顶级会议文章

标题：Probabilistic Regression for Visual Tracking

作者：Martin Danelljan ， Luc Van Gool ，Radu Timofte

机构：Computer Vision Lab, D-ITET, ETH Zurich, Switzerland

来源：IROS 2020

编译：董尔群

审核：韩腾飞

这是泡泡图灵智库推送的第篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

视觉跟踪问题本质上是对每个视频帧中的目标进行回归的问题。尽管该领域已经取得了重大进展，但跟踪器仍然会出现于失败和不准确的情况。因此，表示出目标位置估计中的不确定性很关键。虽然目前流行的方法依赖于估计状态的置信度，但是这一数值往往缺乏明确的概率解释，使它的使用复杂化。因此，在这项工作中，我们提出了概率回归公式，并将其应用于跟踪。我们的网络会根据输入图像预测目标状态的条件概率密度。重要的是，我们的方法能够对由于不正确的标注和歧义而产生的标签噪声进行建模。我们通过最小化KL散度来训练回归网络。当应用于跟踪时，我们的方法不仅允许对输出结果进行概率上的表示，也大大提高了性能。我们的跟踪器在六个数据集上实现了state-of-the-art，在LaSOT上实现了59.8％的AUC，在TrackingNet上实现了75.8％的成功率。

背景与贡献

近年来，视觉跟踪领域的大多数工作品都通过建立目标模型，以便将目标与图像中的背景区分开。但是，这种方法带来了挑战，即目标模型必须在在线推理阶段构建，因此很难离线学习端到端系统。Siamese框架[1]已为解决这一难题而倍受关注。该系统通过查找在特征方面与目标区域最相似的图像区域来学习一个特征embedding。该框架允许端到端学习使用带注释的图像的跟踪系统。然而该框架也有局限性。它仅利用目标外观，而忽略背景外观信息；学习的相似性度量不一定适用于离线训练集中未包括的对象；它没有提供在线更新目标的模型的方案。

本文作者在ICCV2019上的工作DiMP[3]是基于置信度的方法。如图1所示。

图1 左：需要追踪的目标；中：Siamese输出的置信度；右：DiMP输出的置信度

DiMP体系结构由两个分支组成：目标中心回归分支和边界框回归分支。目标中心回归分支如图2所示。

图2 目标中心回归

边界框回归使用的是ATOM[2]中同样的网络。如图3所示。

图3 边界框回归

这个想法是首先通过“目标中心回归”分支计算目标的粗略位置，然后输出精确的边界框回归。在DiMP中，通过学习置信函数来完成回归任务然后，通过最大化预测置信度来估算数据上的目标状态。他们通过最小化预测的置信度和伪标签(用作ground-truth)：

由于图像上的伪标签可以捕获图像中目标和背景的信息，并且作者设计了一种在线目标外观模型更新机制，因此DiMP直接克服了基于Siamese的工作的局限性，并且在精度方面表现更好。另外，输出置信度得分可以在一定程度上解释预测的不确定性。

然而，尽管DiMP已经在跟踪准确性和鲁棒性方面取得了进展，但是基于置信度的方法仍然缺乏可解释性，因为置信度值的范围和预测置信度的特征取决于loss function的选择和相应伪标签的策略。缺乏可解释性会导致决策方面的困难，例如确定目标是否丢失，目标外观模板是否需要更新等等。在本文中，作者提出了一种新的基于概率的方法，以改进基于置信度的DiMP。本文的工作名为PrDiMP，与DiMP使用相同的网络结构。网络输出是图像中每个位置作为目标中心的条件概率分布，并通过最小化和 ground-truth 概率分布来训练网络，其中是真实目标中心。在具有更好的可解释性的同时，PrDiMP在多个数据集上实现了最新的state-of-the-art性能。

算法流程

概述

本文中，作者使用条件概率作为输入来替换DiMP中的置信度值。与置信度得分值不同，条件密度有清晰的含义。此外，作者并不假设属于特定的分布族，例如高斯分布，而是让深度神经网络从数据中学习的参数化。这一参数化是基于SoftMax推广到连续情况的，是一种基于能量的模型(Energy-based Model)，最早由[4]提出。

另外，他们使用ground-truth分布替换伪标签。作为高斯概率密度函数，更适合用于之后的推理阶段。

然后，将基于置信度模型中的设计损失函数替换为预测条件分布之间和ground-truth分布之间的KL散度。。

PrDiMP输出的条件概率密度如图4所示。

图4 条件概率密度

密度表示和损失函数

在PrDiMP中，作者使用条件密度的概率能量表示法

其中。是通过卷积神经网络获得的置信度分数，与基于置信度的模型DiMP中是同样的计算方法。该式本质上是通过取幂并除以归一化常数来将置信度得分转换为概率密度。

为了学习数据集上的概率分布，最直接的方法是优化最大似然函数，这等效于最小化负对数似然

这个loss function的优点之一是它仅使用训练数据，而无需其他假设。但是为了更好地刻画标签的不确定性和标签的噪声，作者建议最小化所需输出条件密度与ground-truth分布p之间的KL散度。

其中是ground-truth分布的熵，它是一个常数，在训练过程中可以忽略。由于这里，因此作者仅将视为需要调节的超参数。

网络训练方法

在训练中，上述KL散度中的两个积分需要用到近似，作者针对推理的两个阶段提出了两种方法：网格采样和蒙特卡洛积分，分别用于目标中心预测和边界框预测。由于这两个操作对于阐述本文思想没有太多贡献，这里不再赘述。

目标中心回归(TCR)

PrDiMP的目标中心回归分支的网络结构与DiMP相同。作者使用基于能量的概率处理网络输出。学习过程可以很容易地收敛到全局最优，因为Grid Sampling版本的KL散度关于中的是凸函数。最终损失函数公式如下

其中是通过的backbone特征提取器提取的图像特征，是在图像坐标处图像编号的概率密度。非负标量和分别控制正则项和样本的影响。每个样本的loss function是原始KL散度目标的grid sampling的近似值。％不失一般性，我们将图像和特征图表示为向量形式，从而

根据上面两式，我们可以计算损失函数关于的Jacobian矩阵和Hessian矩阵。

边界框回归(BBR)

PrDiMP中的边界框回归采用了与[2]中相同的体系结构，但适用于概率公式。作者用在条件密度和标签分布。因此，PrDiMP可以对边界框标注中的噪声和不确定性进行建模，并使用蒙特卡洛采样使KL散度最小化。

主要结果

本文在多个数据集上达到了state-of-the-art的效果。这里展示LaSOT，TrackingNet，VOT2018，GOT10k上的测试结果。

图5 TrackingNet的效果

图6 VOT2018的效果

图7 GOT10k的效果

图7 lasot的效果

参考文献

[1] Luca Bertinetto, Jack Valmadre, Joao F Henriques, Andrea Vedaldi, and Philip HS Torr. Fully-convolutional siamese networks for object tracking. In European conference on computer vision, pages 850–865. Springer, 2016.

[2] Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, andMichael Felsberg. Atom: Accurate tracking by overlapmaximization. In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, pages 4660–4669,2019

[3] Goutam Bhat, Martin Danelljan, Luc Van Gool, and RaduTimofte. Learning discriminative model prediction for tracking. In Proceedings of the IEEE International Conference onComputer Vision, pages 6182–6191, 2019

[4] Yann LeCun, Sumit Chopra, Raia Hadsell, M Ranzato, and FHuang. A tutorial on energy-based learning. 2006.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

【泡泡图灵智库】概率回归的视觉追踪

摘要