屠榜目标跟踪!大连理工和MSRA提出STARK:基于Transformer的目标跟踪器 | ICCV...
AI/CV重磅干货,第一时间送达
本文系CVer粉丝投稿 | 编辑:Amusi
先来看下STARK在各大数据集上的性能
短时跟踪
TrackingNet AUC 82.0% (目前第一)!
GOT-10K AO 68.8% (只用GOT10K训练 目前第一)!
VOT2020 EAO 0.505 (目前第二)!
长时跟踪
LaSOT AUC 67.1% (目前第一)!
VOT2020-LT F-score 70.2% (目前第一)!
OxUvA MaxGM 78.2% (Leaderboard第二,有paper的工作中第一)!
Learning Spatio-Temporal Transformer for Visual Tracking
作者单位 大连理工大学,微软亚洲研究院
论文:https://arxiv.org/abs/2103.17154
代码:https://github.com/researchmm/Stark
STARK
本文提出一种名为STARK的全新跟踪框架,该框架具体如下特点
(1)通过Transformer学习鲁棒的时空联合表示。STARK的输入包括:第一帧模板,当前帧搜索区域,以及一个随时间变化的动态模板。其中第一帧模板和当前帧搜索区域提供了待跟踪目标的外观与位置信息(空间信息),动态模板则涵盖了目标在跟踪过程中的动态变化(时序信息)。STARK将“时空”看作一个整体,将以上三张图像的骨干网络特征沿空间维度展开后拼接,得到一个同时包含空间与时序信息的特征序列作为Transformer编码器的输入,以学习一种强大的时空联合表示。
(2)将目标跟踪建模成一个直接的边界框预测问题。通过预测左上与右下角点热力图的方式,每帧直接得到一个最优的边界框,彻底摆脱了之前复杂且对超参敏感的后处理。
(3)STARK在多个短时跟踪与长时跟踪数据集上取得了当前最先进的结果,并且在GPU端可以实时运行(30/40 FPS on Tesla V100)。
实验结果
本文在多个短时跟踪与长时跟踪数据集上评估了STARK算法的性能,结果表明STARK在短时和长时跟踪数据集上均取得了最先进的性能(第一或第二)
短时跟踪
GOT-10K
遵循GOT-10K官方的要求,在GOT-10K测试集上测试时,我们只用GOT10K的训练集训练,STARK取得了68.8%的AO,排名第一
TrackingNet
STARK在TrackingNet上取得了82.0%的AUC,排名第一
VOT2020
VOT2020采用mask作为真值,参赛者可以选择汇报box或者mask。当只汇报box时,STARK以0.308的EAO超越了之前的SOTA SuperDiMP(0.305);当搭配上AlphaRefine方法(首先用STARK预测边界框,再用AlphaRefine预测mask),STARK超越了AlphaRef, OceanPlus等最先进的方法, EAO达到了0.505,排名第二 (仅次于VOT20的冠军RPT)
长时跟踪
LaSOT
STARK在LaSOT上取得了67.1%的AUC, 排名第一
VOT2020-LT
STARK在VOT2020-LT上取得了70.2%的F-score,超越了当年的冠军LT_DSE,排名第一
OxUvA
STARK在OxUvA上取得了78.2%的MaxGM,超越了之前最先进的方法LTMU和Siam R-CNN等,目前在OxUvA的排行榜上排名第二,在有论文的方法中排名第一,
完整的训练和测试代码,训练好的模型和训练过程中的log,以及原始跟踪结果发布到以下repo, 欢迎大家Watch, Star, Fork三连!!!
https://github.com/researchmm/Stark
论文PDF和代码下载