VidTr:没有卷积的视频转换器

重磅干货,第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

作者引入了视频转换器(VidTr),并将其用于视频分类。与常用的三维网络相比,VidTr能够通过叠加的注意力聚合时空信息,具有更好的性能和更高的效率。作者首先介绍香草视频变压器,并表明变压器模块能够执行从原始像素的时空建模,但需要大量的内存使用。然后作者介绍了VidTr,它在保持相同性能的同时,将内存成本降低了3.3。为了进一步简化模型,作者提出了基于标准偏差的topK集中注意,通过删除非信息特征来减少计算量。VidTr在五个计算需求较低的常用数据集上实现了最先进的性能,显示了作者的设计的效率和有效性。最后,错误分析和可视化显示,VidTr特别擅长预测需要长期时间推理的行为。代码和预训练的重量将会公布。

论文创新点

作者的贡献是:

1 视频变压器:与基于卷积的方法相比,作者提出了高效、有效地聚集具有堆叠注意的时空信息。作者引入香草视频变压器作为概念证明,并与SOTA在视频分类方面具有相当的性能。

2 VidTr:作者介绍了VidTr及其排列,包括具有SOTA性能的VidTr,以及使用提出的基于标准差的池方法显著降低计算成本的compact-VidTr,它们适用于不同的应用场景。

3 结果和模型权重:作者提供了6个常用数据集的详细结果和分析,可作为未来研究的参考。作者的预训练模型可以用于许多下行任务。

框架结构

时空分离注意视频转换器(VidTr)。该模型以像素块为输入,通过提出的可分注意学习时空特征。绿色阴影块表示下采样模块,可以插入VidTr中获得更高的效率。τ为降采样后的时间维度。

实验结果

不同模型在精度、FLOPs和延迟方面的比较。

VidTr的时空注意可视化及与I3D的比较。

结论

在本文中,作者提出了一种新的基于堆叠注意力的视频动作识别体系结构——分离注意视频变压器。作者的实验结果表明,提出的VidTr在五个公共行为识别数据集上达到了最先进的或可比的性能。实验和误差分析表明,VidTr特别擅长对需要长期推理的动作进行建模。进一步结合VidTr和卷积的优势,更好地进行局部-全局动作建模[36,54],在大规模数据上采用自我监督训练[8]将是作者未来的工作。

论文链接:https://arxiv.org/pdf/2104.11746.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

(0)

相关推荐