DeepQAMV:用于多视频摘要的查询感知层次指针网络

重磅干货,第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

最近网络视频分享平台的增长增加了对能够有效浏览、检索和总结视频内容的系统的需求。基于查询感知的多视频摘要是一种很有前途的技术。在本研究中,作者引入了一种新的用于多视频摘要的查询感知层次指针网络,称为DeepQAMVS,它联合优化了多个标准:(1)简洁性,(2)重要查询相关事件的代表性和(3)时间稳定性。作者设计了一个分层的注意力模型,它分解了三个分布,每个分布从不同的模态收集证据,然后是一个指针网络,它选择包含在摘要中的帧。DeepQAMVS采用强化学习的方法进行训练,并结合了捕获代表性、多样性、查询适应性和时间一致性的奖励。作者在MVS1K数据集上实现了最先进的结果,推理时间随输入视频帧数线性缩放。

论文创新点

这项工作的主要贡献总结如下:

(1)作者设计了一个新颖的端到端查询感知多视频摘要(DeepQAMVS)框架,该框架联合优化了这个具有挑战性任务的多个关键标准:(i)简洁性,(ii)时间稳定性和(iii)所有查询相关事件的代表性。

(2)作者采用指针网络,消除了重新安排选择的帧以形成按时间顺序连贯的摘要的负担,并设计了分层注意机制,建模了视频和查询之间的跨模态语义依赖,实现了最先进的性能。

(3)作者采用强化学习来避免对有限的地面真实数据的过度拟合。作者引入了两个新的奖励,捕获查询适应性和时间相干性。作者对具有挑战性的MVS1K数据集进行了广泛的实验。定量和定性分析表明,作者的模型达到了最先进的结果,并生成视觉上一致的总结。

框架结构

深度查询感知多视频摘要(DeepQAMVS)模型概述。

网络概述

DeepQAMVS分层注意的说明

注意运算符

实验结果

通过K-Means[10],DSC [3], MSR [3], QUASC [22], MVSHDS[24]和DeepQAMVS分别得到事件1(威廉王子婚礼)的定性结果。红色框表示不重要的关键帧,黄色框表示多余的关键帧。不重要和冗余的框架的数量报告在每个摘要之上。

查询id (x-axis)的时间一致性用户研究。

运行时间分析(秒)。按输入帧总数排序的查询id (x-axis)。

结论

在这项工作中,作者提出了DeepQAMVS,第一个端到端可训练的模型用于查询感知的多视频摘要。DeepQAMVS利用一个具有分层关注的指针网络来融合来自视频帧、网络图像和文本元数据的信息。此外,作者还引入了两种新的奖励方法来捕获查询适应性和时间相干性。与广泛的SVS和MVS基线集的定量比较和彻底的定性分析表明,作者的模型可以从检索到的视频集合中生成时间一致、查询自适应、多样化和具有代表性的摘要,在MVS1K数据集上获得最先进的结果。QAMVS需要更多的社区关注和研究努力来解决所讨论的限制,从而提供一种高效和健壮的技术来利用成倍增长的在线视频内容。

论文链接:https://arxiv.org/pdf/2105.06441.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

(0)

相关推荐