ICCV2021 |优胜劣汰,MIT团队提出自适应多模态选取框架用于视频理解
AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition
项目主页:https://rpand002.github.io/adamml.html
论文链接:https://rpand002.github.io/data/ICCV_2021_adamml.pdf
代码链接:https://github.com/IBM/AdaMML
动机
对于视频理解任务而言,多种模态的输入数据往往会携带大量的冗余信息,除了普通的RGB帧数据,视频多模态分析还会用到音频、光流和深度图等模态的数据,但是对于某些时刻,其他模态的数据不论是数据获取还是前向传播都会有更高的计算性能要求,这对于一些即时的多模态应用是不合理的。
基于此,本文设计了一种自适应的多模态学习框架对一段视频的不同片段选取最为合适的模态数据作为输入,在保证识别精度的同时,获得了较为明显的计算量节省效果。
对于上图中所展示的“修建草坪”视频,只有第三个和第六个片段出现了对应除草机的音频数据,显而易见,我们只需要这两个片段的RGB和音频数据就可以识别出整个视频的行为。
这样一来就可以有效的提升模型的计算性能,需要注意的一点是,本文方法与其他多模态学习“一刀切”的学习模式不同,本文对每个视频的每个独立片段都进行决策,进而导致不同的视频计算量也不同,真正做到了自适应选取。
本文方法
如上图所示,本文的整体框架包含了一个轻量的策略级网络Policy Network和一个识别网络Recognition Network,其中策略网络的作用是对视频序列的每个模态片段计算二进制策略向量,用来判断是否保留当前模态的数据进行后续的识别。
识别网络由多个子网络构成,分别对上一步选取得到的多模态数据进行特征提取和后融合得到识别结果。整体网络联合训练,在测试阶段,首先将输入多模态视频片段送入策略网络,其输出决定用于给定片段的正确模态,然后将选择的输入模态路由到识别网络中的相应的子网络以生成片段级预测。
最后,网络将所有片段级预测平均作为视频级预测。与普通的视频理解模型相比,轻量级策略网络(本文使用的是MobileNetV2)产生的额外计算成本可以忽略不计。
策略网络首先通过一个 LSTM 模块,对视频中不同时间步的因果关系进行建模,得到某一时间步的隐藏状态和门状态:
对于网络不可微的情况,一般方法是将优化转换为强化学习问题,然后使用策略梯度方法推导出策略网络的最佳参数。然而,RL策略梯度通常很复杂,难以训练。因此在本文中,作者采用Gumbel-Softmax采样来解决这种不可微性问题,并以有效的方式直接优化离散策略。
Gumbel-Softmax的核心操作是寻找较为合适的Gumbel-Softmax分布中的可微样本来替换原始离散空间分布的不可微样本。具体地,在时间步t时,我们首先计算得到策略网络对模态k输出分数
,然后对于每种模态,使用Gumbel-Max方法[2]从分类分布中提取离散样本,如下所示:
其中
是一个标准的Gumbel分布,其通过均匀分布
采样得到,这样的过程等价于根据策略分数
对k个模态进行选取,由于目前模型的随机性已经转移到均匀分布
上,并且均匀分布不带有其他未知参数,所以可以将Gumbel-Max方法看作是对离散分布的一个重参数过程。
由于上式中存在argmax不可导操作,为此,需要做进一步的逼近,我们将
表示为one-hot编码,然后使用softmax函数将one-hot编码近似光滑为实值向量
:
的离散程度,它越小表明输出结果就越接近one hot形式。简单总结,本文在网络多模态数据前向传播过程中,使用Gumbel-Softmax对策略网络输出的分数进行采样,而在反向传播时,通过计算光滑近似softmax函数的梯度来逼近离散样本的梯度。
作者对提出的策略网络和识别网络进行联合训练,网络的所有参数表示如下:
分别表示策略网络中的特征提取器和LSTM模块,以及对应多个模态的策略分数全连接层和识别子网络的全连接层。整体的损失函数如下:
代表模型对第k个模态的决策策略,
测量从总数为C个视频片段中选择模态k的片段的比例。当模型对每个视频片段进行模态决策时,我们用惩罚不正确的预测。基于以上设定,允许框架根据目标约束来更换不同的识别模型。
实验效果
本文在四个具有代表性的视频数据集上进行了实验,分别是Kinetics-Sounds,ActivityNet-v1.3,FCVID和Mini-Sports1M。
作者主要进行了三种形式多模态任务设定,分别是(I) RGB + Audio、(II) RGB + Flow 和 (III) RGB + Flow + Audio。
模型评价指标使用视频级的mAP和top-1的识别准确率。像其他大多数同类方法一样,采用了10-crops的视频均匀采样策略。
作者首先将本文方法与单模态和多模态加权融合的baseline方法进行对比,对比结果如下表所示:
由于本文方法通过多模态策略选取方法丢弃了大量的冗余模态信息,所以在计算量方面有明显的优势,同时相较于多模态加权融合方法,模型的识别精度不仅没有下降,还有略微提升。
下表展示了本文方法与其他SOTA方法的对比结果,可以看到本文方法都有明显的性能提升。
总结
本文提出了一种多模态选取方法,用于自适应地决策视频中每个片段的最佳模态数据,用来进行后续的视频识别。
具体地,作者训练了一个多模态策略网络来对每个片段进行决策,目标是同时提升模型的准确性和效率,使用标准的反向传播算法对策略网络和识别网络进行联合优化。经过一系列的实验表明,本文方法在四个标准数据集上都取得了较好的效果。
参考
[2] https://kexue.fm/archives/6705
END