NeurIPS2021 MBT：多模态数据怎么融合？谷歌提出基于注意力瓶颈的方法，简单高效还省计算量

2024-06-18 02:15:40

详细信息如下：

论文链接：https://arxiv.org/abs/2107.00135
项目链接：未开源

导言：

人类通过同时处理和融合多种模态(如视觉和音频)的高维输入来感知世界。然而，机器感知模型通常是特定于模态的，并基于单模态数据进行优化，因此对每个模态预测的后期进行融合（“后期融合”）仍然是多模态视频分类的主要范式。在本文中，作者引入了一种基于Transformer的结构，该结构使用“融合瓶颈”结构进行多个模态的信息融合。

Motivation

能够同时进行多模态感知是人类学习的关键能力。然而，由于许多因素，设计用于模态融合的统一模型是具有挑战性的，因为模态之间的学习是动态变化的；某些模态比其他模态包含更多关于任务的信息；不同模态有专门的输入表示。由于模态输入的差异，多模态融合的主导范式通常通过集成独立的视觉和听觉网络来融合信息，即，后期融合。

在这项工作中，作者提出了一种基于Transformer的视频视听融合模型。尽管最初被用于NLP任务，但最近Transformer逐渐成为了通用的感知模型，这是因为Transformer能够对token之间的密集相关性进行建模，同时对其输入进行很少的假设。

通过将密集的连续信号分成多个patch并将它们转换为一维的序列，Transformer已被证明在图像 (ViT ) 和视频分类 (ViViT ) 以及音频分类 (AST) 等领域具有不错的性能。由于这些模型能够处理可变长度的序列，因此常规的扩展是不需要改变Transformer的结构，可以直接将多模态patch的序列送到Transformer中。这种“早期融合”模型允许注意力在图像中的不同时空域之间自由建模，以及在音频频谱图中的频率和时间之间自由建模。

虽然理论上很有吸引力，但作者认为在模型的所有层完全成对的注意是不必要的，因为音频和视觉输入包含密集的、细粒度的信息，其中大部分是多余的。由于注意力机制具有和token序列长度长度相关的二次复杂度，这种模型也无法很好地扩展到较长的视频。为了缓解这种情况，作者在模型中提出了两种方法来限制注意力的流动。

第一种方法是多模态学习中的一种常见方法，即将跨模态流动限制在网络的后一层 ，前面的层采用单模态学习，这种方法被成为“中期融合”，如上图中的Mid Fusion所示。

第二种方法，也是本文的主要贡献点，是限制层内token之间的跨模态注意。模型必须在与其他模态共享之前，对每个模态的信息进行整理和“浓缩”。核心思想是引入一小部分 “注意力瓶颈” 的潜在融合单元（如上图中的Bottleneck Fusion），层中的跨模态相互作用必须通过这些单元执行。作者证明了这种 “瓶颈” 结构优于其不受限制的版本，且计算成本较低。

方法

在本文中，作者提出了一个Multimodal Bottleneck Transformer (MBT)结构来融合多模态数据。

2.1 The ViT and AST architectures

ViT和AST采用了Transformer结构，能够处理序列特征。首先从RGB图像 (或音频频谱图) 中提取N个不重叠的patch ，然后将他们转换成一维的token ，如下所示：

这里，是一个线性投影，将每个token映射到；是一个特殊的token，作为分类任务的特征；是可学习的位置嵌入，用于表示输入特征的位置信息。

然后将token通过由L个Transformer层组成的编码器中。每个Transformer层由多头自注意 (MSA)，层归一化 (LN) 和多层感知机 (MLP) 组成，表示如下：

其中操作为dot-product attention；queries, keys和values是同一个tensor的线性投影，表示为：。同理，两个跨模态输入attention操作表示为。

2.2 Multimodal Transformer

2.2.1 Fusion via Vanilla Self-Attention

普通的融合模型仅由应用于多模态输入的常规Transformer组成。对于给定长度为t秒的视频clip，首先统一采样个RGB帧，并将音频波形转换为单个谱图。然后用类似ViT中的方法，将帧和谱图转换成token，并将所有的token拼接在一起，成为一个序列。

形式上，如果从F个采样帧里面提出了个RGB patch 和个谱图patch ，则输入的token序列可以表示为，

其中，。对于RGB patch和谱图patch，作者采用了不同的投影函数。此外，还为每个模态分配了一个分类token。

然后在这些多模态token上采用Transformer层，以获取跨模态的融合信息。

2.2.2 Fusion with Modality-speciﬁc Parameters

此外，还可以将上面的模型推广到每个模态拥有各自独立的参数，，并利用注意力机制交互不同模态的信息：

其中交叉Transformer采用交叉注意操作。这层的操作也可以表示为：

注意，交叉Transformer层的参数，对于每个模态都是不同的。

2.2.3 Fusion via Attention Bottlenecks

为了克服attention的平方复杂度，作者在输入序列中引入了个瓶颈token ，输入序列如下所示：

然后，用这些瓶颈token来限制模型中的所有跨模态注意力。对于第层的Transformer，token计算如下：

其中，和通过Transformer层内的瓶颈token 交换信息。由于，因此融合过程的计算量可以大大降低。

2.3 Where to Fuse: Early, Mid and Late

在大多数Transformer（如ViT）中，每一层都由相同的操作组成的。然而，多模态学习中的一个常见范式是让网络的浅层进行模态内进行的增强，网络的深层进行多模态信息的交互。

基于这样的思想，作者首先用个标准的Self-Attention层来对模态内的token信息进行建模，然后再将所有的token进行拼接得到，用剩下的层进行跨模态token信息的融合。

如果，那么就对应“早期融合”；如果，那么就对应“晚期融合”；如果，那么就对应“中期融合”。表示为：

其中，代表上一节中提到的三种融合策略。

2.4 Classiﬁcation

对于上述的所有模型，为了能够执行分类任务，需要将最后一层的CLS token和输入到线性层，然后将Softmax之后的结果进行平均得到分类结果。

实验

3.1. Fusion Strategies

上表展示了普通的交叉注意和本文提出的瓶颈注意，在不同时候的性能和计算量变化，可以看出，本文的方法明显优于普通的交叉注意。

上表展示了在Encoder中是否共享参数的结果，可以看出，不共享参数在比较小时能够达到更好的效果，当大于6时，两个方法的性能差不多。

3.2. Input Sampling and Dataset Size

上表展示了不同采样窗口大小的实验结果。

上表展示了同步采样策略和异步采样策略的实验结果。

3.3. Results

上表为音频数据集上，本文方法和其他SOTA方法的性能对比。

上表为Epic-Kitchens上，本文方法和其他SOTA方法的性能对比。

上表为VGGSound上，本文方法和其他SOTA方法的性能对比。

3.4. Visualisation

上图展示了Audioset videos数据集上，本文方法和普通融合的可视化结果，可以看出，本文方法的融合结果更加准确，更具备可解释性。

总结

在本文中，作者提出了一种视听融合的Transformer结构(MBT)，并利用token间的交叉注意探索了多种不同的融合策略。为了提高计算小了，作者提出了一种新的融合策略，可以通过一小部分融合 “瓶颈” 来限制跨模态注意力，并证明这可以以较低的计算成本提高交叉注意力的性能，并在多个基准数据集上实现SOTA的结果。

▊ 作者简介

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END

加入「Transformer」交流群👇备注：TFM

搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（六）

作者丨科技猛兽编辑丨极市平台极市导读本文为详细解读Vision Transformer的第六篇,主要介绍了2种将卷积引入Transformer模型的方法:CvT和CeiT.>>加入极 ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（八）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文为详细解读Vision Transformer的第八篇,本文主要介绍了两个用以加深Transformer模型的工作:DeepViT.CaiT ...
谷歌最新提出无需卷积、注意力，纯MLP构成的视觉架构！网友：MLP is All You Need...

当前,卷积神经网络(CNN)和基于自注意力的网络(如近来大火的 ViT)是计算机视觉领域的主流选择,但研究人员没有停止探索视觉网络架构的脚步.近日,来自谷歌大脑的研究团队(原 ViT 团队)提出了一种 ...
重大里程碑！VOLO屠榜CV任务，无需额外数据，首次在ImageNet 上达到87.1%

深度学习技术前沿 126篇原创内容 Official Account 链接:https://arxiv.org/abs/2106.13112 代码:https://github.com/sail-sg ...
DeiT：使用Attention蒸馏Transformer

题目:Training data-efficient image transformers & distillation through attention [GiantPandaCV导语]D ...
各类Transformer都得稍逊一筹，LV-ViT：探索多个用于提升ViT性能的高效Trick

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读本文探索了用于提升ViT性能的各种训练技巧.通过一系列实验对比.改进与组合,本文所提方案取得了SOTA方案,超越了EfficientNet.T ...
ResNet被全面超越了，是Transformer干的：依图科技开源“可大可小”T2T-ViT，轻量版优于MobileNet

作者丨Happy 审稿|邓富城编辑丨极市平台极市导读又一篇Transformer来了!本文在ViT方面进行了一次突破性探索,提出了首次全面超越ResNet,甚至轻量化版本优于MobileNet系 ...
超越Swin Transformer！谷歌提出了收敛更快、鲁棒性更强、性能更强的NesT

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读谷歌&罗格斯大学的研究员对ViT领域的分层结构设计进行了反思与探索,提出了一种简单的结构NesT,方法凭借68M参数取得了超越Swin ...
在神经反馈任务中同时进行EEG-fMRI，多模态数据集成的大脑成像数据集

更多技术干货第一时间送达虽然将EEG和fMRI结合使用可实现精细的空间分辨率和准确的时间分辨率集成,但仍带来许多挑战,比如要实时执行以实现神经反馈(Neurofeedback, NF)循环时.在这项 ...
开启品牌新征程，爱数如何布局多模态数据智能市场？

▼数据猿公告▼ 数据猿即将推出"2020上半年度大型主题策划活动--我的产品观",敬请期待! 大数据产业创新服务媒体 --聚焦数据 · 改变商业时至今日,爱数不再仅仅只是一家 ...
数据猿专访谷歌郭志明：面对广告欺诈，我们的技术绝不手软

数据猿导读谷歌郭志明称,市场上的广告欺诈流量平均占比已达到80%.面对市场上的广告欺诈行为,谷歌没有坐以待毙,而是采用技术手段监测广告流量,提升广告真实流量的转化率,解决广告欺诈难题. 记者 | 春 ...
大数据24小时 | 谷歌收购眼动追踪公司加速VR布局，新华网借大数据进入媒体传播力2.0时代

<数据猿导读> 京东智能云语音服务开放平台宣布上线:国家部委与高校联合,我国国家新型城镇化大数据库即将落地:AI创业公司码隆科技完成6200万元A轮融资--以下为您奉上更多大数据热点事件 ...
大数据24小时 | 谷歌开源10亿+语言建模模型库，原Uber技术大牛尹佐宁加盟易到用车

<数据猿导读> 谷歌开源10亿+单词语言建模模型库:碳云智能宣布收购人工智能公司Imagu,用于数字生命系统研究:原Uber总部尹佐宁加盟易到,负责大数据及风控业务--以下为您奉上更多大数 ...
大数据24小时 | 谷歌6.25亿美元收购API公司Apigee，华为发布最新大数据存储加速方案

<数据猿导读> 谷歌6.25亿美元收购API老牌公司Apigee:广东榕泰拟募资16亿元,将用于打造云计算数据中心:基于SaaS的数据平台Alkemics完成2000万欧元融资--以下为您 ...
大数据24小时 | 谷歌一心赶超微软亚马逊，中国大举收购德企英媒表示很慌张！

<数据猿导读> 谷歌拟1亿美元收购云服务公司Orbitera,欲缩小与微软亚马逊的差距:英媒就中国大举收购德企发声,担心数据安全或受影响:苹果首个数据中心尘埃落定,落户爱尔兰--以下为您奉 ...
大数据24小时 | IBM成立土壤环境大数据实验室，慧聪与海致合作实现B2B与大数据深度融合

<数据猿导读> LogMeIn拟18亿美元收购Citrix旗下GoTo业务,年收益超10亿美元:美国基因测序公司Phosphorus完成1000万美元融资:IBM"环保之旅&qu ...