CLIP-ViL:CLIP对视觉和语言任务有多大的好处?UC Berkeley&UCLA团队给出了答案!
写在前面
大多数现有的视觉和语言(V&L)模型依赖预训练的视觉编码器,使用相对较小的人工标注数据集来感知视觉世界。然而,大规模的预训练通常可以产生更好的泛化性能,例如,在大量图像标题对上训练的CLIP(Contrastive Language-Image Pre-training,对比语言图像预训练)在各种视觉任务中表现出很强的零样本迁移能力。
2)将CLIP与V&L预训练相结合,并迁移到下游任务 。
论文和代码地址
论文地址:https://arxiv.org/abs/2107.06383
代码地址:https://github.com/clip-vil/CLIP-ViL
Motivation
视觉和语言(V&L)任务能够测试系统在自然语言帮助下理解和推理视觉世界语义的能力。大多数V&L模型依靠视觉编码器感知视觉世界,将原始像素转换为表示空间的向量。
2) 将CLIP与V&L预训练结合起来,对图像-文本对进行训练,并迁移到下游任务中。这两种场景的模型分别表示为(没有V&L预训练)和(有V&L预训练)。
方法
4.1. Background
在上图中展示了三个典型的预训练阶段:
2)(可选)对成对的图像字幕数据进行预训练(即,视觉和语言预训练);
3)对特定于任务的数据进行微调(即,特定于任务的微调)。
不同的模型使用不同的视觉编码器,上图展示了它们的结构和预训练过程。主要可以分为两类:
2)基于grid的模型,即直接从视觉主干网络提取grid特征图。
4.2.
在本节中,作者将CLIP直接插入特定于任务的模型(称为CLIP-ViL),并对三个代表性任务进行微调,包括视觉问答、图像字幕和视觉语言导航。
4.2.1. Visual Question Answering
视觉问答(VQA)的任务是提供给定图像和相关问题的答案,在本文中,作者采用了两种方法Pythia和MCAN来研究CLIP特征对VQA的影响。
4.2.2. Image Captioning
图像字幕(Image Captioning)旨在生成图像的自然语言描述。
4.2.3. Vision-and-Language Navigation
视觉和语言导航旨在让agent具有根据人类指令采取行动的能力。
4.3.
最近,V&L预训练被认为是提高各种V&L任务性能的有效方法。在特定任务的微调之前,模型先在对齐的图像文本数据上进行预训练。作者探索了将CLIP预训练和V&L预训练混合的潜力,因此提出了,这是一种以CLIP视觉编码器为视觉主干,对图像文本数据进行预训练的视觉和语言模型。
4.3.1. Model Architecture
以图像和文本作为输入。对于文本,可以将其转换为一系列的subword ,然后在这些subword 上加上position和segment embeddings得到输入的文本序列。
4.3.2. Pre-training on Image-Text Data
为了学习视觉和语言的统一表示,先对图像-文本对模型进行预训练。预训练中,作者采用了LXMERT中的三个预训练任务,分别为grounded masked language modeling, text-image matching,visual question answering。
实验
5.1. Zero-Shot Performance of CLIP in VQA
5.2. Unfreezing the Visual Backbone
5.3. Low Detection Performance of CLIP-ViT-B
5.4. Qualitative Comparison of CLIP Variants
总结
在本文中,作者提出利用CLIP作为各种任务中不同V&L模型的视觉编码器。具体来说,作者尝试了两种方法:第一种,直接插入到特定任务的微调;在第二种方法中,将CLIP与V&L预训练相结合,然后对下游任务进行微调。对不同V&L任务的大量实验表明,与baseline相比,和可以获得具有竞争力甚至更好的性能。
▊ 作者简介
知乎/公众号:FightingCV
END
欢迎加入「计算机视觉」交流群👇备注:CV