MURAL:消除预训练模型的语言限制!Google提出跨语言的多模态、多任务检索模型MURAL

论文链接:https://arxiv.org/abs/2109.05125v1
项目链接:未开源

01

02

2.1 MURAL
Weighting of i2t and t2t tasks



Task-specific projection heads
Fine-tuning: single-task vs. multi-task
2.2 Model variants
2.3 Baseline Strategies
Translate-train
Translate-test
03
3.1. Multi30k and MSCOCO

3.2. Wikipedia Image Text Results

3.3. XTD

3.4. Crisscrossed Captions


3.5. Embedding Visualization

04
作者介绍
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。
知乎/公众号:FightingCV

END
欢迎加入「图像字幕」交流群👇备注:cap
赞 (0)
