MURAL:消除预训练模型的语言限制!Google提出跨语言的多模态、多任务检索模型MURAL
论文链接:https://arxiv.org/abs/2109.05125v1
项目链接:未开源
01
02
2.1 MURAL
Weighting of i2t and t2t tasks
Task-specific projection heads
Fine-tuning: single-task vs. multi-task
2.2 Model variants
2.3 Baseline Strategies
Translate-train
Translate-test
03
3.1. Multi30k and MSCOCO
3.2. Wikipedia Image Text Results
3.3. XTD
3.4. Crisscrossed Captions
3.5. Embedding Visualization
04
作者介绍
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。
知乎/公众号:FightingCV
END
欢迎加入「图像字幕」交流群👇备注:cap
赞 (0)