并且创建一个新的caption数据集,去除所有纯文本的图片,然后使用模型的权重找出textness bias向量。实验结果表明,向文本向量添加bias比向图像向量添加bias更有效,并且scale值越大,CLIP 越强调文本的相似性。借助CLIP的强大功能,可以使用知识蒸馏的方法减小模型的尺寸,CLIP 模型实际上是两个具有不相交参数集的模型: ViT (将图像转换为向量)和 Transformer (将文本转换为向量)模型。研究人员决定对 ViT 模型(精度为 FP32的350MB)进行模型精馏,学生 ViT 模型的大小初步决定小于50MB。创建的学生模型将宽度和层数减少了两倍,由于不确定header的数量,所以定义了两个版本,一个与teacher模型中的头的数量相同,另一个头的数量是模型的两倍,这个实验可以看到增加头的数量将如何影响模型的性能。
虽然蒸馏后的 ViT CLIP模型显示了良好的结果,但是有一些情况下,它的性能比原来的模型有所下降。1、对于未包含在训练数据集中的情况,它的性能很差: 但这是基于一些观察的假设,还没有进行测试来验证它。例如,对于像 flag 这样的搜索词,它的召回结果不尽如人意。另一个有趣的例子是搜索词 flock。这个蒸馏后的模型学会了将数量的概念和 flock 联系起来,但是方式错了。student模型显示的是大群的动物而不是鸟