TextTopicNet:CMU开源无标注高精度自监督模型 / 四六文摘

自监督模型是继GAN之后Yann LeCun看好的世界模型。

本文来自于Carnegie Mellon University和Universitat Autonoma de Barcelona研究团队的最新论文，展示了自监督学习在计算机视觉领域的巨大潜力。
基于深度学习的计算机视觉方法的巨大成功在很大程度上依赖于大规模的训练数据集。这些带有丰富标注的数据集有助于网络学习到具有鉴别能力的视觉特征。收集和标注这些数据集需要大量的人力，并且这些标注仅限于少数广为人知的类集。作为替代方案，通过设计利用可自由使用的带有自监督信息（self-supervised）的辅助任务来学习视觉特征已经在计算机视觉社区中变得越来越流行。
在本文中提出了利用多模态（这里是文本-图像模态）上下文为计算机视觉算法的训练提供自监督信息的想法。展示了通过训练CNN来预测语义文本上下文的问题可以有效地学习具有足够鉴别力的视觉特征，具体地说，这个问题就是对于一幅特定图像它更有可能成为哪一类语义文本的插图。在实现方法上，使用了流行的文本嵌入技术来为深度学习CNN的训练提供自监督信息。
最终的实验证明，与最近出现的自监督（self-supervised）或自然监督（naturally-supervised）方法相比，提出的TextTopicNet技术在图像分类，物体检测和多模态检索方面都达到了state-of-the-art的性能。

TextTopicNet方法总览
维基百科文章是包含某一主题的文本描述，这些文章往往还附有支持文本的说明性图像。使用文本嵌入框架生成文本信息的全局上下文表示。将整篇文章的这种文本矢量表示用于为CNN的训练提供自监督信息。

何为自监督学习？
自监督（self-supervised）或者又称为自然监督（naturally-supervised）学习是指利用与图像内在关联的非视觉信号作为监督视觉特征学习的形式。比如一篇文章插图周围的文本信息。

Topic Model生成监督信息
使用LDA（Blei等，2003）Topic概率作为图像和文本的共同表示。使用文本的Topic级的表示来监督卷积神经网络的视觉特征学习。通过使用CNN模型学习预测特定图像作为某一类语义上下文插图出现的概率的任务，达到学习可用于其他视觉任务的“通用”视觉特征。

使用的数据

来源于维基百科的网页。

1.ImageCLEF Wikipedia Collection