TextTopicNet:CMU开源无标注高精度自监督模型
自监督模型是继GAN之后Yann LeCun看好的世界模型。
本文来自于Carnegie Mellon University和Universitat Autonoma de Barcelona研究团队的最新论文,展示了自监督学习在计算机视觉领域的巨大潜力。
基于深度学习的计算机视觉方法的巨大成功在很大程度上依赖于大规模的训练数据集。这些带有丰富标注的数据集有助于网络学习到具有鉴别能力的视觉特征。收集和标注这些数据集需要大量的人力,并且这些标注仅限于少数广为人知的类集。作为替代方案,通过设计利用可自由使用的带有自监督信息(self-supervised)的辅助任务来学习视觉特征已经在计算机视觉社区中变得越来越流行。
在本文中提出了利用多模态(这里是文本-图像模态)上下文为计算机视觉算法的训练提供自监督信息的想法。展示了通过训练CNN来预测语义文本上下文的问题可以有效地学习具有足够鉴别力的视觉特征,具体地说,这个问题就是对于一幅特定图像它更有可能成为哪一类语义文本的插图。在实现方法上,使用了流行的文本嵌入技术来为深度学习CNN的训练提供自监督信息。
最终的实验证明,与最近出现的自监督(self-supervised)或自然监督(naturally-supervised)方法相比,提出的TextTopicNet技术在图像分类,物体检测和多模态检索方面都达到了state-of-the-art的性能。
TextTopicNet方法总览
维基百科文章是包含某一主题的文本描述,这些文章往往还附有支持文本的说明性图像。使用文本嵌入框架生成文本信息的全局上下文表示。 将整篇文章的这种文本矢量表示用于为CNN的训练提供自监督信息。
何为自监督学习?
自监督(self-supervised)或者又称为自然监督(naturally-supervised)学习是指利用与图像内在关联的非视觉信号作为监督视觉特征学习的形式。比如一篇文章插图周围的文本信息。
Topic Model生成监督信息
使用LDA(Blei等,2003)Topic概率作为图像和文本的共同表示。使用文本的Topic级的表示来监督卷积神经网络的视觉特征学习。 通过使用CNN模型学习预测特定图像作为某一类语义上下文插图出现的概率的任务,达到学习可用于其他视觉任务的“通用”视觉特征。
使用的数据
来源于维基百科的网页。
1.ImageCLEF Wikipedia Collection
2.全部英文维基百科数据
TextTopicNet文本topic生成与CNN网络训练
使用LDA提取数据集中文本的topic,将topic的概率作为与其文本对应的图像CNN训练的监督信
将训练得到的CNN特征直接用于图像分类
直接提取网络中不同的层,使用one-vs-all SVMs方法在PASCAL VOC2007数据集上执行分类任务。除了LDA,文中尝试了多种Text Representation的文本嵌入方法。可以发现LDA主题模型取得了最好的效果。
PASCAL VOC2007上图像分类的每类平均精度
中间五行是其他自监督方法,最后两行是分别在ImageNet和Places数据集上训练的监督方法。相比于其他自监督方法,TextTopicNet的性能改进非常显著,即使与监督学习方法相比,在较难的类“bottle”也取得了最好的结果。
PASCAL VOC2007 上图像分类的%mAP
TextTopicNet (COCO)使用了COCO数据集的文本描述训练的,TextTopicNet (Wikipedia)打败了TextTopicNet (COCO),说明提取的特征有良好的推广特性。
SUN397 数据集图像分类精度
当然除了直接使用CNN的层进行特征提取,也可以finetune整个CNN网络然后执行图像分类。
网络finetune后在PASCAL VOC 2007图像分类结果
网络finetune后在STL-10图像分类结果
使用Fast R-CNN和TextTopicNet特征在 PASCAL VOC2007上的目标检测结果
虽然相比于在ImageNet上预训练的Fast R-CNN精度低,但Fast R-CNN若只是用PASCAL VOC2007数据训练,精度只有40.7%mAP。
多模态检索
即使用TextTopicNet特征,执行输入图像查询文本,或者输入关键词查询图像。
多模态检索的示例
展示了模型提取的特征具有良好的通用语义表示能力。
欢迎随手转发,让更多人看到——不是看到这个算法好,而是看到你很努力