细说何恺明团队在无监督领域的顶作：MoCo三部曲

2024-08-03 06:16:01

作者丨Smarter

来源丨Smarter

编辑丨极市平台

极市导读

本文从初代MoCo开始从头探索了MoCo系列，探究MoCo系列为什么对Self-Suoervised Learning领域产生了这么大的影响。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

趁着最近FAIR出了MoCov3，刚好凑够MoCo三部曲，从头捋一遍MoCo整个系列做了什么事情，探究MoCo系列为何对Self-Supervised Learning领域所产生的影响如此之大。

有关Self-Supervised和InfoNCE的基础知识可以看Self-Supervised: 如何避免退化解，本文只涉及MoCo系列的Self-Supervised方法是如何演变的。

MoCov1

时间拨回到19年末，那时NLP领域的Transformer进一步应用于Unsupervised representation learning，产生后来影响深远的BERT和GPT系列模型，反观CV领域，ImageNet刷到饱和，似乎遇到了怎么也跨不过的屏障，在不同task之间打转，寻求出路。就在CV领域停滞不前的时候，又是那个人Kaiming He带着MoCo横空出世，横扫了包括PASCAL VOC和COCO在内的7大数据集，至此，CV拉开了Self-Supervised的新篇章，与Transformer联手成为了深度学习炙手可热的研究方向。

MoCo主要设计了三个核心操作：Dictionary as a queue、Momentum update和Shuffling BN。

Dictionary as a queue

正如我之前的文章中提到的，避免退化解最好的办法就是同时满足alignment和uniformity，即需要positive pair和negative pair。其中uniformity是为了不同feature尽可能均匀的分布在unit hypersphere上，为了更有效率的达到这个目的，一个非常直观的办法是增加每次梯度更新所包含的negative pair(即batch size)，在MoCo之前有很多方法对如何增加negative pair进行了大量研究。

其中图(a)是最简单粗暴，直接end-to-end，batch size的大小取决于GPU容量大小。图(b)设计了一个memory bank保存数据集中所有数据的特征，使用的时候随机从memory bank中采样，然后对采样进行momentum update，这样可以认为多个epoch近似一个大的batch，但是这种方法存在一个问题，就是保存数据集中所有数据特征非常的占显存。

MoCo提出了将memory bank的方法改进为dictionary as a queue，意思就是跟memory bank类似，也保存数据集中数据特征，只不过变成了queue的形式存储，这样每个epoch会enqueue进来一个batch的数据特征，然后dequeue出去dictionary中保存时间最久的一个batch的数据特征，整体上来看每个epoch，dictionary中保存的数据特征总数是不变的，并且随着epoch的进行会更新dictionary的数据特征同时dictionary的容量不需要很大，精髓！

Momentum update

但是MoCo仅仅将dictionary as a queue的话，并不能取得很好的效果，是因为不同epoch之间，encoder的参数会发生突变，不能将多个epoch的数据特征近似成一个静止的大batch数据特征，所以MoCo在dictionary as a queue的基础上，增加了一个momentum encoder的操作，key的encoder参数等于query的encoder参数的滑动平均，公式如下：

和分别是key的encoder和query的encoder的参数，m是0-1之间的动量系数。

因为momentum encoder的存在，导致key支路的参数避免了突变，可以将多个epoch的数据特征近似成一个静止的大batch数据特征，巧妙！

Shuffling BN

另外，MoCo还发现ResNet里的BN层会阻碍模型学习一个好的特征。由于每个batch内的样本之间计算mean和std导致信息泄露，产生退化解。MoCo通过多GPU训练，分开计算BN，并且shuffle不同GPU上产生的BN信息来解决这个问题。

实验

通过对end-to-end、memory bank和MoCo三种方法的对比实验可以看出MoCo算法有着巨大优势。memory bank由于momentum update的是数据，可能训练过程会更加不稳定，导致精度远低于end-to-end和MoCo；end-to-end由于GPU容量大小的限制，导致不能使用更大的batch size；MoCo通过dictionary as a queue和momentum encoder和shuffle BN三个巧妙设计，使得能够不断增加K的数量，将Self-Supervised的威力发挥的淋漓尽致。

MoCov2

MoCov2在MoCov1的基础上，增加了SimCLR实验成功的tricks，然后反超SimCLR重新成为当时的SOTA，FAIR和Google Research争锋相对之作，颇有华山论剑的意思。

SimCLR vs MoCo

SimCLR其实使用的方法就是MoCo中提到的end-to-end的方法，当然同样存在GPU容量大小限制的问题，但是在Google面前，GPU容量大小算什么限制，TPU我有一打，于是SimCLR通过大batch、大epoch、更多更强的数据增强和增加一个MLP把MoCo拉下了王座，MoCo当然不服气，SimCLR你作弊，老子也要用更多更强的数据增强和MLP！ 于是MoCov2以一种实验报告的形式诞生了。

实验

从实验中可以看出，增加MLP、更强的aug、大epoch都能够大幅度的提升MoCo的精度。

MoCov2相比于SimCLR，在batch size更小的情况下，能够达到更好的效果。

MoCov3

MoCov3的出发点是NLP领域的Unsupervised representation learning使用的架构都是Transformer的，而CV领域的Self-Supervised还在使用CNN架构，是不是可以在Self-Supervised中使用Transformer架构呢？于是MoCov3继续探索Self-Supervised+Transformer的上限在哪里，有金融+计算机内味了。

Stability of Self-Supervised ViT Training

MoCov3将backbone替换成ViT，然后进行实验研究，探索Self-Supervised使用Transformer架构是否可行。然而实验中使用ViT作为backbone会导致Self-Supervised的训练过程不稳定，并且这个不稳定现象无法通过最终迁移预测的结果捕捉到。为了揭示这个不稳定现象是什么导致的，MoCov3使用kNN curves来监控self-supervised的每一个epoch结果。

Empirical Observations on Basic Factors

通过控制变量，主要探究了batch size、learning rate和optimizer三个变量对self-supervised训练过程的影响程度。

从实验中可以看出随着batch的增大或者lr的增大，kNN accuracy都逐渐出现了dip的情况，并且dip的程度逐渐增加，呈现周期性出现。当使用LAMB optimizer时，随着lr的增加，虽然kNN accuracy还是平滑的曲线，但是中间部分任然会出现衰退。

A Trick for Improving Stability

为了探究dip出现的原因，作者进一步画出随着epoch的增加，模型的first layer和last layer梯度的变化情况。发现在训练过程中，不同的layer都会发生梯度突变的情况，导致dip的出现。通过比较各个layer的梯度峰值发现first layer会更早的出现梯度峰值，然后逐层蔓延到last layer。

基于这个观察现象，作者大胆猜测不稳定现象在浅层会更早产生。于是作者进行消融实验比对fixed random patch projectionr和learned patch projection两种情况的结果。

可以看到训练过程中，在不同Self-Supervised算法下，fixed random patch projection比起learned patch projection会稳定许多，并且kNN accuracy也有一定的提升。

作者也提到fixed random patch projection只能一定程度上缓解不稳定问题，但是无法完全解决。当lr足够大时，任然会出现不稳定现象。first layer不太可能是不稳定的根本原因，相反，这个不稳定问题跟所有layer相关。只不过first layer使用的是conv跟后面的self-attention之间gap更大，对不稳定影响更大，first layer固定住更容易处理而已。

实验结果不出所料的吊打之前的Self-Supervised算法，总体上MoCov3通过实验探究洞察到了Self-Supervised+Transformer存在的问题，并且使用简单的方法缓解了这个问题，这给以后的研究者探索Self-Supervised+Transformer提供了很好的启示。

总结

说一下自己的看法，未来CV很大可能是类似NLP，走无监督预训练，CNN的架构可能支撑不起大量数据的无监督预训练，那么使用transformer作为CV的无监督预训练架构是有必要的。从MoCov3的探索可以看出，FAIR试图从Self-Supervised和Transformer两大炙手可热的方向寻求CV未来的方向，NLP从Transformer -> BERT -> GPT系列，逐渐统治整个NLP领域，MoCo似乎也想复制出NLP的成功路径，从MoCov1 -> MoCov2 -> MoCov3逐渐探索CV领域Unsupervised representation learning的上限，Self-Supervised+Transformer会是CV领域的BERT吗？

最后我想说的是，正如截图所示，虽然叫MoCov3，但其实越来越不像MoCo了，缺少了MoCo最精髓的dictionary as a queue，没有了MoCo的精气神，可以看出FAIR对于精度的无奈与妥协，MoCo最初的精彩或许只能存在于历史之中。

Reference

[1] Momentum Contrast for Unsupervised Visual Representation Learning

[2] Improved Baselines with Momentum Contrastive Learning

[3] An Empirical Study of Training Self-Supervised Visual Transformers

本文亮点总结

1. MoCo主要设计了三个核心操作：Dictionary as a queue、Momentum update和Shuffling BN。

2. MoCov2在MoCov1的基础上，增加了SimCLR实验成功的tricks。

3. NLP领域的无监督表征学习使用的架构都是Transformer，而CV领域的自监督还在使用CNN架构，于是MoCov3继续探索自监督+Transformer的上限在哪里。

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

解析Transformer模型

❝ GiantPandaCV导语:这篇文章为大家介绍了一下Transformer模型,Transformer模型原本是NLP中的一个Idea,后来也被引入到计算机视觉中,例如前面介绍过的DETR就是将 ...
未来可期！对比自监督学习

来源:AI科技评论 PyTorch Lightning 创始人的对比学习综述,对自监督学习.对比学习等进行了简要回顾. 近年来,自监督学习逐渐成为了备受人们关注的应对标注缺乏问题的热门解决方案,科研人 ...
LeCun联手华人博士后提出自监督学习新作！却遭Reddit网友质疑：第一张图就错了...

转载自:新智元来源:reddit | 编辑:LRS [导读]两个月前自监督学习领域出了一篇重磅论文,LeCun和他的学生共同完成新模型Barlow Twins,reddit网友指出,第一张图就错 ...
深度了解自监督学习，就看这篇解读！Hinton团队力作：SimCLR系列

作者丨科技猛兽编辑丨极市平台极市导读本文主要介绍Self-Supervised Learning 在 CV 领域的经典工作之一:SimCLR和SimCLR v2.>>加入极市CV技 ...
浅谈Transformer的初始化、参数化与标准化

作者丨苏剑林@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/400925524 编辑丨极市平台极市导读本文以Transformer为中心展开,梳理了模型的初始化. ...
WenLan-10亿参数！别只玩GPT，来看看人大&中科院联手打造第一个大规模多模态中文预训练模型BriVL

▊ 写在前面近年来,多模态预训练模型在视觉和语言之间架起了桥梁.然而,大多数研究都是通过假设文本和图像对之间存在很强的语义关联来对图像-文本对之间的跨模态交互进行显式建模.由于这种强假设在现实场景中 ...
FAIR最新无监督研究：视频的无监督时空表征学习

设为星标,干货直达! 机器学习算法工程师机器学习.深度学习.数据挖掘等人工智能领域的技术实战干货文章,这里都有!分享从业经验是我们的不变的准则-- 567篇原创内容公众号近期,FAIR的Kaim ...
何恺明团队最新力作SimSiam：消除表征学习“崩溃解”，探寻对比表达学习成功之根源

作者|Happy 编辑丨极市平台极市导读本文是FAIR的陈鑫磊&何恺明大神在无监督学习领域又一力作,提出了一种非常简单的表达学习机制用于避免表达学习中的"崩溃"问题,从 ...
ICCV2021｜性能优于何恺明团队MoCo v2，DetCo：为目标检测定制任务的对比学习

作者丨小马编辑丨极市平台极市导读作者专为目标检测任务"量身定制"了对比学习框架DetCo,在PASCAL VOC数据集上,DetCo在100个epoch时的性能就与MoCo ...
一种基于Transformer解码端的高效子层压缩方法

AI TIME欢迎每一位AI爱好者的加入! 在自然语言处理(NLP)领域,基于生成词向量的BERT算法由于其优秀的性能被关注.其中BERT算法最重要的部分便是Transformer.加速Transfo ...
一文梳理2020年大热的对比学习模型

对比学习的概念很早就有了,但真正成为热门方向是在2020年的2月份,Hinton组的Ting Chen提出了SimCLR,用该框架训练出的表示以7%的提升刷爆了之前的SOTA,甚至接近有监督模型的效果 ...
自监督学习: 人工智能的未来

导读什么是自监督学习?为什么自监督学习是AI的未来?自监督学习如何实现? 本文将回顾下自监督学习的前世今生,介绍它在CV.NLP.Graph.RecSys.RL等领域已经取得的令人惊叹的效果! 1. ...
大概是全网最详细的何恺明团队顶作MoCo系列解读！（上）

作者丨科技猛兽编辑丨极市平台极市导读 MoCo v1 是在 SimCLR 诞生之前的一种比较流行的无监督学习方法.本篇主要详细介绍了MoCo v1的做法.FAQ.实验以及完整的代码解读,经典之作值 ...
NAS+CNN+Transformer=ViT-Res！MIT团队重磅开源ViT-Res，精度高于DeiT-Ti8.6%

本文分享论文『Searching for Efficient Multi-Stage Vision Transformers』,由 MIT 团队重磅开源 ViT-Res,Tiny 模型精度比 DeiT ...
解决训练不稳定性，何恺明团队新作来了！自监督学习+Transformer=MoCoV3

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读本文是FAIR的恺明团队针对自监督学习+Transformer的一篇实证研究.针对Transformer在自监督学习框架中存在的训练不稳定问题 ...
在文本和图像上的对比学习小综述~

作者:李明达来自:哈工大SCIR 1.引言近两年,对比学习(Contrastive Learning)在计算机视觉领域(CV)掀起了一波浪潮,MoCo[1].SimCLR[2].BYOL[3].S ...
首个面向手绘草图的深度自监督表示学习

深度自监督学习(deep self-supervised learning)近来受到了极大关注,很多可用于解决图像和视频的自监督学习方法涌现了出来.不同的数据模态具有截然不同的数据特性,在自监督学习的 ...
深度了解自监督学习，就看这篇解读！微软首创：运用在 image 领域的BERT

作者丨科技猛兽来源丨极市平台编辑丨极市平台极市导读本文介绍的这篇工作是把 BERT 模型成功用在 image 领域的首创,也是一种自监督训练的形式,所以取名为视觉Transformer的BER ...
【开源框架】一文道尽主流开源框架中的数据增强

李健武汉大学硕士,研究方向为机器学习与计算机视觉作者 | 李健(微信号:lijian05170517) 编辑 | 李健大家都知道有效的数据对于深度学习的重要性,然而有时能够获取的数据确实有限,为 ...
对比学习（Contrastive Learning）在CV与NLP领域中的研究进展

来自:对白的算法屋作者:对白对比学习方法(CV) 对比学习要做什么? 有监督训练的典型问题,就是标注数据是有限的. 目前NLP领域的经验,自监督预训练使用的数据量越大,模型越复杂,那么模型能够吸收 ...

细说何恺明团队在无监督领域的顶作：MoCo三部曲

MoCov1

MoCov2

MoCov3

总结

相关推荐