BERT-flow|CMUx字节推出简单易用的文本表示新SOTA!
2015年到18年间有很多优秀的文本表示模型,祭出宝图:
但基于交互的匹配模型明显优于单纯的表示,再加上BERT出来,就很少有人再去研究了,2019年只有一个Sentence-BERT,其实也只是把经典的双塔encoder换成BERT而已,不过总比直接用[CLS]或者对BERT最后一层pooling出来的表示要好。
今年在EMNLP看到了三篇相关文章,一篇是之前解读过的Cross-Thought,还有一篇Manning组同学提出的SLM[1],但这两个都需要预训练,而且也没有和Sentence-BERT直接对比,让我这样很懒的人不方便直接拿来用也不确定真的work多少。
相比之下,今天想介绍的这篇BERT-flow就方便很多,不动BERT的参数,直接在业务数据上无监督训练一个新网络就可以优化BERT输出的表示。同时,作者在前文细致地分析了预训练与语义相关性的联系,并探索了BERT表示的特点,对直接用BERT表示效果不好的现象进行了解释。
论文题目:On the Sentence Embeddings from Pre-trained Language Models
下载地址:https://arxiv.org/pdf/2011.05864.pdf
论文代码:https://github.com/bohanli/BERT-flow
语言模型预训练和语义相关性的联系
先来一个灵魂拷问:
假设文本c的编码是 ,为什么两个文本表示的点积 就能代表它们的语义相似程度呢? (表示归一化后等价于cosine)
有点绕是不是,感觉大家一直都是这么默认的。那让我们从数学角度理解一下,先来看看 和文本中词x的表示 的点积 。这个term出现在了语言模型的优化目标之中:
根据论文[2],对于一个充分训练的语言模型来说:
其中 是词的概率, 是跟上下文c相关的term。 是互信息,表示词与上下文的共现,PMI越大共现概率越大,同时统计意义上的共现也暗示了两者语境、语义的接近。 也可以这样解释。
那语言模型预训练是怎样助力文本表示的呢?
在回头看 的计算,语言模型的目标其实就是最大化token与上下文的共现概率。在向这个目标优化时,c 与 x 的表示会不断接近,如果 x 同时也在另一个上下文 c' 中出现了,那 c 与 c' 的距离就会被拉近,因此语言模型的训练会提升表示的质量,让每个句子在空间中找到自己合适的位置。
BERT表示存在的问题
虽然这个道理没毛病,但真正在使用时,不少研究[3] [4]都发现BERT的表示存在一些问题。作者也通过计算表示的L2距离进行了验证,我用力画了一下:
BERT的词向量在空间中不是均匀分布,而是呈锥形。作者发现高频词都靠近原点(所有的均值),而低频词远离原点,相当于这两种词处于了空间中不同的区域,那高频词和低频词之间的相似度就不再适用了 低频词的分布很稀疏。正如我画的那样,低频词表示得到的训练不充分,分布稀疏,导致该区域存在语义定义不完整的地方(poorly defined),这样算出来的相似度也有问题。
BERT-flow
基于以上对相似度的深入探讨和问题研究,作者提出了BERT-flow,基于流式生成模型,将BERT的表示可逆地映射到一个均匀的空间,上述的问题就迎刃而解了:
关于流式生成模型的原理可以再写一篇文章了,简单的说就是学习一个可逆的映射 ,把服从高斯分布的变量 映射到BERT编码的 ,那 就可以把 到均匀的高斯分布,这时我们最大化从高斯分布中产生BERT表示的概率,就学习到了这个映射:
感兴趣的同学可以阅读以下三篇论文[5]:
ICLR 2015 NICE-Non-linear Independent Components EstimationICLR 2017 Density estimation using Real NVPNIPS 2018 Glow: Generative Flow with Invertible 1×1 Convolutions
作者对2018年OpenAI提出的Glow模型进行了简化,用BERT生成的任务数据表示(无标签)作为输入训练模型。
实验效果
作者分别在任务数据(train+dev+test)和 NLI(SNLI+MNLI)数据上无监督地训练流式模型,就得到了比BERT本身要好十多个点的结果:
另外作者还发现,取BERT最后两层的平均要比取最后一层要好很多。
是不是还没跟Sentence-BERT(SBERT)比呢?别急,作者采用Sentence-BERT的方式在NLI语料上进行了精调,效果最高好了4个点:
除了SemEval上的对比之外,后续作者还和其他normalisation的方法进行了对比,最好的也比BERT-flow差2个点。
最后作者还研究了语义相似度和字面相似度的关系,结果显示在BERT的表示下,编辑距离小于4的句子语义相似度很高,但这显然是不对的,在文本中随便加一个「不」字都会让这两句话意思相反。而BERT-flow则可以改善这种情况:
总结
这篇工作是实至名归的文本表示新SOTA,不仅可以利用无监督数据,又可以不动BERT本身的参数,减少了训练时间。虽然改进比较简单,但对BERT表示进行了深入的分析,让我们意识到了更多问题。
对了,英文的NLI数据很好用,但中文就比较匮乏,需要数据的小伙伴建议使用哈工大的LCQMC[6]数据集,最近CLUE上也出了一个OCNLI[7],不过只有5W训练数据,亲测20W的LCQMC更好用些。
参考资料
SLM: Learning a Discourse Language Representation with Sentence Unshuffling: https://arxiv.org/abs/2010.16249
[2]
Breaking the softmax bot- tleneck: A high-rank rnn language model: https://arxiv.org/abs/1711.03953
[3]
Representation Degeneration Problem in Training Natural Language Generation Models: https://arxiv.org/abs/1907.12009
[4]
Improving Neural Language Generation with Spectrum Control: https://openreview.net/forum?id=ByxY8CNtvr
[5]
Flow-based生成模型: https://zhuanlan.zhihu.com/p/43157737
[6]
LCQMC: A Large-scale Chinese Question Matching Corpus: http://icrc.hitsz.edu.cn/Article/show/171.html
[7]
OCNLI: Original Chinese Natural Language Inference: https://arxiv.org/abs/2010.05444