【ACL 2019】Few-shot Learning学习词表外的词表示

2024-04-17 20:11:59

论文原文：https://arxiv.org/pdf/1907.00505.pdf

论文背景 Background

现有的词嵌入方法通常假设在语料中每个词都出现足够多次，这样我们就可以通过词的上下文获得该词的词表示。但在现实世界的场景中，经常有些词不会频繁出现在训练集中，这就为学习他们的词表示带来了挑战。

为此，今天我们要介绍的这篇论文将学习词表外词表示看做few-shot回归问题，提出了一种新的基于层次关注的架构作为神经回归函数，利用该神经回归函数，从K个观察值对单词的上下文信息进行编码和聚合。此外，还可以利用模型不可知元学习（MAML）来快速有效地使学习模型适应新的语料库。

论文模型 Model

最近关于上下文词表示的工作[1]表明，使用深度模型以自监督的方式捕捉语言特定的语义语法知识是可行的。在这些工作的启发下，本文提出了一种分层上下文编码（HiCE）架构，用于从上下文中提取和聚合信息，并且可以轻松地合并上下文的形态特征。

文中HiCE主要基于[2]提出的自注意编码块，每个编码块包含一个自注意层和一个逐点全连接层。这样的编码块可以丰富序列输入的交互并有效地提取本地和全局信息。

自关注（SA）是注意机制的变体，可以单独参与序列，其表达式如下

在上式中，对于每一个head，首先通过三个不同的线性投影W将序列输入矩阵x转换为查询-键-值矩阵，然后计算矩阵内积

，再按序列输入的维数的平方根进行缩放获得序列的相互关注矩阵，最后使用计算的关注矩阵聚合值矩阵，得到aself,i作为第i个自注意向量。

将这些自注意向量结合起来与线性投影WO相乘，得到可以表示序列x相互关系的不同方面的SA(x)：

自关注层之后是完全连接的前馈网络（FFN），其对序列输入x的每个位置应用非线性变换。

如图1所示，HiCE主要包括上下文编码器和多上下文聚合器两层。对于每个给定单词wt及其K掩码的支持上下文集合

，较低级别的上下文编码器（E）将每个句子st,k作为输入，经过位置关注和自注意编码块，输出编码的上下文嵌入

。之后，多上下文聚合器通过另一个自关注编码块组合了多个编码的上下文。由于上下文的顺序可以是任意的，不应影响聚合，因此不需要在多上下文聚合器中应用位置注意。

为了解决训练语料与实际使用的语言语义差异，本文采用模型不可知元学习（MAML）[3]来实现快速和稳健的适应。MAML不是简单地微调DN上的神经回归函数Fθ，而是提供了一种学习微调的方法。也就是说，首先在DT上训练模型以获得更有希望的初始化，基于此，仅通过几个示例对DN上的模型进行微调就可以很好地概括。

对于训练时的每一次迭代，首先使用DT中的足够数据进行梯度下降以学习更新的权重θ*

然后将θ*视为初始化权重，以优化DN中有限数据的θ。每个训练集的最终更新可以表示为：（其中α和β都是两个学习率的超参数）

上述优化可以用随机梯度下降（SGD）进行。通过这种方式，从DT学到的知识可以提供良好的初始表示，可以通过DN中的一些示例进行有效微调，从而实现快速和稳健的自适应。

论文实验 Test

本文在Chimera Benchmark上对词嵌入以及一些下游任务（NER、POS tagging）进行了评估，实验效果如下表所示，实验表明，在DT上训练的HiCE已经能够利用可以通过不同域传递的一般语言知识，并且通过MAML的适应可以进一步缩小域差距并提高性能。

参考文献

[1] Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep contextualized word representations. In NAACL-HLT, pages 2227–2237. Association for Computational Linguistics.

[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NIPS, pages 6000–6010.

[3] Chelsea Finn, Pieter Abbeel, and Sergey Levine. 2017. Model-agnostic meta-learning for fast adaptation of deep networks. In Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017, pages 1126–1135.

学术头条已建立微信交流群，想进群的同学请加学术君微信：AMiner308，记得备注：名字+单位/学校噢！

分享干货

NLP实操手册: 基于Transformer的深度学习架构的应用指南(综述)

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容公众号点上方人工智能算法与Python大数据获取更多干货在右上 ...
一年六篇顶会的清华大神提出Fastformer：史上最快、效果最好的Transformer

新智元报道来源:arXiv 编辑:LRS [新智元导读]Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练 ...
Query 理解在知乎搜索中的应用

文章整理:艺饭饭内容来源:DataFunTalk 导读:随着用户规模和产品的发展, 知乎搜索面临着越来越大的 query 长尾化挑战,query 理解是提升搜索召回质量的关键.本次分享将介绍知乎搜索 ...
超详细的 Bert 文本分类源码解读 | 附源码

本文详细的GitHub地址: https://github.com/sherlcok314159/ML 接上一篇: 你所不知道的 Transformer! 参考论文 https://arxiv.org ...
支持Transformer全流程训练加速，最高加速3倍！

转载于 :机器之心 Transformer 已经成为众多 NLP 任务以及部分 CV 任务的主流模型,但由于硬件资源匮乏,很多高校实验室或者公司都无法训练很大的模型,而降低批处理大小等措施又会导致训练 ...
直观比较四种NLP模型 - 神经网络，RNN，CNN，LSTM

文/ 阿里淘系 F(x) Team - 紫矜 NLP中使用的每种模型的差异有时令人难以把握,因为它们具有相似之处,并且通常设想使用新模型来克服以前模型的缺点.因此,本文将深入探讨每种模型的本质,并了解 ...
Fastformer：简单又好用的Transformer变体！清华&MSRA开源线性复杂度的Fastformer！

0 写在前面 Transformer是一个强大的文本理解模型.然而,由于其对输入序列长度呈二次计算复杂度,Transformer是效率是比较低下的.虽然Transformer加速有很多方法,但在长序列 ...
完全图解GPT-2：看完这篇就够了（一）

设为 "星标",重磅干货,第一时间送达! 选自github.io,作者:Jay Alammar 机器之心编译今年涌现出了许多机器学习的精彩应用,令人目不暇接,OpenAI 的 G ...
学习肱骨外上髁炎

概述 (一)解剖肘关节由肱骨下端和尺桡骨上端包在一个关节囊内所构成,由关节囊.韧带.骨间膜及肌肉等软组织联系和保护.肘关节的功能是前臂屈伸与旋转. 肘关节包括3个关节:肱尺关节.肱桡关节.桡尺近侧关 ...
初中作文：冲刺2019中考！值得学习的10篇中考满分作文

声明:本文来自"语文大师官方",若涉及版权问题,请尽快联系删除,谢谢!
从 ACL 2019 看 NLP 未来发展趋势

随着自然语言处理领域的顶级盛会 ACL 2019 落幕,亚马逊 Alexa AI 的机器学习科学家 Mihail Eric 对本次会议进行了一次比较全面的回顾.从奇闻轶事到学术前沿,本文一网打尽,自然 ...
2019年新版Python学习路线图（内含大纲视频工具面试）

大家为什么要学Python? 在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座. Python 作为这两年最受欢迎的编程语言,可以说是 AI 时代头牌语言, ...
283殷铭桢：大学生学习二外的“动机-策略”分析

一.二外的学习动机决定了具体的学习策略许多大学生在进入大学后开始考虑学习第二外语,但是不同的学生又有不同的学习二外的动机."学习动机是直接推动学生学习活动的内部动力, 它能够说明学生为什么 ...
306殷铭桢：大学生学习二外的“方法-表现”分析

大学生在学习二外的各种动机的推动下,最终进行实践学习,根据每个人的学习动机.性格.学习习惯,每个人学习二外的方法不尽相同.就我观察身边同学以及一些文献资料的叙述,学习二外的方法大致分为以下三种:自主学 ...
370林梓妍：大学生学习“二外”的特别考虑

关键词:大学生:"二外":特别考虑摘要:跟第一外国语的学习相比,大学生在"二外"学习中会有一些特别的考虑.其一是考虑到"竞争",即个人兴 ...
2019年元宵之夜（外一首）

2019年元宵之夜(外一首) 作者|蒙晓云窗外阳光明媚放下手中的碗筷驱车去到中屯约起一个妙龄的少女朝着灯光灿烂辉煌的夜郎西方向一路狂奔月光下正遇二人玩球兴起捡起球来欲想跳投三分 ...
2019时代楷模人物学习李恒英先进事迹心得体会范文5篇

通过学习李恒英先进事迹,让我们明白了生命的意义,也让我懂得了使命的伟大,下面是学习李恒英先进事迹心得体会,李恒英用近鲐背的年龄.用瘦弱的身躯.用她的先进事迹在向我们诠释什么叫奋斗.什么叫人生.什么叫精 ...

【ACL 2019】Few-shot Learning学习词表外的词表示

相关推荐