作为通用计算引擎的预先培训的Transformer
重磅干货,第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
作者研究了在自然语言上预先训练的变压器的能力,以以最小的微调推广到其他模式-特别是,没有微调自我注意和剩余块的前馈层。作者考虑了这样一个模型,作者称之为冷冻预训练变压器(FPT),并研究了在多种序列分类任务上的微调,包括数值计算、视觉和蛋白质折叠预测。与之前的研究在相同的模式下进行微调相比,作者发现在自然语言上进行预训练可以提高非语言下游任务的性能和计算效率。特别地,作者发现这样的预训练使FPT能够在零射范围内推广到这些模式,匹配在这些任务上完全训练的变压器的性能。
作者采用自然语言数据预处理的转换器模型GPT-2,仅微调线性输入和输出层,以及位置嵌入和层范数参数。作者称这个模型为冷冻预应变变压器。在各种模式的一系列任务中,尽管只微调了变压器模型参数总数的0.1%,没有微调任何自我关注参数,但FPT显示出与训练整个变压器或LSTM模型相当的性能。此外,作者发现FPT模型在训练过程中收敛速度也更快。
作者的结果表明,通过语言模型学习的自我注意层可能具有适合高效通用计算的特性。通过一系列实验,作者试图通过检查预处理机制、体系结构选择、注意力图、泛化能力、模型大小和转换器中不同参数集的重要性来研究为什么语言预处理可以转移到其他模式。
框架结构
冷冻预应变变压器,自我关注和前馈层被冻结
给定这些参数的廉价线性缩放,大型变压器模型的参数计数由二次(in ndimand l)自关注和前馈层控制。对于具有124兆参数的基本CIFAR-10型号,这些参数约占网络的0.086%。由于这种比例关系,这个数字随着模型尺寸的增大而减小。
请注意,至关重要的是,模型中令牌之间的所有通信都被冻结。每个数据点中的数据被分成离散的标记(位、图像块、氨基酸等)。),并且只能通过冻结的注意连接相互参照,这是没有经过训练的;此外,输出层和输入层都没有连接到多个令牌。作者的主要研究是分析语言模型中已经固有的计算,因此作者在下游模态上学习的计算量最小。
实验结果
在位异或上,模型必须产生两个按顺序呈现的位串的元素异或(输入0-4是第一个位串,输入5-9是第二个)。每个令牌都是一位。FPT学习在位置上关注由输出令牌异或的两个位。
在位存储器上,给定一个字符串(输入100-119)的屏蔽版本,模型必须返回五个字符串(输入0-99)中的一个。每个令牌50位。FPT学会基于找到输入的相似性来处理正确的字符串,而不是像位异或那样仅仅依赖位置。
结论
作者建议为非语言形式的下游任务转移一个预训练的转换器语言模型。通过广泛的经验评估,作者表明这些模型可以实现与完全在下游任务上训练的变压器相竞争的性能,而无需微调自关注层和前馈层,仅依靠语言模型的冻结参数来执行大部分计算。
作者认为,这项工作可以作为今后研究模式间转移的基础。在未来,作者有兴趣研究使用其他数据丰富的模式(例如,视觉)或多个领域的混合,用于为预处理通用计算引擎提供必要的基础。探索预测建模之外的任务的冻结预训练模型也很有意思,例如强化学习(Abramson等人,2020)。
对于现实世界中的高风险应用,使用在大量未标记、未切割数据集上训练的预训练变压器模型,可能存在有害偏差从一种模式转移到另一种模式的潜在问题(盛等人,2019年;Bender等人,2021年)。减轻这些偏见是一个活跃的研究领域(格罗弗等人,2019年;Choi等人,2020年)。相反,FPT模型也有潜在的优点,能够更好地利用一种或多种模式的代表性数据集,这也值得未来的研究。
论文链接:https://arxiv.org/pdf/2103.05247.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -