理解多任务学习中的信息迁移

今天来看一篇多任务学习中比较基础的研究,参考文献[1]通过构建多种任务以及不同的设置,得到了一些很实用的结论。

参考文献[1]是ICLR 2020的论文。

在多任务学习中,有的时候,两种数据组合能达到互相增强的正向效果,有的时候则是负向效果。那么什么时候能够产生正向效果,什么时候是负向的?有没有可能通过某种方式保证正向呢?

问题

为了对以上问题做研究,使用的模型是共享参数模块+任务特化模块。如下图所示:

同时做了一个简单的实验来展现上面提到的问题确实存在。如下图所示,Task是一个简单的平面分类任务,其中Task2和Task3有相同的分类线,但数据分布不同,这个时候让它们分别和Task1和Task2组合,得到的结果一个正向一个负向。

Overall

论文从三个方面对问题进行了分析:

  • 共享参数模块的模型容量
  • 不同任务间输入相似性
  • 每个任务的权重

模型容量最基础,如果模型容量过大,那么任务间不会相互影响;如果模型容量太小,则可能有负向影响。

在输入方面,论文提出了一种可以衡量任务对齐程度的指标。通过变换这个对齐程度,分别可以得到正向和负向效果。然后基于这个指标,提出了一种变换方法,能够保证一个任务可以肯定对另一个任务有正向效果。

最后,提出了一种计算任务权重的方法。

模型设置

mi代表第i个任务的样本数,它的输入是Xi,输入的shape是mi x d。yi是label,是长度为mi的向量。

模型则是使用最简单的全连接模型,如下:

其中,B是dxr的矩阵,A是长度为r的向量。L则是损失函数,如平方差损失。

如果不同的任务有不同的权重,那么公式如下:

这个共享+特化的模式很有代表性,比如共享参数部分可以是Bert,特化部分是全连接。

在论文中,专注两项任务,一种是线性模型,y = Xθ + ε. 其中ε是从正态分布中得到的噪音。一种是ReLU模型,y=a*ReLU(Xθ) + ε.

模型容量

上面这个模型设置下,其实很容易可以用共享参数模块的输出尺寸r来代表模型容量。

如果是线性模型,那么上面的公式变成:

此时,有最优解:

所以,对于每个任务来说,r=1都足够了。

而当r>=k时,可以让参数B的r个列中的k个列是针对每个任务的最优值,然后特化模型只需要选择对应的索引就可以了,此时任务之间的参数不会有相互影响。

所以,当参数共享的模块容量足够大的时候,多任务中的每个任务可以是互相不影响的。而如果容量太小,则会因为参数不足而产生差的影响。

输入相似性

下图对比了相似数据和不相似数据与source task的样本个数的关系。

红线代表相似数据,绿线代表不相似数据。可以看到,当数据不相似的时候,增加原任务的样本数有助于缓解。论文对到底需要加多少数据在原任务上做了理论证明,感兴趣的可以看原始论文,这里不赘述了。

论文发现了数据的几何信息可以用XTX来捕捉,进一步的,提出了衡量相似度的方法:

  • 计算信息矩阵:XTX
  • 做best rank-r1近似,将上面的矩阵分解成U1,rD1,rU1,rT,其中r被在包括99%的奇异值的位置选择。
  • 对两个任务分别做上面两步,然后用下面的公式计算。

这个公式具有列变换不变性。

还提出了一种基于梯度下降的数据对齐方法:

通过一个矩阵转换,可以将数据从不相似变成相似,进而在multi-task的时候,能够提升效果。

任务权重

什么时候任务权重加上之后会有效?答案是当一个任务比另一个任务的噪音更大的时候。

于是,论文设置了多个线性任务,其中任务有相同的输入,但是不同的label。基于这个设置,得到的定理三

并基于此,得到了基于SVD的计算权重的方法,其基本思想是如果task i的噪音比较大,那么它的熵就会小,通过SVD可以尝试移除这个noise。

这块没有看太明白,所以定理直接贴的原文。

实验

对于数据相似性转换来说,在Bert和LSTM上做了实验,对embedding做了处理,如下图所示:

应用algorithm 1之后,在GLUE和文本分类上的效果如下:

总体来看,变好的多。

做了变换后,输入相似度也有显著提升。

在模型容量上,对MTL做了grid search,模型尺寸从5搜到500,发现100最好,

单任务上最好效果的模型尺寸则不定,如下图所示:

而在权重调整上,在ChestX-ray14上做了权重实验,AUC可以减低0.4%。

参考文献

  • [1]. Wu, S., Zhang, H. R., & Ré, C. (2020). Understanding and improving information transfer in multi-task learning. arXiv preprint arXiv:2005.00944.
(0)

相关推荐

  • ICLR 2020 | 预训练图神经网络模型

    原文:Strategies for Pre-training Graph neural networks 预训练是通过大量无标注的数据进行模型的训练,得到一套模型参数,利用这套参数对模型进行初始化,再 ...

  • 写作神器还是魔鬼化身?万能语言模型GPT-3起底

    「工程壮举」「人间奇迹」GPT-3,会让人类离没事做又近一步吗? 编译 |  心缘 编辑 |  漠影 2020年6月,在训练约2000亿个单词.烧掉几千万美元后,史上最强大AI模型GPT-3一炮而红. ...

  • 作为通用计算引擎的预先培训的Transformer

    重磅干货,第一时间送达 小黑导读 论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

  • 算力限制场景下的目标检测实战浅谈

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

  • 【AutoML】如何选择最合适的数据增强操作

    大家好,欢迎来到专栏<AutoML>.在这个专栏中,我们会讲述AutoML技术在深度学习中的应用.这一期讲述在数据增强中的应用,这也是AutoML技术最早期的应用之一. 作者&编辑 ...

  • 外语学习中的母语迁移

    2020-12-31 14:01:31 来源:中国社会科学报国家社科基金专刊蔡金亭作者系国家社科基金青年项目"中国大学生英语产出中的母语迁移历时研究"负责人.上海财经大学教授无论学 ...

  • 透过新视角理解深度学习中的泛化

    文 / Google Research 团队 Hanie Sedghi 和哈佛大学 Preetum Nakkiran 如何理解泛化是深度学习领域尚未解决的基础问题之一.为什么使用有限训练数据集优化模型 ...

  • 迁移学习中的负迁移:综述

    更多技术干货第一时间送达 导读 迁移移学习(TL)试图利用来自一个或多个源域的数据或知识来促进目标域的学习.由于标记成本.隐私问题等原因,当目标域只有很少或没有标记数据时,它特别有用. 不过,TL的有 ...

  • 10分钟理解深度学习中的~卷积~

    今年来深度学习中的卷积神经网络(上图是一个卷积神经网络形态)技术开始显现威力,通过简单的几行代码就能实现对图片.视频等信息的处理.学习和预测. 然而,理解卷积神经网络,特别是对于第一次接触深度学习领域 ...

  • 蔡金亭:外语学习中的母语迁移

    2020年01月08日14:47来源:中国社会科学报国家社科基金专刊作者系国家社科基金青年项目"中国大学生英语产出中的母语迁移历时研究"负责人.上海财经大学教授无论学习何种外语,我 ...

  • 对迁移学习中域适应的理解和3种技术的介绍

    作者:Harsh Maheshwari 编译:ronghuaiyang 导读 我们的目标是在一个标签可用的数据集(源)上训练神经网络,并在另一个标签不可用的数据集(目标)上保证良好的性能. 域适应是计 ...

  • 奇门遁甲知识 | 学习移星换斗法风水调理以及十天干在奇门遁甲风水预测中的信息类象

    移星换斗是将最好的宫位换到门上,不一定是日乾宫换到门上,还要看你,主要想处理什麽事,如想发财就看生门.预测的时候没有到现场,测风水就用值使门当他家的门,把周围的环境说出来即可. 到了现场再起局,这个局 ...

  • 学习民法典:如何理解侵权责任中“民事自助行为”(1177)

    自助行为 [法律条文] 第一千一百七十七条 合法权益受到侵害,情况紧迫且不能及时获得国家机关保护,不立即采取措施将使其合法权益受到难以弥补的损害的,受害人可以在保护自己合法权益的必要范围内采取扣留侵权 ...

  • 学习PHP中的信息格式化操作

    学习PHP中的信息格式化操作 在国际化组件的学习过程中,我们已经接触过了 NumberFormatter 这种数字的格式化操作,它可以让我们将数字转换成标准格式.货币.本地语言等形式.今天我们来学习的 ...