神经网络语言模型的自适应输入表示

2024-05-17 00:27:01

今天看一篇轻松一点的paper。

在GPU上的高效softmax近似中，我们介绍了超大词表时softmax的优化。

今天介绍的则是将类似的思维应用到input embedding层来的方法。原始论文见参考文献[1]。我认为，这篇论文值得看的点有两个：

自适应的input embedding。
char-level，subword-level, word-level的语言模型间的实验对比。

词表分组

自适应输入表示的做法如下：

将词表按照频次分成若干个组，最频繁的组到最不频繁的组依次标记为1，2，……，n，那么对于第i组而言，它里面的词语的embedding size为d/k^i-1，其中k是常数，论文中设置k=4。

那么这样就相当于输入的词语的embedding size不同了，如何解决呢？就是对于每一个词语组，都做一个线性映射，将它们映射到同样的size。如下图所示：

实验

在开头也提到过，这篇paper，是我见过的第一篇将subword, char, word level的而语言模型放在一起对比的论文，非常有借鉴意义。

跟之前的方法的对比：

不同level的词语输入的对比：

不同词频分组的loss：

按照上一个词的词频来聚合，当前词的loss分组：

可以看到，word-level的语言模型会比char-level, bpe会好，softmax前的矩阵和input embedding矩阵共享参数效果会好。

赞 (0)

【NLP实战系列】Tensorflow命名实体识别实战

实战是学习一门技术最好的方式,也是深入了解一门技术唯一的方式.因此,NLP专栏计划推出一个实战专栏,让有兴趣的同学在看文章之余也可以自己动手试一试. 本篇介绍自然语言处理中一种非常重要的任务:命名实体 ...
不懂word2vec，还敢说自己是做NLP？

选择"星标"公众号重磅干货,第一时间送达! 前言如今,深度学习炙手可热,deep learning在图像处理领域已经取得了长足的进展.随着Google发布word2vec, ...
深入理解YouTube推荐系统算法

去年天池-安泰杯跨境电商智能算法大赛是我初次接触推荐相关的比赛,通过比赛让我对推荐系统有了较为浅显的认识,赛后也是打算系统的学习这方面的内容,此后我也会将[推荐系统]作为一个系列板块进行更新,主打经典 ...
回顾来自哈佛、北大、FACEBOOK 、杜克、字节跳动等的7篇NIPS热点论文

今天小编带大家一起看一下几篇备受关注的AI论文 _ _ 01 _ _ Can Unconditional Language Models Recover Arbitrary Sentences 无条件 ...
大成新闻 | 大成“合同机器人”上线——利用共享社区，造就基于神经网络的自适应专家系统

历时近一年的坚守建设,我们"悄悄地"把这颗种子酝酿成果实--大成拥有自主知识产权的"合同机器人",今日面向大成中国区全员上线了! 一.行业痛点之思律师文档 ...
DL之DNN：基于自定义数据集利用深度神经网络(输入层(10个unit)→2个隐藏层(10个unit)→输出层1个unit)实现回归预测实现代码

DL之DNN:基于自定义数据集利用深度神经网络(输入层(10个unit)→2个隐藏层(10个unit)→输出层1个unit)实现回归预测实现代码基于自定义数据集利用深度神经网络(输入层(10个uni ...
学术简报｜基于MOSFET外特性参量的自适应模糊神经网络状态评估模型

摘要输配电装备及系统安全与新技术国家重点实验室(重庆大学).国网四川省电力公司成都市青白江供电分公司.重庆车辆检测研究院有限公司的研究人员王月月.陈民铀等,在2018年第18期<电工技术学报& ...
NeurIPS 2020 | Glance and Focus: 通用、高效的神经网络自适应推理框架...

作者:清华大学自动化系直博二年级王语霖 NeurlPS 2020 文章专题第·3·期 NeurlPS 2020工作分享火热报名中... 投稿方式: ① 点击文末"阅读原文" ② ...
Word输入带圈数字①②③的各种方法，20以上带圈数字也能输入

Word输入带圈数字①②③的各种方法，20以上带圈数字也能输入
基于梯度阈值自适应处理的红外图像超分辨率重建

0 引言高分辨率成像是图像处理环节进行有效信息提取和分析的重要前提.然而,实际成像系统获取的图像空间分辨率往往不能满足信息处理的需求,这种现象在红外成像领域更为普遍[1]. 目前,国内外报道了大量超 ...
神经网络RNN图解！

方向:神经网络,来源:人工智能与算法学习神经网络是深度学习的载体,而神经网络模型中,最经典非RNN模型所属,尽管它不完美,但它具有学习历史信息的能力.后面不管是encode-decode 框架,还是 ...
打开这里，输入对方手机号码就能知道他的实时位置，非常实用

打开这里，输入对方手机号码就能知道他的实时位置，非常实用
人工智能中图神经网络GNN是什么？

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容公众号点上方人工智能算法与Python大数据获取更多干货在右上 ...