深度学习领域，你心目中 idea 最惊艳的论文是哪篇？

2024-05-06 13:56:29

前2个是NLP领域的基础工作，早已“走向世界”，在CV，ASR中有了广泛应用。后3个基于前两项工作进行了创新和推广，在语义解析子任务Text2SQL上大放光彩。

提出Transformer模块的论文《Attention is all you need》想必NLPer不能再熟悉了吧，最初在机器翻译领域被证明效果显著，随后几乎通吃了NLP各项下游任务，并在CV和ASR等领域中取得了显著成果。

传统CNN网络受限于局部感受野，卷积核无法捕捉全局特征；RNN/LSTM网络由于自回归结构，虽然可以建模长距离依赖却无法并行计算，且容易产生梯度消失与爆炸问题。而基于自注意力机制的Transformer模块，通过引入n*n(n表示序列长度)的Attention矩阵，虽然将空间复杂度提升为，却巧妙避开了CNN/RNN各自的不足。

从17年发表到今天，该篇paper引用量已经突破22,000次，在多个领域绽放光彩，有可能在今后成为大一统模型。

相比于Word2Vec/Glove等传统词向量，以双向Transformer为核心的预训练语言模型BERT绝对是核弹级改进武器。

一方面，BERT及其众多后续工作(ERNIE，RoBERTa等)，颠覆了NLP界的游戏规则，在众多下游任务频繁刷新SOTA。另一方面，BERT的出现大幅降低了NLP的入门门槛，了解并会使用BERT，很多传统NLP任务已经被解决的八九不离十。

为什么BERT效果会这么好呢？这本质上得益于论文中创新性提出的“MLM”预训练任务。

BERT本质上是一个自编码语言模型，为了能见多识广，BERT使用3亿多词语训练，采用12层双向Transformer架构。其主要训练目标，是被称为掩码语言模型的MLM。即输入一句话，给其中15%的字打上“mask”标记，经过Embedding输入和12层Transformer深度理解，来预测“mask”标记原本是哪个字。

input: 欲把西[mask]比西子，淡[mask]浓抹总相宜output: 欲把西[湖]比西子，淡[妆]浓抹总相宜

例如我们输入“欲把西[mask]比西子，淡[mask]浓抹总相宜”给BERT，它需要根据没有被“mask”的上下文，预测出掩盖的地方是“湖”和“妆”。

MLM任务的灵感来自于人类做完形填空。挖去文章中的某些片段，需要通过上下文理解来猜测这些被掩盖位置原先的内容。

对BERT还不熟悉或0基础的同学，推荐你阅读另一篇文章：如何通俗易懂地让女朋友明白什么是语言模型？

从18年底提出至今，BERT论文引用量突破了20,000次。它和Transformer都是非常经典出色的论文，值得每一位从事深度学习工作的同学好好阅读。

X-SQL和M-SQL，RAT-SQL都是NLP语义解析子任务Text2SQL的代表性工作。

Text2SQL任务是将用户的自然语言直接转换为相应的SQL序列，自动完成查表工作。它打破了人与结构化数据库之间的壁垒，具有很强的应用&研究价值。

X-SQL是最早将预训练语言模型引入该领域的工作之一，既使用了BERT来增强文本与数据库模式(如列名)的联合编码，又巧妙利用了SQL的语法规则，将SQL序列拆分为多个片段。

通过Multi-Task结构，X-SQL显著降低了SQL解码难度，提升了生成结果的可控性，在第一个大规模标注的Text2SQL数据集WikiSQL上获得了SOTA。

M-SQL是首个基于中文Text2SQL数据集并取得了SOTA的工作，它的整体思路和前辈X-SQL一脉相承，类似的Multi-Task框架，Encoder-Decoder结构；同时完善了SQL模版，可以支持更加复杂的查询条件。

M-SQL各个子任务在TableQA上都取得了超过95%的准确率，最终SQL生成准确率超过了90%，为Text2SQL在实际业务中落地带来了可能。

其中，仅在编码器中使用BERT代替word2vec，就带来了超过10%的绝对提升，证明了预训练语言模型强大的编码能力，即使是在文本和表格的跨模态任务中，也有出色表现。

RAT-SQL是去年微软研究院的工作，曾经在Text2SQL最权威的榜单Spider上霸榜半年之久。

RAT-SQL也是Encoder-Decoder的思路，其中在编码器中除了引入BERT，还额外使用了关系敏感型注意力机制，来显式编码文本token和数据库表名、列名间存在的关系。

例如上图Query中的“青秀南城百货”和数据库中的“商户名称”有对应关系，模型在生成SQL前会捕捉这种关系来辅助解码。

解码器部分，RAT-SQL采用了抽象语法树，把SQL关键字(SELECT, WHERE, ...)和表名、列名等抽象为树的结点，最终递归生成SQL的过程相当于对语法树做了一次深度优先搜索(DST)。

我们发现，这些效果优异的模型往往同时结合了神经网络和规则，既利用了神经网络的深层特征提取能力，又借助规则压缩搜索空间，提高输出结果的可控性，是一种非常robust的思路。

(12条消息) 一文读懂BERT(原理篇)

一文读懂BERT(原理篇) 2018年的10月11日,Google发布的论文<Pre-training of Deep Bidirectional Transformers for Langua ...
论文解读：Bert原理深入浅出

Bert 自 Google 于 2018 年发表至今,一直给人们带来惊喜,期间也陆陆续续因为Bert出现的原因多了不少新的岗位,甚至公司 JD 上都明确表明必须懂 Bert. 它在 11 项自然语言处 ...
ICLR 2020 | NLP 预训练模型的全新范式：对比学习

生成式模型有着其天生的优势,即学习到丰富的特征,但它也有广受诟病的确定.判别式目标函数--长期以来被认为是无用的.这是因为,判别式模型通常不是直接拟合原有的分布流形,学习到的特征较为单一.但是,最近一 ...
ICLR 2020 | 用ELECTRA实现更高效的NLP模型预训练

背景题目:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators 机构:斯坦福.Google Bra ...
如何通俗易懂地让女朋友明白什么是语言模型？

深度学习自然语言处理一个热衷于深度学习与NLP前沿技术的平台,期待在知识的殿堂与你相遇~ 154篇原创内容公众号来自:NLP情报局
预训练模型最新综述：过去、现在和未来

©PaperWeekly 原创 · 作者 | 王馨月学校 | 四川大学本科生研究方向 | 自然语言处理 BERT.GPT 等大规模预训练模型(PTM)最近取得了巨大成功,成为人工智能领域的里程碑. ...
【NLP】深入浅出解析BERT原理及其表征的内容

本篇介绍目前NLP领域里影响力最大的预训练模型BERT.首先,大致介绍了BERT里有什么:接着,介绍了BERT的结构和其预训练的方式:最后,再总结BERT的表征的内容和分布. 作者&编辑 | ...
深度学习领域最常用的10个激活函数，一文详解数学原理及优缺点

激活函数是神经网络模型重要的组成部分,本文作者Sukanya Bag从激活函数的数学原理出发,详解了十种激活函数的优缺点. >>>> 激活函数(Activation Funct ...
【发表论文】潘书朋：深度学习在物理学科中的落脚（2016.10）

深度学习在物理学科中的落脚山东省莱州市玉皇中学潘书朋摘要:目前很多学生的学习方式其实还是属于"浅层学习"的范畴,"不会学习"已经成了很多学生学习 ...
第二期B站录播之深度学习在3D场景中的应用

大家好,上周李子宽同学在线上介绍三维模型检索技术的背景与应用价值.介绍目前常见的检索算法并主要介绍其中旋转不变球谐描述子的特点与细节.本周是来自ETU的闫守志同学分享深度学习在3D场景中的应用,观看人 ...
线上分享会预告之深度学习在3D场景中的应用

大家好.上周我们迎来了第一期的线上分享,三维模型检索技术介绍,此次分享是一次接力形式的分享,每周都将有一位主讲人分享,希望更多的小伙伴加入我们一起分享,也是给自己一个机会锻炼.这里先预告一下,线上直播 ...
Nat Biotech｜北京大学谢正伟：利用深度学习从转录谱中预测药效

文章来源于微信公众号智药邦(ID:PHAIMUS) 2021年6月17日,来自北京大学医学部的谢正伟团队在Nature Biotechnology (IF=36.6)在线发表论文"Pred ...
王尚志教授：深度学习-主题教学实施中几个问题

高中数学解题研究群:414652933
【百家稷学】深度学习在计算摄影中的方法与应用（vivo技术分享）

本次主题聚焦深度学习在摄影图像处理中的算法,内容涉及计算摄影概念和潜在应用,图像降噪与增强,去模糊与超分,景深与对焦等内容. 配套资料本次非公开技术分享,因此不对外提供技术资料下载,只提供给有三AI ...
8500+观看的缺陷检测干货！全球冠军团队全面剖析深度学习在工业检测中的应用（PPT+视频）

阿里FashionAI全球挑战赛服饰属性标签识别冠军雪浪制造AI挑战赛布匹疵点智能识别冠军广东工业制造大数据大赛铝型材表面瑕疵识别亚军相信做过视觉算法竞赛的小伙伴都对禾思众成这支冠军团队不陌生 ...
CPFS在深度学习领域的实践

随着数据量的爆发式增长和计算能力的不断提升,以及在算法上的不断突破,人工智能和其支持的深度学习计算模型取得了突飞猛进的发展. 2025年AI成为产业升级和经济转型的主要动力,2030年,中国要成为世界 ...

深度学习领域，你心目中 idea 最惊艳的论文是哪篇？

相关推荐