如何解决神经机器翻译三大关键性问题?清华团队发表NMT最新技术综述

如今,计算机技术渗透人们生活的方方面面,而要说对我们工作学习帮助极大的,机器翻译(machine translation)必须榜上有名。
近年来随着计算机技术的不断提高、AI 系统的日益精进,机器翻译一直为人们所质疑的质量问题,也有了非常显著的改善。其中,神经机器翻译(neural machine translation)技术所作的贡献与创新也是一大研究热点。
近日,清华大学计算机系与智能产业研究院的机器翻译研究团队发表了一篇关于神经机器翻译技术的最新综述论文,文章对神经机器翻译方法进行回顾,并重点介绍与体系结构、解码和数据增强有关的方法,总结了对研究人员有用的资源和工具。最后,还讨论了该领域未来可能的研究方向。清华大学计算机系教授、欧洲科学院外籍院士孙茂松与清华智能产业研究院副院长、国家杰青刘洋是该论文的两位教师作者。
该论文以 “Neural machine translation: A review of methods, resources, and tools” 为题发表在专注 AI 开放获取的新期刊 AI OPEN 上。

神经机器翻译技术的发展

在 70 年的发展历程里,机器翻译经历了从兴起到高峰,从低迷到打开新研究思路的种种变化。

早在 1949 年,美国科学家 Warren Weaver 就首次提出 “使用计算机进行翻译” 的思想,他也被公认为是机器翻译的先驱者之一。1952 年,以色列著名哲学家、语言学家和数学家 Yehoshua Bar-Hillel 组织召开了第一次机器翻译大会。

此后,由于机器翻译质量难以达到要求,其发展在长达 30 年间始终缓慢,直到 1990 年之后,大量的双语、多语语料库给机器翻译注入新鲜血液,统计机器翻译(SMT)应运而生。这期间 IBM 研究人员也发表论文,详细论述了基于词典和转换规则的机器翻译方法和基于平行语料库的实例机器翻译方法。

(来源:GPI)

近些年,基于深度学习的神经机器翻译技术(neural machine translation,简称 NMT)发展迅猛。深度学习由图灵奖得主 Geoffrey Hinton 等人在 2006 年提出,是一种深层的非线性数据处理技术,与传统的浅层次线性处理相比,它在处理模型分析和分类问题上更准确,性能更高。

NMT 与以前的机器翻译方法完全不同,一方面,NMT 在 SMT 中采用连续表示而不是离散符号表示;另一方面,NMT 使用单个大型神经网络对整个翻译过程进行建模,从而无需进行过多的特征工程。而且,NMT 的训练是端到端的(end-to-end),不像 SMT 中需要单独调整组件。除了简单之外,NMT 可适应多种语言之间的翻译,实现最先进的性能。

如何解决三大关键性问题?

综述中,论文作者首先阐释了 NMT 系统的三个关键性问题:

  • 建模(modeling),即如何设计神经网络来对条件分布建模?

  • 推理(inference),即给定源输入,如何从 NMT 模型生成翻译句子?

  • 学习(learning),即如何有效地从数据中学习 NMT 所需的参数?

关于建模,NMT 通常采用编码器 - 解码器框架,由嵌入层 embedding,分类层 classifier,编码器网络 encoder 和解码器网络 decoder 组成。

图 | NMT 体系结构示意图,不同颜色代表不同的语言

因此,构建强大的编码器和解码器对 NMT 性能来说至关重要,其方法大致可分为三类:基于递归神经网络(RNN),基于卷积神经网络(CNN)和基于自注意力网络(SAN)的方法。文章不仅详细阐释了三种方法的机制,还对比了其优点与缺陷,并提出相应的解决办法。例如 RNN 容易出现梯度消失 / 爆炸问题,CNN 接收领域有限较难扩张,SAN 则容易忽略序列中单词的顺序。

图 | RNN、CNN 和 SAN 分别编码序列的方式

关于推理,NMT 通常使用本地搜索算法(例如贪婪搜索或集束搜索)来找到最佳翻译结果。此外,NMT 通常使用最大对数似然(MLE)作为训练目标函数,这是一种估算概率分布参数的常用方法。

图 | 集束搜索算法

除了 NMT 的计算机原理与构建机制,文中还综述了不同的 NMT 研究方法与应用,例如有关使用单语言数据和无监督 NMT 的研究,以及有关提升 NMT 可解释性和鲁棒性的研究。

最后,文中还总结了当前流行的开源 NMT 工具,均可在 GitHub 直接获取。

未来可能的研究方向

尽管 NMT 取得了巨大的成功,但仍有许多问题有待探索,因此,文章列出了 NMT 的一些重要且具有挑战性的问题。

第一,加深对 NMT 的了解。尽管如今已经有很多尝试,试图分析和解释 NMT,但显然,NMT 领域还有许多未 “解锁” 之处。未来,要想窥破 NMT 技术的瓶颈和弱点,弄清 NMT 究竟如何产生其翻译结果显得格外重要。

第二,设计更好的 NMT 模型。目前常见的是 Transformer 体系结构,设计一种比它更加优越、能够平衡翻译性能和计算复杂性的新体系结构,对于 NMT 研究和生产意义重大。

第三,充分利用单语言数据。尽管如今单语言数据取得了显著进步,但 NMT 在利用丰富的单语言数据方面,仍有巨大的上升空间。

第四,对先前的知识进行整合。除了自然语言,将人类其他知识纳入 NMT 也是一个重要的问题。如何实现离散表示和连续表示之间的互相转换一直是 NMT 面临的问题,仍需进一步探讨。

关于 AI OPEN

AI OPEN 于 2020 年 3 月创刊,专注于分享有关人工智能(AI)理论及其应用的可行知识和前瞻性观点。期刊主编为智源研究院学术副院长、清华大学计算机系唐杰教授。

网址:

https://www.sciencedirect.com/journal/ai-open

AI OPEN 免费开放所有文献资源,欢迎有关人工智能及其应用各个方面的研究文章,评论文章,观点,简短交流和技术说明。涵盖的主题包括但不限于:

AI 研究:

  • 深度学习和表示学习

  • 图论与图挖掘

  • 约束,可满足性和搜索

  • 知识表示,推理和逻辑

  • 机器学习和数据挖掘

  • 知识图谱及应用

  • 基于代理和多代理的系统

  • 网络和基于知识的信息系统

  • 自然语言处理(NLP)

  • 图像处理与分析

  • 基于脑的学习

  • 内隐认知与学习

人脑研究:

  • 人脑相关健康 / 疾病 / 社会行为的热门话题

  • 脑连通性和网络建模

  • 脑智能范例

  • 神经信息学

  • 神经影像学学习与记忆

  • 认知与行为

  • 健康数据分析和统计

  • 神经免疫学

  • 睡眠行为

  • 脑深部刺激

参考资料:

https://www.sciencedirect.com/science/article/pii/S2666651020300024

https://www.sciencedirect.com/journal/ai-open

(0)

相关推荐