【金猿技术展】镜像生成式神经机器翻译模型——MGNMT
火山引擎技术
大数据产业创新服务媒体
——聚焦数据 · 改变商业
背景和动机:目前机器翻译模型需要在大量的双语平行数据上训练,从而得到不错的性能。然而,在很多低资源的场景中,双语平行数据是非常稀缺的,例如低资源的语向(如印地语-泰语)或低资源的领域场景(如社交网络或小说)。在这样的场景中,1)双语平行数据非常珍贵,需要更高效地利用;2)由于双语数据稀缺,如何能利用大规模的非平行的单语数据就非常重要。然而,目前的机器翻译模型存在以下问题,阻碍了机器翻译在上述低资源场景中的应用:
目前机器翻译模型将两个方向分开进行优化,比如中文到英文和英文到中文是完全独立的两个模型。但是实际上,这两个互为镜像翻译方向是高度相关的。如果能利用它们的相关性,可以让它们在训练的时候相互促进。
直觉上,如果你是中文和英文的 native speaker,你很自然地可以成为中英之间很好的 translator。语言模型可以从单语数据上学到丰富的单语知识(即 native speaker),而目前的机器翻译模型没有办法直接地结合语言模型,因此不能够利用到语言模型学到的单语知识。如果我们能让翻译模型和语言模型结合,它们就可以相互配合,在训练的时候可以利用单语数据,在解码的时候利用语言模型的单语知识。
因此,我们希望能有一个统一的模型,可以同时建模两个翻译方向的翻译模型,以及两个语言的语言模型,让他们在训练和解码的时候最大化对双语数据和单语数据的有效利用。
应用:MGNMT 通过镜像生成方式,可以将两个方向的翻译融合到一个模型里面,互相促进和提升,已经广泛应用到火山翻译项目中。
1.通过一个共享的隐变量,将两个翻译方向的翻译模型和两个语言的语言模型结合在同一个概率模型中。数学上非常优雅,实践中可以充分利用双语平行数据和单语数据。
2.两个翻译方向在训练的时候相互促进,带来显著提升。
训练时,通过隐变量建模了互为译文的双语数据的语义等价性,让两个翻译方向的模型可以更好地利用双语平行数据;同时,通过隐变量作为中间桥梁,任意一方的单语数据都可以同时帮助到两个翻译方向的模型,从而也更好地利用了单语数据。
3.语言模型和翻译模型在解码的时候相互协作,可以显著提升翻译质量。
在解码时,正向翻译模型和目标语言模型首先使用柱搜索(beam search)进行协同解码,得到多个候选译文;随后反向翻译模型和源语言语言模型对候选译文进行排序,选择出最忠实于原文语义的最佳译文。
●带队负责人:郑在翔、周浩
郑在翔,南京大学自然语言处理实验室在读博士生,曾在英国爱丁堡大学自然语言处理组进行一年的学术访问,目前在字节跳动AI Lab 从事 NLP 研究。他的主要研究兴趣为神经机器翻译、文本生成和深度生成模型,并以第一作者/主要作者在 ICLR、TACL、EMNLP、IJCAI、TASLP 等自然语言处理/机器学习的期刊会议上发表论文数篇。
周浩,字节跳动人工智能实验室研究员。周浩于2017年博士毕业于南京大学,获得南京大学优秀博士论文和中国人工智能学会优秀博士论文。他的研究方向包括机器学习及其在自然语言处理中的应用。目前他主要关注将深度生成模型应用在自然语言处理中,包括文本生成和深度文本表示学习。他曾多次担任顶级会议的程序委员会成员,在相关会议包括ACL, EMNLP, NeurIPS, ICML和ICLR上发表论文40余篇,并多次在国内外自然语言处理的顶级会议上做Tutorial报告。
●其他重要成员:郑在翔、周浩、李磊
●隶属机构:火山引擎
火山引擎是字节跳动旗下的数字服务与智能科技品牌,基于公司服务数亿用户的大数据、人工智能和基础服务等技术能力,为企业提供系统化的全链路解决方案,助力企业务实地创新,给企业带来持续、快速增长。
ICLR 审稿意见满分 (4.9%)