59年来中国科学家团队再夺冠!字节跳动获ACL年度最高奖项
跟大家分享一个好消息。
8月5日,国际顶级学术会议ACL 2021正式颁发了大会奖项,字节跳动AI Lab的机器翻译技术论文当选今年度“最佳论文”。这是ACL成立59年以来,中国科学家团队第二次赢得最高奖项。此前由中科院计算所主导的研究项目曾被评为ACL 2019“最佳长论文”。
ACL 2021官网页面
ACL2021由国际计算语言学协会举办,是自然语言处理(NLP)与计算语言学领域最高级别的学术会议。本次共有3350篇论文参与评选。除了字节跳动,华为、腾讯、谷歌、微软、亚马逊等科技公司也投递了论文。
自然语言处理被看作是“人工智能皇冠上的明珠”,在机器翻译、搜索引擎、信息流、输入法等领域有着广泛的应用。词表是自然语言处理的基础组件,与词典索引类似,词表预训练模型往往需要耗费大量的时间和能源。
在这次ACL 2021获奖论文中,字节跳动技术团队提出了“面向机器翻译的最佳运输词表学习方案”(Vocabulary Learning via Optimal Transport for Machine Translation,简称VOLT)。研究人员用经济学领域的“边际收益”定义了词表质量的评价指标,然后以数学领域的“最优运输方法”解决最优词表的生成问题。
VOLT伪代码示意图
研究结果显示,VOLT在多种翻译任务上取得了出色的效果。同时,这种方法可以显著减少词表的学习和搜索时间,节约算力资源。
VOLT:绿色环保的词表学习方案
以主流词表BPE为例。业内普遍会通过大量自然语言处理下游任务的训练以寻找最优大小。相比之下,使用VOLT方案可以节省92%的算力,这同时意味着所需电能的大量减少。
巧合的是,伏特(volt)是电学的一个基本单位。可以说,VOLT是一项非常环保的绿色解决方案,在工业应用方面有着巨大潜力,可以成为节能减排的利器。
皮卡丘的招牌动作“十万伏特”
目前,VOLT研究项目已经向全球开发者开源,并将在字节跳动火山翻译业务中逐步落地,为飞书、今日头条等产品和火山引擎的企业级客户提供机器翻译支持。
论文地址:
https://arxiv.org/abs/2012.15671