用实力说话,科大讯飞包揽同声传译三项冠军!
在2021年国际口语机器翻译评测比赛(简称IWSLT)中,科大讯飞与中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队在同声传译任务中包揽三个赛道的冠军!
这到底有多“牛”?
说个背景简单科普一下:
IWSLT作为国际上最具影响力的口语机器翻译评测比赛,已经举办了18年,每年都会有不同的语音翻译类比赛任务。
在今年,IWSLT共设置了4类任务,其中包括同传任务,为考察不同语言对语序的影响以及语音同声传译整体性能,在本次同声传译任务中设置了三个赛道:
英德文本同传:实时地将英语文本翻译为德语文本,输入按词逐个读入,系统判断何时翻译与输出;
英日文本同传:考虑语序差异较大的语种,实时地英语文本翻译为日语文本;
英德语音同传:实时地将英语语音直接翻译成德语文本。
并通过“翻译质量”和“翻译延迟”两个维度来进行评测,以下是英德文本同传比赛结果:
▲英德文本同传的结果截图
UEDIN:英国爱丁堡大学
USTC-NESLIP:科大讯飞-中科大联合团队
APPTEK:AppTek(德国)
VOLCTRANS:字节跳动火山翻译团队
讯飞在低中高三个延迟区间上都显著优于其他系统(注意图中红色小星星的位置),并拿下了全部赛道的冠军!尤其是低延迟环境下的进展,将进一步推动机器同传的商业落地。
▲左右滑动查看成绩截图
依次为:英德文本同传效果排名、英日文本同传效果排名、英德语音同传效果排名
我们是怎么做到的?
一个关键原因是,我们创新性地提出了Cross Attention Augmented Transducer(CAAT)同传架构,基于这一框架实现,可以更好地实现翻译效果和延迟的平衡,其模型结构如下:
针对同传任务中翻译质量和延迟这两个评价目标,借鉴语音识别中针对多路径的优化方式,实现了将动态决策和翻译效果进行联合优化,从而在延迟-翻译质量之间找到了更好的平衡。
怎么理解这句话呢?
举个栗子:
“你好,他问一下火车站在哪儿?”
当机器去听这句话的时候,这些是逐词输入到机器的“脑袋”里的,在输入的过程中,机器就需要根据自己的模型和策略来做翻译决策。
目前经典的机器翻译技术,翻译策略通常是固定出现N个词之后开始翻译。
例如固定词数量是2个,机器在读到第二个词“他”时,输出第一个词“你好,”的翻译结果,即输出“Hello”;接下来每次读一个词,输出一个词,读入“问”,然后输出“he”,依次类推。当机器看完源端信息时,会把所有结果一次性输出。这种策略针对同传的两个指标是选择固定延迟,优化翻译效果,比较机械,很容易造成直译或预测错误问题,尤其是在低延迟的时候。
而我们的CAAT模型则会根据输入和语语义综合进行分析,当出现“你好”的时候,能够自主分析“你好”是一个相对完整的语义,不论后面接什么单词,它的翻译通常是固定的,则立刻做出决策先翻译出“Hello”,与此同时,它还会根据语义进行自主调序,使得翻译出来的语言能够更地道。
相比目前主流的机器翻译技术,CAAT避免了固定延迟导致的延迟过大或翻译质量下降的问题,在相同延迟下取得翻译质量的显著提升。
除了这一模型结构的创新外,针对任务中语音翻译数据量有限这一问题,我们还从模型融合、数据增强等策略上进行了优化。
总之,经过我们的创新和努力,在寻找到延迟和翻译质量之间更好的平衡点上,我们做到了第一!
我们的技术用在了哪里?
讯飞双屏翻译机
在正反两面屏幕的加持下,可呈现出同传级的实时翻译效果,人们在保持社交距离的同时,还能顺畅地对谈交流。特别是创新研发了会话翻译、录音翻译、演讲翻译、同声字幕等功能,可与手电脑、大屏(电视、投影、会场LED等)实现翻译联动,帮助用户在跨语言汇报工作、提案演讲、远程开会时提供实时语音翻译或同传翻译字幕。
讯飞听见同传
它目前已经可以支持中、英、日、韩、法、西、俄、阿8国语种的实时转写,以及中文到英、日、韩、法、西、俄、德、阿拉伯等国语种的翻译。通过客户端在会议现场或在线会议实现语音实时识别、翻译,内容记录,并将识别和翻译内容形成字幕,实时投屏展示。是一款能够广泛应用于大型高端会议、发布会、展览会等场景的软件产品。
▲讯飞听见同传为WAIC2021提供转写翻译服务
截至目前,讯飞听见同传已服务大会10000 场次,讯飞听见网站及APP为近1500万用户提供智能转写及翻译服务,累计转写时长超3866万小时。
尽管如此,机器同传相比与人工同传来说,有我们不可回避的问题:
机器翻译很容易出现“直译”问题。同时,在语义理解和核心内容的传达上,机器翻译更容易出现识别和翻译错误等问题。
站在包揽IWSLT 2021语音同传任务的三个赛道冠军的基石上,我们将以本次技术突破为全新的起点,进一步提升科大讯飞在语音翻译和机器同传领域的核心竞争力!
为讯飞技术点赞!