用实力说话，科大讯飞包揽同声传译三项冠军！

2024-06-24 13:53:03

在2021年国际口语机器翻译评测比赛（简称IWSLT）中，科大讯飞与中科大语音及语言信息处理国家工程实验室（USTC-NELSLIP）联合团队在同声传译任务中包揽三个赛道的冠军！

这到底有多“牛”？

说个背景简单科普一下：

IWSLT作为国际上最具影响力的口语机器翻译评测比赛，已经举办了18年，每年都会有不同的语音翻译类比赛任务。

在今年，IWSLT共设置了4类任务，其中包括同传任务，为考察不同语言对语序的影响以及语音同声传译整体性能，在本次同声传译任务中设置了三个赛道：

英德文本同传：实时地将英语文本翻译为德语文本，输入按词逐个读入，系统判断何时翻译与输出；
英日文本同传：考虑语序差异较大的语种，实时地英语文本翻译为日语文本；
英德语音同传：实时地将英语语音直接翻译成德语文本。

并通过“翻译质量”和“翻译延迟”两个维度来进行评测，以下是英德文本同传比赛结果：

▲英德文本同传的结果截图

UEDIN：英国爱丁堡大学

USTC-NESLIP：科大讯飞-中科大联合团队

APPTEK：AppTek（德国）

VOLCTRANS：字节跳动火山翻译团队

讯飞在低中高三个延迟区间上都显著优于其他系统（注意图中红色小星星的位置），并拿下了全部赛道的冠军！尤其是低延迟环境下的进展，将进一步推动机器同传的商业落地。

三个赛道详细的比赛结果如下：

▲左右滑动查看成绩截图

依次为：英德文本同传效果排名、英日文本同传效果排名、英德语音同传效果排名

我们是怎么做到的？

一个关键原因是，我们创新性地提出了Cross Attention Augmented Transducer（CAAT）同传架构，基于这一框架实现，可以更好地实现翻译效果和延迟的平衡，其模型结构如下：

针对同传任务中翻译质量和延迟这两个评价目标，借鉴语音识别中针对多路径的优化方式，实现了将动态决策和翻译效果进行联合优化，从而在延迟-翻译质量之间找到了更好的平衡。

怎么理解这句话呢？

举个栗子：

“你好，他问一下火车站在哪儿？”

当机器去听这句话的时候，这些是逐词输入到机器的“脑袋”里的，在输入的过程中，机器就需要根据自己的模型和策略来做翻译决策。

目前经典的机器翻译技术，翻译策略通常是固定出现N个词之后开始翻译。

例如固定词数量是2个，机器在读到第二个词“他”时，输出第一个词“你好，”的翻译结果，即输出“Hello”；接下来每次读一个词，输出一个词，读入“问”，然后输出“he”，依次类推。当机器看完源端信息时，会把所有结果一次性输出。这种策略针对同传的两个指标是选择固定延迟，优化翻译效果，比较机械，很容易造成直译或预测错误问题，尤其是在低延迟的时候。

而我们的CAAT模型则会根据输入和语语义综合进行分析，当出现“你好”的时候，能够自主分析“你好”是一个相对完整的语义，不论后面接什么单词，它的翻译通常是固定的，则立刻做出决策先翻译出“Hello”，与此同时，它还会根据语义进行自主调序，使得翻译出来的语言能够更地道。

▲具体翻译策略大概会是图里的这样

相比目前主流的机器翻译技术，CAAT避免了固定延迟导致的延迟过大或翻译质量下降的问题，在相同延迟下取得翻译质量的显著提升。

除了这一模型结构的创新外，针对任务中语音翻译数据量有限这一问题，我们还从模型融合、数据增强等策略上进行了优化。

总之，经过我们的创新和努力，在寻找到延迟和翻译质量之间更好的平衡点上，我们做到了第一！

我们的技术用在了哪里？

讯飞双屏翻译机

在正反两面屏幕的加持下，可呈现出同传级的实时翻译效果，人们在保持社交距离的同时，还能顺畅地对谈交流。特别是创新研发了会话翻译、录音翻译、演讲翻译、同声字幕等功能，可与手电脑、大屏（电视、投影、会场LED等）实现翻译联动，帮助用户在跨语言汇报工作、提案演讲、远程开会时提供实时语音翻译或同传翻译字幕。

讯飞听见同传

它目前已经可以支持中、英、日、韩、法、西、俄、阿8国语种的实时转写，以及中文到英、日、韩、法、西、俄、德、阿拉伯等国语种的翻译。通过客户端在会议现场或在线会议实现语音实时识别、翻译，内容记录，并将识别和翻译内容形成字幕，实时投屏展示。是一款能够广泛应用于大型高端会议、发布会、展览会等场景的软件产品。

▲讯飞听见同传为WAIC2021提供转写翻译服务

截至目前，讯飞听见同传已服务大会10000 场次，讯飞听见网站及APP为近1500万用户提供智能转写及翻译服务，累计转写时长超3866万小时。

尽管如此，机器同传相比与人工同传来说，有我们不可回避的问题：

机器翻译很容易出现“直译”问题。同时，在语义理解和核心内容的传达上，机器翻译更容易出现识别和翻译错误等问题。

站在包揽IWSLT 2021语音同传任务的三个赛道冠军的基石上，我们将以本次技术突破为全新的起点，进一步提升科大讯飞在语音翻译和机器同传领域的核心竞争力！

为讯飞技术点赞！

捧起同声传译圣杯的AI：向人类偷师、与人类共事

是圣杯,自然少不了挑战者.除了孜孜不倦的独角兽,微软.百度.谷歌等海内外的AI大厂也都在不断攻克这项难题.最近百度新推出的即时机器翻译系统,可以说是给出了一些新的解决思路. 是什么为AI同传送上圣杯? ...
用帽子戏法打破次元壁：当武磊牵手科大讯飞

最近留心体育行业的人会发现,体育界正和AI界产生奇妙的交织. 西班牙当地时间8月5日,科大讯飞旗下消费者产品讯飞翻译机与皇家西班牙人足球俱乐部及武磊签约仪式在巴塞罗那正式举办.自此武磊正式成为科大讯飞 ...
自然语言处理应用技术存在于我们日常生活的哪些方面？

AMiner已发布<自然语言处理研究报告> 微信公众号菜单栏可直接下载研究报告为了方便大家学习,我们特地上线了精简版及详解版. 自然语言处理的研究领域极为广泛,各种分类方式层出不穷,各有 ...
AI翻译替代人工，难！同传译员：饭碗稳得很

上周,在上海接连举行了两场高级别的会议--2018世界人工智能大会和中国国际工业博览会,其主题论坛的屏幕上,除了PPT还多了一个新角色--科大讯飞的讯飞听见,为现场提供语音识别和翻译工作.然而,这场A ...
顶级大会上，AI翻译竟是人工冒充？

挨踢妹的同事参加2018世界人工智能大会时,记得科大讯飞董事长刘庆峰表示,未来翻译将是机器翻译与人工翻译协同发展,而科大讯飞的机器翻译将在明年上半年达到专业八级水平. 然而被事实打脸的是,在大会上所称 ...
AI翻译新应用，百度、网易、科大讯飞的新蓝海?

文/ 智能相对论(ID:aixdlun) 作者/ 离离 "由于汉化组成员身体抱恙,本周暂时停止更新."看到这样的消息,小武叹了口气,默默退出应用程序.这已经是他喜欢的动漫在两个月内 ...
从0到同声传译的逆袭：他自创英语学习法，4天直播课0元领！

人这一辈子走过最长的路是什么? 学英语的弯路. 背单词背语法:到现在还记得四级书的第一个单词abandon: 看剧锻炼听力:最后发现美剧可真是好看!追到停不下来: 报辅导班:几千,几万的钱花进去了,然 ...
同声传译李紫凌老师精彩讲座回顾：从那一刻起，我愿做一个全新的我...

郑尉工作室:1月13日晚,同声传译李紫凌老师结合出国留学和工作经历,在微信群分享了自己英语学习的小秘密,收到很多妈妈称赞.我们对现场讲座语音进行了整理,欢迎大家收藏学习! 李紫凌老师简介本科毕业于华 ...
意大利译员“震惊脸”是假的，10年同声传译为你揭秘

意大利译员“震惊脸”是假的，10年同声传译为你揭秘
4名同声传译，3个语种，带你体验最新型的同声传译形式：线上同传

4名同声传译，3个语种，带你体验最新型的同声传译形式：线上同传
智慧评测｜靠谱吗？398搜狗录音翻译笔体验语音识别与同声传译

5月15日,搜狗 AI 第二款产品--录音翻译笔在京东首发开卖,同样支持全球 17 种语言与中文即时互译,售价 398 元.那么,398的搜狗录音翻译笔的实际应用效果究竟如何呢?今天,胖胖老师就和大家 ...
Science子刊：蜜蜂和鱼700公里隔空“对话”！机器人“同声传译”

导读让自然界中两种毫无交集的动物进行交流,听起来似乎是天方夜谭,但科学就是有这种奇特的能力,让原本不可能的事情变为可能.最近,瑞士洛桑联邦理工学院(EPFL)的移动机器人组织(MOBOTS)就开展了 ...
聊一聊我做同声传译的那些年

来源:搜狐网口述:李玟目前,世界上95%的国际会议采用的都是同声传译的方式.一个学中文的女性,半路出家,选择了同声传译--翻译中级别最高也是最难的职业. 福特锐界PLUS气魄而来广告李玟是一名 ...
我做同声传译那些年！

目前,世界上95%的国际会议采用的都是同声传译的方式.一个学中文的女性,半路出家,选择了同声传译--翻译中级别最高也是最难的职业李玟是一名优秀的同声传译员--国际上最高级别的翻译专业人士.据统计,全 ...
199元！百度发布小度真无线耳机：支持同声传译

将「雷科技Lite」收藏为我的小程序,不再错过精彩内容雷科技资讯组编辑 | 三明治 9月15日讯,今天上午,百度在2020年百度世界大会上,正式发布旗下首款小度人工智能产品--小度真无线智能耳机, ...

用实力说话，科大讯飞包揽同声传译三项冠军！

相关推荐