iOS15上线图片翻译功能，能取代专业翻译软件吗？

2024-06-21 11:21:15

用户可以直接选择照片中要翻译的文本，查看翻译结果。据说苹果还更新了翻译模型，提升了翻译效果。

这就刺激了，如果说几年前神经机器翻译的出现，是许多人类翻译的噩梦，那这个系统内置翻译图片功能的推出，大概能让不少专业翻译软件睡不着觉吧。

就拿我这种需要经常阅读英文资讯的人来说，时常遇到pdf文献、图片类内容，需要第三方软件拍照识别后进行翻译。如果iOS15直接可以识别图片，不就省略了几个步骤吗？简直懒人福音。

那么问题来了，翻译好不好，重点在“疗效”，iOS15的图片翻译能力已经强大到能替代专业翻译软件了吗？要知道，信达雅的中文表达一直是NLP领域的难题，一家带着硅谷基因的科技公司，真能完成地道的中英互译？

本着实践出真知的态度，我们准备了多道考题，并选取了口碑和用户数都相对突出的有道词典APP来参与横向评测，以此来摸索iOS15图片翻译的真实水平。

真心话与大冒险：

图片翻译三步曲

针对翻译功能的专业评测有不少，各种指标诸如短中长句都有详细的评测标准与规范，不过作为普通用户，我们决定从大家日常使用图片翻译的具体场景和步骤中去进行测评。

一般来说，图片中的文字要被精准地翻译出来，需要至少具备三种能力：

第一步：火眼金睛，“看得准”。

图片翻译想要满足用户需求，首先考验的不是NLP技术，而是OCR能力。只有识别得准，才能为后续翻译奠定基础，这一能力的关键考核指标，就是字准率。

从操作上来看，苹果iOS15采用内置方式，可以直接选择照片中要翻译的文本，查看翻译结果；有道词典需要打开app中的拍照识别功能。前者在使用上要更方便一些。不过到了识别环节，iOS15就有些拉胯了。

我们找了一个英文短句、一个英文长句和一个中文长句。结果显示，在英文字准率上，苹果和有道差距不大。

比如，有道100%识别出了原文“Do me a favor, can you look for my credit card.I don't find it.”

iOS15的结果是：Do me a favor.，can you look for my credit card,I don find it.

尽管苹果将don't识别成了don，但不太影响阅读，准确率还是可以接受的。

换个英文长句测试一下，下面这张图片，有道的识别结果是：

One bad chapter doesn't mean my story is over until you find a new chapter which you think it's right，达到了98.96%的字准率。

iOS15的结果是：

One bad chapter t mean my story is over until you find chapter which you think it’l S right。

将it's right 识别成了it'l S right，可能会影响后续的语义理解。

到了中文字准率测试，有道和苹果就拉开差距了。比如下面这张图片：

有道是100%完整识别，苹果iOS15则将“雨水”的雨，“一系列”的一，没有识别出来，倒数第二段的“纪念祖”三个字也被遗漏了，直接影响阅读体验和用户理解。

综合来说，英文字准率二者差距不大，有道略胜一筹；中文字准率上，有道能做到90%以上的精准识别，苹果iOS15只有79%，有道优势明显。

造成这一差距的原因，可能是有道词典在图片翻译上积累更多。

早在5年前有道就开始尝试开发图片翻译功能，后续又通过有道智云为许多主流手机厂商提供相关能力，许多用户会在各种光照条件、各种用法下使用，因此积累了大量训练语料，通过不断迭代段落分析、图片检测、图像偏移角度检测、语种检测等算法，OCR能力自然能得到针对性优化。

加上有道作为中国公司，对中文母语的理解更深，而苹果iOS15刚刚开始广泛推广，在现实场景下的中文识别还有不足，也是可以理解的。

第二步：心如明镜，“搞得懂”。

图片文本识别完成后，就需要神经机器翻译来将其转化成相应的译文。中英文都是语料相对丰富的语种，因此对其理解能力的要求也更高。

所以我们选择了两个比较细节的点来考察：

一是时态。

原文“是的，今天出去玩”，含有计划的意思。

有道翻译为“Yes.we're going out today”；

苹果的译文是：Yes.go out today.

显然，有道采用了“be going ”一般将来时，更准确地理解了原文的意图，表达出了计划、安排、打算做某事的意思，苹果的译文则没能体现出计划的状态。

二是单复数。

英文单词的单复数常常承担着截然不同的释义，如果无法准确识别可能会让译文与原意南辕北辙。

比如这个“1200 square”，有道词典翻译为“1200平方”，苹果iOS15的翻译是“1200个广场”。

square在单数状态下指的是平方单位，苹果的译法很容易让读者产生歧义。

当然，在整体理解上，有道和苹果的中英互译水平都能满足基本的阅读需求。

比如这个长句：

He puts down $20,000 as a deposit on the beautiful $200,000 villa believing that his investment would increase over time.

有道的译文：他为价值20万美元的漂亮别墅付了2万美元的定金，相信他的投资会随着时间的推移而增加。

iOS15的译文：他存了2万美元作为这栋美丽的20万美元别墅的押金，相信他的投资会随着时间的推移而增加。

目前，图片翻译的中文互译，有道和iOS15基本都表现出了较强的理解能力。对一些单词用法、表达习惯上的细节洞察有差距，这背后还是语料积累、模型选择、性能优化等的差异。

第三步：舌灿莲花，“说人话”。

中文翻译，很多人的黄金指标就是“信达雅”，指的是译文要准确，不偏离原文；要通顺，语法结构符合习惯；还要优雅，用语地道而富含文采。

神经机器翻译发展到今天，能否满足这一要求呢？有道和苹果这两个带有不同语言基因的翻译平台，恰好可以调戏一番。

先来一道送分题：

原文：你们收了我80块；

有道译文：You charged me 580；

iOS15译文：You received me 80 yuan。

“收钱”是用charge，有道翻译更符合英文表达，苹果将“收到”直接翻译为receive，不够地道。

再来一道中长句试试：

原文：After the accident，I felt myself another person。

有道译文：事故发生后，我觉得自己变了一个人；

iOS15译文：事故发生后，我觉得自己是另一个人。

苹果将“another person”直接翻译为“另一个人”，而不是表达心态的转变，容易产生歧义，有道译作“变了一个人”，更准确和口语化。

当然，过于直译的问题有道也会犯。比如下面图片中，原文：In conclusion, drawing on the electronic media or printed books might be a good approach to understand different places or countries。

有道译为：总之，利用电子媒体或印刷书籍可能是一个很好的方法来了解不同的地方或国家；

苹果译为：总之，利用电子媒体或印刷书籍可能是了解不同地方或国家的好方法。

iOS15对语序进行调整之后，表达更妥帖自然，有道则出现了按照对应模式直译的情况。

不过，这次测试题主要是基于生活旅游、文化交流场景来进行的，对于专有名词的翻译效果如何，还有待进一步考察。

另外，由于苹果iOS15在第一步OCR识别上字准率较低，这会直接影响后续的文本理解，因此苹果的部分翻译结果数据不具有参考性，对其翻译水平不能妄下定论。

评测可以看出，一次信达雅的图片翻译，依靠的是多技术的融合，需要OCR、分词、语义理解、上下文记忆、主题抽取等多种能力共同发力。

因此，初出茅庐的苹果系统级图片翻译，想要取代专业翻译软件，路还很长。不过，有道也存在一些机器翻译的普遍问题，作为专业的翻译软件，仍可以继续强化其专业壁垒。

这也引发了我们的思考，为什么有了AI，神经机器翻译依然无法媲美人类译者？

理想与现实的参差：

戴着镣铐跳舞的神经机器翻译

神经网络刚被引入机器翻译时，被视为所向披靡的神器。但几年过去了，这一神奇技术确实比传统的统计机器翻译优秀很多，但距离人类翻译家的水平还有差距。

就拿这次苹果iOS15与有道词典的横向测评来说，二者或多或少都有不足之处。简单来说，原因可能出在几个方面：

1.OOV(Out of Vocabulary)问题难以解决。

基于深度神经网络的机器翻译模型需要海量数据的学习。如果数据量比较小，出现次数极少的词的词向量质量就会比较低，在实际应用中出现太多未登录词，会导致错译、漏译等情况。目前，一些垂直领域资料稀少、语料不足，尤其是中文有几千上万个字符，其中很多是生僻字，这些都会影响模型表现及译文的质量。

要解决这一点，只能靠“笨功夫”积累数据。据有道词典的技术人员表示，要做好中文识别没有特别好的办法，只能不断的积累数据，迭代算法，有道在过去几年做了大量工作。

2.算法优化与创新等待突破。

不同语言文化的文字表达、逻辑结构、信息冗余度、语法结构都不同，存在大量“信息不对称”，在“编解码“过程中出现错译也就不足为奇了。

《文化翻译论纲》一书中提到，译文等于“原文+原文化背景+译文+译文文化背景+原作者的气质和风格+译者的气质和风格”的混合体。

而要理解背后的文化、气质、风格等“隐藏属性”，只能通过技术迭代和创新来实现。比如有道允许用户提供额外的自定义词典，来精准调整神经网络机器翻译的局部结果，解决专有名词的翻译难题；

业内也开始尝试引入多模态翻译，通过图片中其他事物的特征来辅助理解文本。举个例子，如果机器翻译只看到GATE这个词，可能会把它简单的翻译成“门”，但如果图片中显示这是一张机票或者背景是飞机场，那么翻译为“登机口”就会更恰当。

3.细分场景适配没有捷径。

随着机器翻译的普及，用户对翻译质量提出了更细分的要求，比如图片翻译时前置环节的少量识别错误可能带来的级联问题；网页翻译时不仅要提供正确的翻译，还要尽可能保持原有网页样式的一致性；文档翻译时，人名、地名、组织机构名或专业术语可能多次出现，上下文如何保持一致；在配置较低的端侧设备上，也要提供又快又好地翻译体验……不同场景下的各种问题，需要针对性地优化。

就拿图片翻译来说，自然场景下的图像识别十分复杂，往往在实验室中效果很好，但用户会在各种光照条件下，拍各种稀奇古怪的东西，识别完以后还需要判断哪些词属于一个句子，哪些句子是一个段落，翻译出来的结果应该如何呈现。据了解，有道也优化了很久，在算法侧对翻译模型做了鲁棒性增强，即便在实际环境中遇到个别无法避免的文字识别错误，仍然有稳定的性能表现。

从这个角度来说，图片翻译等新应用场景想要给用户带来体验的颠覆式改变，需要的不仅仅是实验室中的创新，还要关注并解决技术在应用场景中落地遇到的具体问题，来优化最终体验，没有捷径可走。

从被人类译者惊呼抢饭碗的“妖术”，到阅读学习娱乐场景中频繁出没的日常应用，神经机器翻译技术落地现实的速度超出了很多人的想象。

对于这些致用型技术来说，应用突破比理论突破要更简单，也更急迫。这也是我们在此时想聊聊图片翻译这个“小”功能的原因。

随着全球往来的逐步重启，以更自然实时的方式了解跨语种资讯越来越成为一种必然。图片翻译对于旅游出行、专业阅读、无障碍人士触网等都有着不可或缺的价值。这也是苹果、有道等产业界力量的价值所在，通过来自现实环境的数据、互动与反馈，不断迭代并推动神经机器翻译的点滴进步。

目前看来，苹果iOS15的系统级图片翻译要取代专业翻译软件还为时尚早，事实上可以预见，未来两者并不会相互替代，而是在各自适用的场景和不同需求强度下，相互补充，各擅所长。

来自产业界的每一次实践，都推动着技术向前一步。积沙成塔，终有一天，人类能翻越阻碍语言交流的“通天塔”。

翻译趋势

译介学的,翻译理论研究与传统译论,有什么不同: 传统译学始终建立在对于"原文"."译文" 的本质化定义之上原文和译文之间的等值关系被认为是颠扑不破的 ...
兼容并蓄，博学笃行——人工智能时代人类译者的使命

[语言文字] 作者:北京外国语大学英语学院副教授王颖冲今年,我在北外开设了"中文文学作品英译"课程.第一周,同学们当堂闭卷翻译了<围城>开篇一小段"红海早 ...
2021 年最适合你的翻译 App 是什么？你可能需要这份指南

从巴别塔的故事,我们就能对语言不通造成的障碍略知一二.到了现代,人工智能与机器学习技术把翻译这一工作也交给了机器来完成.从一开始的规则主导,到现在的学习主导,机器翻译工具的演进也经历了许多次的变化与革 ...
人机交互式机器翻译研究与应用

编辑整理:赵文娇内容来源:DataFun AI Talk<人机交互式机器翻译研究与应用> 出品社区:DataFun 注:欢迎转载,转载请注明出处. 这个题目看起来比较小众,希望大家听我的 ...
谷歌翻译十周年，神经网络机器翻译系统现在更讲逻辑和层次 ...

对于很多依然在学校里埋头苦学的学生来说,谷歌翻译可能是日常学习中最常见的翻译工具,但是可能很少有人知道这项服务在昨天已经迎来了十岁的生日,而谷歌也Google Research的官方博客中隆重介绍了未 ...
自媒体图片侵权有救了？公众号上线免费图库功能，摆脱律师函警告

再见,公众号图片侵权! 作者 | Ceci 出品 | 微果酱(ID:wjam123456) 一直以来,图片版权问题都是新媒体人踩坑的重灾区,前有视觉中国.全景网.东方IC等多方版权狂魔拦截,后有涉侵 ...
百度站长平台上线落地页视频转存功能，确保专业问答视频资源的质量和稳定性

近日百度搜索资源平台上线了落地页视频转存功能,旨在确保专业问答支持合作方在提交视频类型问答资源时的视频资源质量和稳定性. 百度搜索资源平台对此功能的使用说明如下两点: 专业问答支持合作方提交视频类型问 ...
打破常规！这 3 个PPT图片创意功能，用WPS一键就能搞定！

一份完美的PPT设计中,图片是必不可少的一个重要元素. 都说字不如表,表不如图,PPT能用图片说话,才能瞬间高大上.而PPT配图是否合适,不是靠「找」,而是靠「调」! 稻壳君给大家分享WPS这3个低调 ...
飞越语言鸿沟，百度输入法翻译功能打破沟通障碍

当下,中国在国际化的道路上越走越远,如果说以往是中国人走出国门去,现在则是更多的外国友人进到国门里,尤其是在经济.贸易.教育等领域,如果不精通一门外语,跨越国别的语言和文字就让沟通变得低效而艰难.百度 ...
诸葛io上线“指标预警”功能，核心数据指标实时监测

诸葛君说:大家是否遇到这么的情况,策划许久促销活动终于上线,本应大丰收,但一个小bug导致大量用户付款失败?每天新用户都在稳步攀升,但是某一天突然用户下跌很严重?曾经是用户的活跃高峰期的时段,不知为何 ...
北通阿修罗3有线版上线，多功能加持打造“电竞级游戏手柄”

平时喜欢用外设打游戏的玩家对北通阿修罗系列一定不会陌生,优秀的操控,亲民的售价,阿修罗系列几乎成为了游戏玩家的首先.就在最近北通阿修罗系列再迎新成员,全新的北通阿修罗3有线版正式上线,而且目前已经在各 ...
官宣！小程序成都学区百科上线幼儿园查询功能！

小程序"成都学区百科" 上线幼儿园查询功能啦! 小程序成都学区百科相信大家已经不陌生啦. 学区百科已经完美的运用技术手段,可视化的方式解决了家长们查询学区划片的问题. 原来的幼升小 ...
提取图片文字、图片翻译、截图取字......这些图片难题，都能轻松搞定

日常编辑文档的时候,总会遇到不少关于「图片」的问题.比如说: 1)想用图片里的文字信息,却没法复制,只能全部手动输入 2)图片里的外语看不懂,手动输入外语到翻译软件才能理解 3)想把图 ...
Excel中强大的翻译功能

日常工作中有时候需要把报表中英文互译,在Excel中有时候也会遇到陌生的英文单词,大多数人都是打开浏览器,打开百度翻译等工具.其实,Excel中就提供翻译功能,只是你没有关注过它. 如图1所示,选中要 ...

iOS15上线图片翻译功能，能取代专业翻译软件吗？

相关推荐