上周网易有道在自家AI开放日上,都亮相了哪些黑科技?
上周网易有道公司举办了一场AI开放日活动,这虽然是有道公司第三次面向开发者举办AI开放日,但却是向媒体首次开放,会上有道大秀AI肌肉,一口气展示了20来项AI技术,并通过旗下智云平台全部向行业开放。
小编今天整理了一下,带大家回顾下现场几个印象比较深刻的技术。
欲摘取人工智能皇冠上的“明珠”
国内自然语言处理(NLP)哪家强?
正如有道首席科学家段亦涛详解了有道在围绕人类自然语言四大交互方式(听、说、读、写)而展开,人工智能的目标是要理解和复制人类的智能,而语言是绕不开的一大环节。 NLP更是被誉为人工智能皇冠上的明珠。
在人类对语言隔阂这一“自然现象”对战的过程中,今年大火的人工智能翻译硬件正在成为让我们跨入一个全新时代的工具模板,有道发布了全新第二代产品-有道翻译王2.0 Pro。
看完发布环节,小编不禁想问如果机器翻译技术都能变得这样高效易用,相信我们也距离下次“进化”不远了。那么在这样一款AI翻译机的背后,到底都需要哪些AI技术作为储备?
其实网易有道一直以来都在累积机器翻译技术,在2008年的词典时代,网易有道就应用上了机器翻译技术。经过十年的累积,有道已经积累了应用于全场景、全应用四大AI核心技术手段: 包括神经网络翻译(NMT)、语音识别(ASR)、语音合成(TTS)、文字识别(OCR)。
当然最重要的神经网络翻译(NMT)技术是有道一直以来的“看家手艺”,相比一个个单词逐字逐句的翻译,神经网络翻译会从整个句子进行理解,结合上下文判断词义。生成的译文自然也更加准确,接近人类的语序。在翻译界通用的评判标准BLEU中,英译中和中译英的BLEU值均领先同行7个多百分点。
(有道自研NMT技术目前实现以中文为核心语言的12种语言互译,和以英文为核心语言的6种语言互译,翻译质量均处于行业领先水平)
第二个文字识别技术(OCR),可以从图片、PDF等等图像介质中识别文字,应对拍照翻译、多格式文档翻译一类问题。网易有道是国内首家可以实现全自动多语言混合识别、横竖斜排版面自动识别的厂商。这样一来双语学术文档或是大规模图片翻译,都不再是难题。
(OCR技术走在全球前端,国内多个第一)
那么基于优势的OCR技术,目前有道的图像翻译实现了三大模式,用户体验节节攀升。
再早之前的拍照翻译自不用多说,“原图翻译”在拍照翻译基础上基于原图识别背景做处理后对用户体验再次进行大幅改进。
国内首家AR实景翻译,所见即所译,对摄像头中的文字内容实时翻译,这里面涉及到动态追踪、神经网络翻译、OCR组段分析、AR渲染等复杂技术。
当然,最重要的语音识别(ASR)也是机器翻译中的另一项重点技术。在语音识别技术中,如何过滤环境杂音、准确捕捉语音,又如何面对多人对话场景精准的分割出完整的会话逻辑,都是让智能翻译硬件应对显示场景的要点。此次有道在多语音识别、离线语音识别的研究上都有很多进展,也奠定了有道翻译王此次离线功能的基础。
值得一提的是,有道此次AI开放日上还展示了全新的语音翻译体验,采用流式语音识别、实时语音翻译,用户可以一边说一边即刻看到翻译结果。这项技术有道翻译官APP上率先应用。
除了语音识别,语音合成(TTS)也是语音翻译中的重要元素。翻译后生成的语音能否模仿人类的声音、口吻、停顿,成了机器翻译比肩人工的重要元素。这次所展示的有道语音合成技术只需十分钟的录音文件就能模拟出原声,合成效果与原声真假难辨。除了增加机器翻译的拟人能力,甚至还能应用在教育场景中,让AI模仿老师的声音给孩子讲课。
有了这“四大金刚”,一个基于人工智能的翻译硬件才算有了核心的基础设施。
人类的进化标志从使用工具开始
AI企业在帮助人们找到“新石器”
人类的历史就是一部“工具和技术”发展史。 真正帮助人类进化的,并不是一样工具,而是技术的全面工具化。让人类一步步从原始走向文明的,也不仅仅是石锥石斧某一样工具,而是磨制石器的普及。AI企业正在做着类似的事情。
智能交互技术使智能设备听懂人话看懂世界,并给予反馈。 有道首次对外披露的“有道魔镜”技术,“万物可识别”的时代已经到来!
语音助手功能基于购物场景中的实际应用 。
在AI开放日上还一次性地针对教育、政企办公和手机厂商三大行业详细的AI解决方案。
可见网易有道想做的,不仅仅是一个工具的售卖者,而是技术工具化的普及者和推广者。目前来看,这也是AI技术最显著的趋势。谷歌、百度等等巨头企业也都在打造技术开放平台,帮助AI技术快速落地,和各行各业结合塑造出适用的工具,一起去改变人类自己、改变世界。