清华大学AMiner大数据带你进入语音识别的未来

AMiner全新功能技术趋势分析Trend analysis(http://trend.aminer.cn)基于AMiner 2亿篇论文数据进行深入挖掘,包括对技术来源、热度、发展趋势进行研究,进而预测未来的技术前景。

技术趋势分析描述了技术的出现、变迁和消亡的全过程,可以帮助研究人员理解领域的研究历史和现状,快速识别研究的前沿热点问题。

我们目前已发布了21期分析内容,具体如下:

语音识别(Speech Recognition)就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令,语音识别主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

近二十年来,语音识别技术取得显著进步,开始从实验室走向市场,逐渐应用于工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

语音识别的应用领域非常广泛,常见的应用系统有:

  • 语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;

  • 语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;

  • 智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统,1960年英国的Denes等人研究成功了第一个计算机语音识别系统。

语音识别热度变化图

我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。

80年代以后,随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。

1986年3月中国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下,中国开始了有组织的语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。从此中国的语音识别技术进入了一个前所未有的发展阶段。

下面我们将用Trend analysis分析语音识别领域内的研究热点。

(点击文末阅读原文或复制链接https://trend.aminer.cn/topic/trend?query=speech%20recognition至浏览器打开即可进入语音识别趋势分析)

上图是当前该领域的热点技术趋势分析,通过Trend analysis分析挖掘可以发现当前该领域的热点研究话题如下:

  • feature extraction

  • speech processing

  • language model

  • speaker recognition

  • acoustic noise

  • signal processing

  • 等等......

根据Trend analysis的分析结果我们可以发现,噪声是语音识别技术中的热点研究话题之一。传统的语音识别技术主要考虑在无噪声或较弱噪声环境下的声学特征提取、声学模型构建、模型训练、语言模型构建和解码器构建等模块,而人类大多数语言环境都充斥着各种类型的噪声,强噪声环境下的语音识别的研究具有极高的实用价值。

语音识别领域相关性最高的5位学者如下:

Chin-Hui Lee

Hermann Ney

Richard M. Stern

Nakamura, Satoshi

Nelson Morgan

语音识别领域相关性最高的5篇论文如下(按目前引用量排名):

1
题目:Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition

会议/期刊:Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 2000

年份:2000年

作者:Daniel Jurafsky, and James H. Martin.

目前引用量:8899
2
题目:Fundamentals of speech recognition

会议/期刊:Fundamentals of speech recognition, 1993

年份:1993年

作者:Lawrence R. Rabiner, and Biing-Hwang Juang.

引用量:7638
3
题目:A tutorial on hidden markov models and selective applications in speech recognition

会议/期刊:Proceedings of The IEEE, Volume 77, Issue 2, 1993

年份:1993年

作者:Lawrence R. Rabiner

引用量:4859
4
题目:Speech Recognition with Deep Recurrent Neural Networks

会议/期刊:ICASSP, pp. 6645-6649, 2013.

年份:2013年

作者:Alex Graves, Abdel-rahman Mohamed, and Geoffrey E. Hinton

引用量:3405
5
题目:The Kaldi Speech Recognition Toolkit

会议/期刊:The Kaldi Speech Recognition Toolkit. 2012

年份:2012年

作者:daniel povey, arnab ghoshal, gilles boulianne, lukas burget, ondrej glembek, nagendra goel, mirko hannemann, petr motlicek, yanmin qian, petr schwarz, jan silovsky, georg stemmer, and karel vesely.

引用量:2600

借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。近期,语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用。

目前,国外的应用一直以苹果的siri为龙头。而国内方面,科大讯飞、云知声、盛大、捷通华声、搜狗语音助手、紫冬口译、百度语音等系统都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。

学术头条已建立微信交流群,想进群的同学请加学术君微信:AMiner308,记得备注:名字+单位/学校噢。

分享干货

(0)

相关推荐