嵌入式语音识别技术 / 四六文摘

应用领域语音识别将声音转换成文本和命令，从而达到语音输入、语音控制的目的。随着各种电子产品、移动产品的大量涌现，利用语音识别技术可以大大改善人机交互的方式。嵌入式语音识别技术，可以应用于多种基于Windows、WinCE、Linux等的应用系统、移动设备，可以通过语音来达到控制、查询和有限输入等“声控”目的。为顺应市场的潮流和推动语音识别技术的产业化，自动化所专门针对各种电子产品和移动电子产品，开发了一套基于连续语音识别技术的可变词汇、非特定人、命令词语音识别引擎 Pattek ASR/ESR, 这是一个具有良好接口的语音识别SDK引擎，该引擎在各种噪声环境、各种口音下，识别率具有稳定的识别率，且支持汉语、英语以及混合语言，支持Push-to-talk, Click-to-talk 和全声控等多种工作模式的应用。

Pattek ASR3.0/ESR主要特性1、　用户无需实现训练，为说话人无关系统，具有很好的抗口音能力；2、　识别准确率高，在常规语音拨号词表下（500左右）首选识别率可以达到95％；3、　卓越的抗噪性能：在大街上和汽车内等嘈杂的环境下仍能保持实用化的准确率；4、　占用系统资源少：系统程序空间98K,运行空间100K,模型空间270K,总共约475K；5、　能可以实现真正的Hand free操作，人与麦克风只要保持在30cm距离，系统都能正常工作；6、　系统在要求下处于监控状态，能主动抓住系统所需要辨识的关键词和句型，而有效地拒绝非关键词和非定义句型；7、　句型可以由用户自行定义；8、　支持多个词表之间的切换和增词、减词功能；9、　任意提供多个识别候选，提高二次交互的准确率等；10、　具有良好的识别操作实时性，识别可以实时完成；11、　系统具有良好的实用性，可以在各种环境中使用，识别效果良好；12、　产品代码极其优化，占有很少的存储空间和运行空间。Pattek ASR3.0/ESR主要性能指标Pattek ASR3.0/ESR嵌入式系列识别引擎采用标准C语言编写，支持移植到任何第三方操作系统，实现强大的语音人机交互功能。已经实施移植过的支持的操作系统包括微软的WM5、PPC2002、2003，SmartPhone2002、2003等；Symbian联盟的Symbians60，嵌入式Linux如移软Mphone系统、博动OPNA系统，类Linux环境Nucles，低端运行环境REX，基带专用系统MTK等。Pattek ASR3.0/ESR 引擎可以根据CPU的性能特点进行裁减，在超过20MIPS运行能力的芯片上均可正常运行。如Intel的Xscale，PXA，　TI的OMAP和TMS-54x/55x DSPs　AＤ,高通的基于ARM9的5500系列，Philips Dragon Fly，展讯的6600M系列，MTK 62系列， ARM7/ARM9，BroadCOM等。下表为主要参数：内容描述缺省支持扩展支持录音数据采样率8k16k等，可定制数据表示16bit支持采样精度10-16bit通道数单声道最大录音时间3秒可定制识别命令集词编码GB2312Unicode等词形式汉字、数字、拼音英语命令集最大个数2可定制命令集名称最大长度10可定制RAM资源分配方式动态分配、静态分配ASR初始化内存13kASR词表内存3-4k(每100词)ASR一次识别过程所需内存63k(识别完释放)可调整TTS内存5k(一次支持20汉字)可定制ROM资源ASR程序（lib库）72k平台相关、优化TTS程序80k平台相关、优化ASR数据283k优化TTS数据671k优化识别速度20MIPS CPU、通常词表不超过2倍实时平台相关

嵌入式语音识别技术

相关推荐