基于注意力机制的低资源关键词检索技术超越传统方法

2024-04-23 19:39:37

近日，清华大学语音与音频技术实验室（THUsatlab）师生在《Neural Networks》上发表论文，提出了一种端到端的基于注意力机制和能量评分器的关键词检索系统。该系统摆脱了语音识别的依赖，并且取得了超越传统方法的性能，尤其适用于低资源小语种关键词检索任务。

关键词检索任务及难点

关键词检索即为在连续的语音流当中检测和定位用户给定的关键词的技术。传统的关键词检索技术依赖于连续语音识别系统，即先使用语音识别系统得到识别结果（一般为多候选结果），然后再从识别结果之中寻找关键词并进行置信度估计。然而，训练出一个可靠的语音识别系统往往需要大量的标注语音数据，对于低资源语种，即可用的训练数据较少的语种，传统的方法往往会遇到一些困难。

论文创新点

论文所采用的框架不再依赖于语音识别系统，大大降低对数据资源的依赖，以下是系统的整体结构框图。该系统主要由四部分组成，包括语音编码器（Speech Encoder），文本编码器（Query Encoder），注意力机制（Attention Mechanism）以及能量评分器（Energy Scorer）。

论文工作详述

语音编码器（Speech Encoder）：语音编码器的作用是接受语音输入（Input Speech），得到语音特征（Speech Embeddings）。此处关键为让语音特征含有关键词检索所需要的信息，即输入语音所包含的字符序列或者音素序列，即通过语音特征来预测目标序列。论文采取如下图所示结构来完成此过程。

可以采用不同的方法来预测目标序列。论文考察了两种方法，即联结时序分类（Connectionist Temporal Classification, CTC）和基于注意力机制的序列到序列方法（Attention-based Sequence-to-Sequence Method, Attention Seq2Seq）；实验结果证明，二者在辅助监督语音编码器从输入语音中提取目标信息方面性能相当。

文本编码器（Query Encoder）：文本编码器接受输入文本（Input Query），得到文本特征。此处关键为文本特征需包含原始输入文本的拼写信息。论文采用自监督的方式，通过文本解码器来对文本特征进行复原，即恢复成原始的输入文本。特别地，因为数据集提供了发音词典，也可以从文本特征中预测出音素序列。通过以上两种方式，分别可以得到包含有拼写和发音信息的文本特征。

注意力机制（Attention Mechanism）：在得到语音和文本特征之后，便可以通过注意力机制来进行关键词大致位置的判断。注意这里的注意力机制与前文提到的语音解码器中的注意力机制的含义不同，这里的注意力机制是专为关键词检测而设计的，是本文的一个创新点。以下是注意力机制的输出，可以看到在输入的语音中不含有关键词的情况下（左图，蓝色为预测曲线，红色为真实情况，下同），注意力机制在每一个时刻上的输出也都尽可能的小，说明注意力机制认为这些时刻上存在有关键词的概率较小，对于关键词存在的情形（右图），注意力机制也可以大致预测出关键词在输入语音中的大致位置。

能量评分器（Energy Scorer）：得到注意力机制输出结果之后，我们还是无法确定关键词的存在与否，其原因主要在于不知道关键词应该持续的时间长度。另外，注意力机制会导致虚警的发生。为了综合考虑语音特征，文本特征以及注意力权重，论文提出了能量评分器的概念，其结构如下图所示：

首先计算出语音特征和上下文特征的能量比，其中后者通过注意力权重和语音特征加权得到。即使注意力权重会在某些非语音部分发生虚警，但是一般地语音部分的能量会高于噪声部分的能量，这在某种程度上减轻了噪声对检测结果的影响。同时，通过文本特征得到对应于该关键词的能量比门限值，令前面得到的能量比与该门限值进行比较便可以得到最终的判决结果。如前文所述，文本特征中包含有拼写或发音信息，故通过文本特征来估计其能量比门限便是一种合理的设计。

实验与结论

通过语音文本的编解码器可以得到语音和文本所对应的拼写或者发音信息，故可以两两组合输入到注意力机制以及后续的系统之中，下表是论文中的一组结果对比，其中C-P表示提取了含有拼写信息（Character, C）的语音特征和含有发音信息（Phoneme, P）的文本特征所构成的系统，同时给出了Audhkhasi等人提出的ASR-free系统作为基线系统。可以看到，每种组合的效果均优于基线系统。

另外，本文给出了在包括孟加拉语、普什图语以及土耳其语等低资源小语种数据集的实验结果，如下表所示。其中SGMM表示的是传统的基于子空间GMM语音识别的关键词检索系统。可以看到本文所提出的系统要优于其他模型。

论文地址：https://doi.org/10.1016/j.neunet.2021.04.002

作者简介

赵泽宇

2017年于北京理工大学信息与电子学院获工学学士

2020于清华大学电子工程系获工学硕士学位

现于爱丁堡大学语音技术研究中心(CSTR)攻读博士学位

主要研究方向为关键词检索和语音识别

清华大学语音与音频技术实验室近年来专注低资源语音识别和关键词检索研究，主持国家自然科学基金联合重点项目和国家重点研发计划重点专项课题，2020年在美国国家标准与技术研究院（NIST）主办的语音分析评测OpenSAT2020关键词检索任务取得国际第一名，在OpenASR2020低资源语音识别挑战赛中十个低资源语种取得四个国际第一名。

系统综述｜图像描述问题发展趋势及应用

图像描述问题发展趋势及应用马倩霞李频捷宋靖雁张涛 (清华大学) 摘要图像描述解决了在给定图像后自动得到相应的描述性文本的难题,是结合计算机视觉.自然语言处理和机器学习的一个交叉领域,也是一个极具 ...
BMVC2018图像检索论文—使用区域注意力网络改进R-MAC方法

刚刚开源代码与预训练模型. (关注"我爱计算机视觉"公众号,一个有价值有深度的公众号~) 来自BMVC2018会议论文:<Regional Attention Based D ...
深度网格分析的注意交叉行走

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
MURAL：消除预训练模型的语言限制！Google提出跨语言的多模态、多任务检索模型MURAL

详细信息如下: 论文链接:https://arxiv.org/abs/2109.05125v1 项目链接:未开源导言: 图像标题对和翻译对都提供了学习语言表示和语言之间联系的方法.作者在 MURAL ...
Transformer靠什么''基因''，得以闯入CV界秒杀CNN？

CV(计算机视觉)领域一直是引领机器学习的弄潮儿.近年来更是因为Transformers模型的横空出世而掀起了一阵腥风血雨.小编今天就带大家初步认识一下这位初来乍到的CV当红炸子鸡- 本文主要介绍Tr ...
ICML2021 | ALIGN：大力出奇迹，谷歌用18亿的图像-文本对训练了一个这样的模型

详细信息如下: 论文链接:https://arxiv.org/abs/2102.05918 项目链接:尚未开源导言: 学习良好的视觉和视觉语言表征对于解决计算机视觉问题(图像检索.图像分类.视频理解 ...
MASTER：全局上下文建模大幅提高文本识别精度

该文作者信息: 作者单位为来自国内的平安产险视觉团队和徐州医科大学. 现实中出现的规则和不规则文本示例: 该文指出,目前基于注意力机制的自然场景文字识别方法在OCR领域取得了很大成果,成功的主要原因是 ...
极市干货|第49期直播回放-李夏：语义分割中的自注意力机制和低秩重建（ICCV oral）

➤分享大纲 1. 语义分割任务介绍 2. Non-local Nets 及相关工作 3. A^2-Net 及相关工作 4. EM Attention Nets 5. 语义分割论文链接:https:/ ...
基于注意力机制的铁路巡检视频场景分类方法研究

接触网安全巡检关系到高速铁路系统安全和国家经济发展,保证接触网系统的安全对于高速铁路可靠运行具有十分重要的意义.然而接触网设备露天设置.工作环境恶劣且没有备用[1],要杜绝安全隐患无疑是一个极大的挑战 ...
论文速递 | 基于金字塔及双边注意力机制的图像修复新方法

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
基于通道注意力机制的高光谱图像分类

目录前言步骤 Python 实现 1.定义HybridSN类 2.创建数据集 3.开始训练 4.模型测试 5.基于通道注意力机制改进网络 6.再次训练 7.再次测试完整代码总结前言近年来, ...
Twins：重新思考视觉Transformer中的空间注意力机制

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 198篇原创内容公众号 Twins: ...
3D目标检测上运用三重注意力机制的先驱——TANet(2020AAAI)

0 基本信息论文来源:2020 AAAI 1 Abstract 本文关注的是点云3D目标检测中鲁棒性的问题.我们关注到2个问题: 对行人等 hard目标的检测精度不高: 增加额外的噪声时,现有方法的 ...
使用endnote联网搜索输入关键词检索不到怎么办

我们使用endnote软件连网在线检索文献的时候,会出现检索不到的情况,这是因为我们的条件的问题,下面来看看吧! 1.点击左上角的地球图标选择一个期刊进行检索. 2.在搜索框中输入需要的关键字按回车键 ...
超越卷积、自注意力机制：强大的神经网络新算子involution

AI蜗牛车 151篇原创内容公众号来自:机器之心这篇工作主要是由我和SENet的作者胡杰一起完成的,也非常感谢HKUST的两位导师陈启峰和张潼老师的讨论和建议. 本文是对我们CVPR 2021 ...
CVPR 2021 ｜针对强时序依赖，即插即用、混合注意力机制的 ACTION 模块

本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recognition" 的介绍.主要针对强 ...

基于注意力机制的低资源关键词检索技术超越传统方法

相关推荐