模式识别学科发展报告丨八、语音语言信息处理未来重要研究问题

CASIA
解锁更多智能之美
引言

从自然语言理解理解概念的提出,到后续计算语言学(computational linguistics, CL)和自然语言处理(natural language processing, NLP)相关术语的出现,伴随自动语音识别(automatic speech recognition, ASR)和语音合成(text to speech synthesis, TTS)姊妹技术的同步发展,这一被统称为人类语言技术(human language technology, HLT)的学科方向已经走过了近70年的曲折路程。近年来,从技术应用的角度,以机器翻译、人机对话系统、语音识别和语音合成等为代表的应用系统性能快速提升,在人类社会和生活中发挥了越来越大的作用。与此同时,如何使相关技术表现出更加智慧和优越的性能,始终是技术研发人员孜孜追求的目标;从科学探索的角度,人脑语言理解的神经基础和认知机理是什么?大脑是如何存储、理解和运用复杂的语言结构、语境和语义表达,并实现不同语言之间语义、概念关系对应的?太多的奥秘有待于揭示。

为此,综合语言信息理解相关方向的基础问题研究和应用技术研发,同时考虑文字和语音两大本质属性的孪生关系,本报告提出了语言信息处理未来研究的7个重要问题:

  1. 语义表示和语义计算模型
  2. 面向小样本和鲁棒可解释的自然语言处理
  3. 基于多模态信息的自然语言处理
  4. 交互式、自主学习的自然语言处理
  5. 类脑语言信息处理
  6. 复杂场景下的语音分离与识别
  7. 小数据个性化语音模拟

1. 语义表示和语义计算模型

这里的语义(semantic)指的是语言所蕴含的意义,是语言符号所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系。在自然语言处理中,语义表示研究自然语言中词汇、短语、句子和篇章的意义表示,是语义计算和推理的基础。语义计算研究词汇、短语、句子和篇章等各语言单元之间的语义关系。几乎所有自然语言处理任务,例如机器翻译、自动问答和人机对话等,都依赖于对输入语言序列的语义表示和计算。

传统的离散符号表示适合自然语言的符号逻辑推理,而近年来流行的分布式向量表示更加适合自然语言的计算机语义计算。目前来看,离散符号表示与分布式向量表示很难兼容。因此,如何兼顾语义计算和推理,设计高效鲁棒的语义表示和计算模型是自然语言处理的未来挑战。

首先,常用的分布式语义表示方法将词汇、短语、句子和篇章无差别的表示为维度相同的向量,且各个维度的含义无法解释,这种编码方式无法捕捉细粒度的语义差别且与人脑语义表征理论相违背。因此,如何针对不同类型文本构造不同形式的、可解释性的编码模型对于提升文本语义表示质量是十分必要的。另外,现有的语义表示模型仅利用无结构的、单一模态的文本信息而忽略了丰富的世界知识,无法将不同模态的世界知识进行关联、对学过的知识进行有效地存储和检索。这使得表示模型的训练依赖大量语料且泛化性能差,因此,未来工作应考虑如何融合多种模态信息和已有的知识库资源开发更加智能的语义表示模型。还有,目前的语义表示方法局限于利用语义相似度或在下游任务中的测试质量进行评价,忽略了如文本间的推理关系、语义类别等方面信息,无法全面地评估语义表示的质量。因此如何合理地评价语义表示的质量也是需要研究的关键问题。

2. 面向小样本和鲁棒可解释的自然语言处理

基于统计和深度学习的自然语言处理方法都强烈依赖于大规模高质量的训练数据,而很多语言或特定应用领域中往往没有足够多的训练数据,这就导致小样本问题。例如,除了汉语和英语等几种常用语言外,很多语言(例如土耳其语、乌尔都语、达利语等)的标注资源十分匮乏,高质量的自然语言理解和机器翻译方法成为空中楼阁。另一方面,尽管当前基于深度学习的自然语言处理方法性能最佳,但鲁棒性较差,且缺乏可解释性。这主要体现在,模型对输入的轻微扰动可能会产生截然不同的输出结果,对预测结果无法解释、无法归因。

不同于其他领域中的小样本问题,自然语言处理中的小样本问题更具挑战性。以机器翻译为例,小样本体现在双语对照的平行句对很少,从而会导致测试时很多源语言词汇及其译文并未在训练数据中出现过,即待预测的标签空间是也未知的。因此,如何解决小数据的自然语言处理任务是一个具有挑战性的热点研究问题。此外,各种实际应用任务,例如金融投资预测、法律法规解读以及医疗方案规划等,不仅需要准确的决策,还希望结果是鲁棒的,并且是可归因的。但是,基于深度学习的自然语言处理实质是学习一个非线性映射函数,无法阐述决策过程,也就是模型本身就是不可解释的。所以,鲁棒可解释的自然语言处理模型研究必将成为自然语言处理的核心关键科学问题,它直接决定了自然语言处理在特定领域的实际应用。

3. 基于多模态信息的自然语言处理

几十年来的自然语言处理研究几乎都是以文本为处理对象,而文本只是语义表达的一种方式,也是不完备的一种方式。很多自然语言的语义理解需要结合语音和图像等其他模态的信息,例如英语句子中“bank”可能需要借助图像是“银行”还是“河岸”去进行理解。基于多模态的自然语言处理旨在以自然语言文本为核心,将与之相关的语音和视觉模态的信息作为辅助知识进行建模,帮助语义的消岐和理解,从而实现性能更好的自然语言处理模型。

基于多模态信息的自然语言处理需要解决两大难题。首先,需要明确哪些自然语言处理任务需要多模态信息的帮助。其次,文本、语音和视觉模态的信息如何进行融合。特别地,还需要明确同源多模态信息和异源多模态信息是否应该具有相同的语义融合范式。由于人类就是在多模态的环境下进行语言理解,因此,基于多模态信息的自然语言处理方法必将是未来该领域研究的一个重要方向。

4. 交互式、自主学习的自然语言处理

目前绝大部分的自然语言处理方法几乎都是全局的和静态的,无法体现实时(在线)从错误和用户反馈中学习和优化过程,从而模拟人类交互学习和终身学习的智能行为。交互式自然语言处理旨在与用户的交互过程中收集、建模和利用反馈信息,不断迭代和优化自然语言处理模型。在线方法能够被动或主动地发现错误,并根据错误实现在线学习和动态更新机制,最终建立一套自主学习框架。

交互式自然语言处理需要克服三个难点。首先,需要设计一个自然的交互式环境和平台;其次,需要设计真实高效的交互任务;最后,需要建立一个基于反馈的终身学习的自然语言处理模型。可以预见,一个成熟智能的自然语言处理系统一定是能够建立人与机器的生态闭环,并在与人类的交互过程中逐步得到优化的系统。因此,面向在线人机交互和自主学习的自然语言处理方法将会是一个未来的研究趋势。

5. 类脑语言信息处理

基于神经网络的深度学习方法在近年来备受推崇,它在某种意义上的确模拟了人脑的认知功能,但是,这种方法只是对神经元结构和信号传递方式给出的形式化数学描述,并非是基于人脑的工作机理建立起来的数学模型,它同样难以摆脱对大规模训练样本的依赖性。类脑语言信息处理旨在通过研究大脑的语言认知机理,分析认知机理与文本计算方法之间的关联,最终设计语言认知启发的自然语言处理模型。

目前人们只是在宏观上大致了解脑区的划分和在语言理解过程中所起的不同作用,但在介观和微观层面,语言理解的生物过程与神经元信号传递的关系,以及信号与语义、概念和物理世界之间的对应与联系等,都是未知的奥秘。如何打通宏观、介观和微观层面的联系并给出清晰的解释,将是未来急需解决的问题。从微观层面进一步研究人脑的结构,发现和揭示人脑理解语言的机理,借鉴或模拟人脑的工作机理建立形式化的数学模型才是最终解决自然语言理解问题的根本出路。此外,人脑的语言理解过程遵循自主学习和进化机制,而目前语言信息处理模型仍然采用一次学习终身使用的机制。因此,如何借鉴人脑的语言认知与理解机理设计具备自主学习和进化的自然语言理解模型是通向类人智能语言处理的必经之路。

6. 复杂场景下的语音分离与识别

在真实场景中,麦克风接收到的语音信号可能同时包含多个说话人的声音以及噪声、混响和回声等各种干扰,人类的听觉系统可以很容易地选择想要关注的内容,但是对于计算机系统来说就显得十分困难,这就是所谓的鸡尾酒会问题。如何有效的提升复杂信道和强干扰下的语音的音质,进一步探索复杂场景下的听觉机理,对语音声学建模和语音识别均具有很重要的意义。

此外,重口音、口语化、小语种、多语言等复杂情况,也对语音模型的训练带来很大挑战,这种复杂性,使得语音数据变得稀疏,现有的方法难以形成泛化能力很强的模型。因此,如何有效解决这些复杂情况下的语音识别问题依然具有很高的挑战性和研究价值。

7. 小数据个性化语音模拟

尽管目前语音合成技术在特定数据集和限定条件下能合成出逼近真人的语音,但是仍然存在一些问题,比如虽然发音和真人类似,但往往发音风格比较单一,且经常需要较多的语音数据作为训练数据。在真实场景中,发音人说话比较随意和口语化,且大多数情况下只能获取很少量音质较低的训练数据,这些数据普遍缺乏标注,给真实场景下个性化语音模拟带来很多挑战。此外,由于个性化语音数据还存在着数据稀疏问题,阻碍了在稀疏空间下精准捕捉目标说话人的韵律特征和有效构建说话人发音表征,从而很难构建出高泛化性和高鲁棒性的语音模拟模型。因此,如何有效利用数量少且音质低的语音数据,获得高表现力个性化模拟语音仍然具有较大的挑战和重要的研究价值。


(0)

相关推荐