从认知负荷理论看语音交互设计 / 四六文摘

DuerOS Bot Platform 在网站上给出了语音技能的交互设计规范，其中技能话术设计指出了3个原则：

简洁自然

在自然易懂的前提下，应该尽可能的提炼出简洁的技能话术。可以尝试大声并多次重复朗读你的技能话术，直到能够一口气流畅通顺地完成朗读。若表达信息过多，可尝试将话术拆解细分为多轮对话表达。

直白易懂

技能中的话术应该使用日常直白通用的表达方式，避免使用缩略词或生僻词汇，例如“未”、“勿”，应替换为更易于理解的“没有”、“不要”等。

丰富多变

用户可能会多次进入技能，在保持话术简洁直白的同时，可以通过丰富话术和功能的多样性，使技能更加生动人性化。

为什么是这样的原则呢？会不会还有其他呢？笔者试图从认知负荷理论来观察语音交互设计，溯源要从人类的信息处理模型开始。

人类信息处理模型

认知负荷理论建立在如图1所示的人类信息处理模型的基础之上(这是 Richard Atkinson 和Richard Shiffrin在1968年发表的)。

它把这个过程描述为三个主要部分: 感官记忆、工作记忆和长期记忆。从那时起，许多研究者增加了我们对这一概念的理解，但是基本模型仍然是相同的。

每天，我们都会被感官信息轰炸。感官记忆会过滤掉大部分这类信息，但是对最重要事情的记忆会保持足够长的时间，以便它们进入工作记忆。当打蓝球的时候，感官记忆丢失了关于其他球场球员的信息，附近孩子们玩耍的声音... 而是只关注眼中的蓝球。

来自感官记忆的信息会进入到工作记忆，在那里它要么被加工，要么被丢弃。工作记忆在任何时候通常可以容纳五到九个信息项(或块)，这是认知负荷理论的核心。

当大脑处理信息时，会对信息进行分类，并将其转化为长期记忆，储存在被称为“schema”的知识结构中，它们根据如何使用来组织信息。因此，有不同概念的模式，比如狗、猫、哺乳动物，也有一些行为模式，比如打球、骑自行车、在餐馆点餐等等。使用这些模式越熟练，这些行为就会变得越轻松，这叫做“自动化” 。

认知负荷理论

认知负荷理论是由 John Sweller 提出的。1988年，他在《认知科学》杂志上发表了一篇关于这个主题的论文。

“认知负荷”指的是工作记忆一次可以容纳的信息量。John Sweller 认为，由于工作记忆的容量有限，教学应该避免些对学习没有直接贡献的额外活动。例如，一个有标签的图表对工作记忆的要求比旁边有标签的图表要低。可以用图2对比一下图1:

认知负荷理论展示了工作记忆可以通过两种方式来扩展。

首先，大脑分别处理视觉和听觉信息。工作记忆中的听觉项目与视觉项目的竞争方式不同，而两个视觉项目（例如图片和一些文本）之间的竞争方式相同。这就是所谓的“模态效应”。

其次，工作记忆把一个已经建立的模式当作一个单独的项目，一个高度实践的“自动化”模式是不可能的。因此，利用现有知识的学习活动可以扩展工作记忆的能力。

这意味着，在引入更复杂的主题之前，预先培训或教授人们先决技能，将有助于他们建立扩展工作记忆的模式，也意味着他们可以理解和学习更困难的信息。

认知负荷理论假设人类的认知结构由工作记忆和长时记忆组成。其中工作记忆也可称为短时记忆，它的容量有限，一次只能存储5—9条基本信息或信息块。当要求处理信息时，工作记忆一次只能处理两到三条信息，因为存储在其中的元素之间的交互也需要工作记忆的空间，这就减少了能同时处理的信息数。工作记忆可分为“视觉空间缓冲器)”及“语音圈”。长时记忆于1995年由Ericsson和Kintsch等提出。长时记忆的容量几乎是无限的。其中存储的信息既可以是小的、零碎的一些事实，也可以是大的、复杂交互、序列化的信息。

认知负荷理论在交互设计中的应用

对于智能语音技能而言，无屏音箱可以对应到工作记忆的语音圈，而有屏音箱则对应到工作记忆的多模态方式。

1.直白易懂——衡量专业程度并相应地调整演示

特定领域的专业词汇越多，模式中可用的信息就越多。模式有多复杂并不重要，只是工作记忆中的一个单独的项目。这就是为什么交互设计中语句要直白易懂，要确保呈现的信息是正确的——对你来说显而易见的东西对他们来说可能根本不明显。

2. 简洁自然——减少问题空间

“问题空间”是当前情况与预期目标之间的差距。如果这个数值太大，人们的工作记忆就会超负荷。这种情况经常发生在复杂的问题上，用户需要从目标推理到当前状态。这样做需要他同时在工作记忆中保存大量信息。把注意力集中在目标上也会转移对所学信息的注意力，从而降低效率。

一个好方法是把问题分解成几个部分。这减少了问题空间，减轻了认知负担，使交互更有效。减少问题空间的其他方法包括提供交互实例和提供部分解决方案的问题供用户完成。这些方法特别有用，例如控制语句中名词的数量，将复杂意图分解为多个简单意图等等。

3. 丰富多变——充分利用工作记忆中的听觉和视觉通道

当技能中有多种视觉信息来源时，比如图表、标签和解释性文字，注意力就会被分散，因为这增加了认知负荷。当整合视觉信息时，这种效果会减弱，智能语音技能要本着“voice first”的原则，将视觉信息作为有效的补充。

用听觉信息代替部分视觉信息，通过使用听觉通道，减轻了人们对视觉工作记忆的认知负荷，听觉通道有自己的记忆空间。

例如，在 Mayer 和 Moreno 1998年的一项研究中，学生们发现当他们看到一个有旁白的动画时，学习效果最好，而不是用同样的动画加上屏幕上的文字。

需要注意的是，当太多的信息同时出现时，用户会变得不堪重负，而且大部分的信息都会丢失。

从认知负荷理论看语音交互设计