再看语音交互设计 / 四六文摘

行动是最好的思维方式。

赋能是人工智能对人类最重要的事情，而智能语音（例如DuerOS）正在为人机交互的方式赋能。声音一直是人与人沟通的核心，而今也成为了人机交互的核心——智能语音交互。早在2016年，google声称其搜素请求中有20%是通过语音完成的。但是，语音交互设计并不是新兴的技术，在20多年前老码农刚刚参加工作的时候就可能已经存在多年了。

从IVR 系统看起

交互式语音问答（interactive vocie response，IVR）系统的出现，代表了语音交互设计的第一个重要时期。它可以通过电话线路来理解人们的话，并执行相应的任务。早期的IVR系统中，需要为对话中的每个状态指定完整的语法规则。

在设计IVR系统时，会确保每个状态都包含一组通用组件：重复、主菜单、帮助、操作和再见。除了允许用户的请求帮助，一个全局的“退出“机制也很重要。如果没有足够的上下文信息来帮助判断，系统就需要让用户来进行确认。如果系统存在一定的局限性，那么这时候就需要让用户来缩小范围。

"提示"是指IVR系统对用户说的话，可以是一个或一些完整的句子，也可以是短语，比如数字、日期或产品。提示列表一般有以下几种用途：

从配音者提供需要录制的文案列表
从用户哪里得到确认
为TTS引擎提供输入

在IVR系统设计的时候，我们已经了解到了将已经收集到的信息传递给用户、通过恰当的提示以获得特定回应、通过日志信息分析和改进系统，以及设计人物模型。这些方法对于如今的智能语音交互同样有着借鉴的意义。

从人们的交谈看语音人机界面（VUI）

当人们愉快地交谈时，交谈中通常包含一些关键要素：情境感知（关注你和周围的环境）、关于之前交流的记忆，以及相关问题的交流。人们对计算机和其他技术的反馈所使用的社会规则和期望，等同于与人类交往时所使用的社会规则和期望。

VUI 思考的是在系统和终端用户间，从开始到结束的整个对话过程，思考正在解决的问题以及用户需要什么来达成他们的目的。VUI需要进行用户研究来了解用户（对方）是谁，进而通过设计、产品原型和产品定义来描述系统和用户之间的交互行为。

VUI 通常用于单轮任务。不用强迫用户展开新一轮对话，而是去尝试了解用户的意图并允许用户继续交互。一般来说，让用户来决定对话要持续多久。如果你不能理解答案，就不要提问。如何你设置了可以完成某项任务的预期，请务必考虑与之相关（对称）的任务。

VUI有着独特的优点：

速度
释放双手
直觉性，每个人都知道如何说话
同理心，语音中包含了语气、音量、语调和语速，这些特征传达了大量的信息

凡事有两面性，VUI同样有着不适用的场景，例如：

公众场所
某些人不适应与计算机对话
一些人更喜欢文字沟通
隐私性的内容

VUI往往是线性的，无法跳过。由于功能是不可见的，难以让用户通过视觉的方式来探索功能， VUI设计的主要挑战之一就是教育用户，告诉他们能做什么。

VUI 可能的设计输出

对于一个VUI项目而言，例如基于DuerOS的技能，其设计的交付内容可能包括：

示例对话（可能包括真实的录音，特别是使用配音演员时）
流程图
提示列表（如果使用了配音演员或语录的语音合成片段）
界面原型（如果这是一个多模态的应用）

示例对话是第一要素，一般可以挑选5个最常见的使用场景，然后为每一个场景写一些最优路径的示例对话。

流程图是用于展示VUI系统所有可能发生路径的图示，详细程度取决于所设计的系统类型。

对于有屏设备而言，例如小度在家，线框图和原型在早期设计流程中也是非常重要的。

VUI 的原型工具和传统的产品设计工具例如Azure 有些不同，国外的工具有wit.ai,dialogflow.com等，我们可以是百度UNIT平台作为对话的原型工具，当然，DBP平台的自定义回复功能，同样可以作为一个简单的原型工具。

语音交互设计的原则

保持用户参与度是最高原则，VUI设计应该围绕如何让用户进入下一步来进行，如果某些信息当前还用不到，就不要问用户。

Paul Grice 于1975就提出了4个关于交互的合作准则：

准则名称	内涵	错误用法
质的准则	所说的话需是自己相信的真实信息	宣传一件你做不到的事。例如，对用户说“有什么可以帮助您的”，而实际上整个VUI系统仅仅能够提供酒店预定服务
量的准则	所说的话需满足交际中所需的信息量，但不应超出交际所需的信息量	多余的措辞。比如“请您注意听，应为我们的选项可能已经变了”（谁会想“啊，太棒啦！谢谢你告诉我”？）
相关准则	所说的话需与当前对话相关	给用户一些用不到的指示。比如在用户还没有下单的时候就开始解释退换政策
方式准则	说话需清晰，明了	使用用户难以理解的专业术语

对于无屏设备而言，DBP平台也给出了一些设计原则,例如：

保持简短，语音是短暂的、瞬变的、线性的。
保持自然
提供反馈
为解决歧义而设计
支持修正
注意时间的重要性
注意列表的困难性
注意文本转语音的局限性

VUI设计中的确认策略

在VUI设计中，最重要的是对用户问话的意图确认，也就是说，系统要向用户确认是否真正理解的是用户的意图。在决定VUI的确认策略时，要利用好能利用的一切感知通道，还要考虑：

错误的后果是什么？（会预定错误的航班么？钱会被转移到错误的账户么？旅行者会听到错误城市的天气预报么？等等）
系统将以什么形式进行反馈？（会有音频提示么？会有非文本的视觉反馈么？）
会有一个小屏幕的显示反馈么？如智能手表或者手机中的弹窗
以什么形式来确认是最合适的？（明确的确认还是隐性的确认，或者混合式的确认？）

在确认用户的意图的时候，一般有以下几种策略：

策略一：三级置信度

系统在一定的阈值内（例如，45%～80%），以明确的形式确认信息，拒绝较低置信度的信息，并以隐性确认来确认超过80%阈值的信息。

策略二：隐性确认

连同原始问题的一部分一同回复，让用户知道系统识别到了用户的问题。

策略三：非语言式确认

仅使用行动进行反馈，尤其对智能家居的技能。

策略四：通用确认

通常应用于与用户进行开放式聊天的对话系统。

策略五：视觉确认

人类的记忆能力是有限的，通常用户一次性不能记住超过大约7个听觉项目。语音交互界面稍纵即逝的特征，明显为用户提出了很高的认知要求，所以使用视觉确认在很多情况下利大于弊。

在隐性确认的情况下，可能需要允许用户取消或者后退一步。

VUI中的语境

语境意味着系统需要知道对话相关的信息是什么，并且知道之前发生过的对话内容。离开了语境，就不可能理解话语背后的意义，对于语音交互设计而言，最重要的一点就是能利用已知的对话，可以针对以下情况结合人工智能和情感分析进行反馈：

用户的行为
用户的无行为（迟钝）
用户过去的行为
用户的一系列行为
用户所处的实际时间和空间
不同使用者所处情境与行为的比较

运用情感分析可以使VUI更智能，更具有同理心。在一段文本中对表达的观点进行定义和归类，可以用于确定用户对某一特定主题、产品以及其他内容的态度是肯定的、否定的还是中性的。情感分析的关键原则：宁求稳健，不愿冒险。

关于多轮对话

多轮对话，是VUI设计中的一个难点，因为用户的语音输入往往是不可控的。最简单和最自然的话术转换技巧就是“问一个问题”，当然，不要问那些你都无法理解对应答案的反问句。

对话式中的某些关键词是让用户了解交谈进展以及进展情况的重要方式，包括以下三个方面：

时间线（首先，完成一半了，最后等）
接收回执（谢谢，知道了，好的，以及很抱歉等）
积极反馈（不错，干得好，很高兴听到这个消息等）

在多轮对话中允许用户打断系统非常重要，但需要注意：

最好不要使用系统打断功能
VUI说完后，需要进入“倾听”模式
轮到用户说话时，最好有视觉指示器
一个明显的提示，提示用户轮到他说话了（问一个问题或指令，如“能详细说一说么”）

对话管理就是系统对既往会话中已产生的信息，以及在后续对话中所需要的信息进行管理的行为，在DuerOS中的对话管理由Dialog 和Session表示。只要问题与问题之间看起来是相关的，并且用户觉得问题能一步一步得到解决，用户可以容忍很多问题。

关于可视化反馈

交互方式正在从单纯的视觉、硬件交互转化为多感官综合的交互，这种交互模式的本质是“关系”。VUI无疑是最重要也是最自然的交互通道之一，但不要为了使用语音交互而使用语音交互。

在某些对话系统中，显示用户所说的内容反而会分散用户的注意力，有时甚至留下负面印象。

在某些情况下，让用户看到自己在说话可以提升参与感，可以考虑让用户控制是否开启这个功能。在DuerOS的有屏设备中设计多模态技能时，一般的VUI超时设置就不再适用，但还是需要记下app中用户长时间未应答的位置，因为在那里很可能有一个潜藏的问题，会造成用户困惑或让用户不愿意进行回复。

VUI可以不使用虚拟形象，而使用抽象的可视化图像进行反馈。

多通道、全链路、多角色，以及去中心化成为了设计的主旋律。允许用户同时使用语音和屏幕进行交互，是一种多模态界面（multimodal interface）。可视化组件可以让用户更从容地进行交互，视觉和语音的协同设计非常重要。

关于容错处理

任何时候都不要责怪用户，将错误归咎于系统是设计原则。下面在VUI可能出错的几种情况：

未检测到语音
检测到语音，但没有识别
语音被正确识别，但系统无法处理
部分语音识别错误

人有许多方法来表明他们还不理解对方所说的话，最常见的（有效的）方式之一就是什么都不说。对于ASR工具识别错误的问题你并做不了什么，但可以通过N-Best列表和真实用户响应的数据分析来构建这类问题的解决方案。N-Best 列表是一系列用户可能说的内容，并根据（通常是前5个或前10种可能）或按置信度排序。

如果用户会定期使用你的系统，那么在设计中就需要包含一个不同的策略。VUI系统的目标不是简单地“训练”用户，而是应当适应用户的行为。当用户给出的答复对下一段对话内容并不重要时，可以设置一个通用的答案，也可以让用户知道，其他人也讲听取他们的答案。当发生歧义时，设立一个公用的列表，并通过进一步的询问来确认用户的真实意图。

对于儿童类语音应用，整个交互流程不需要系统100%完美理解用户说的话就可以继续执行下去，最好能够提供图形化的选择。

虽然处理否定词需要做些额外的工作，但一旦忽略它们就可能要付出高昂的代价。

再看虚拟角色

当人们知道他们是在和一个“机器人”说话时，会更加宽容。VUI系统的目标可能不是让人们误以为它是一个人，而是以高效、易用的形式，解决用户的问题。但是，没有人格的语音用户界面是不存在的。用户会通过应用的语音以及语言选择，推断出的人格或角色的标准化心理形象。

因此，在考虑一个虚拟角色的时候，思考其背后的人格更加重要。在人格设计时，可能需要考虑：

会让用户问虚拟角色自身相关的问题么？（例如：你最喜欢什么颜色？）
如何处理粗鲁和粗俗的行为？决定如何对待辱骂性语言，对任何一支正在处理此问题的团队而言都是非常重要的。
是否介意打破用户把VUI看作人类？

一般的，用文本列出药物时很好的选择，动画图解用于设备的使用说明非常有效，虚拟角色则有利于建立亲密关系。建立用户对虚拟角色信任感的方法是，适时遵循人类对话的惯例，保持用户意识错觉的建议：

使用传达亲密感的对话
确保虚拟角色在与不同用户交互式行为恰当
确保对话看起来永不重复
注意同时在线的用户数量
注意用户的性别
确保对话的表现是天衣无缝的
当用户输入不能被识别时，避免虚拟角色的出现

讲故事和参与式活动是使用虚拟形象的绝佳场景，使用真实的面孔是一种极好的吸引用户参与的方式，但成本也非常高。

对一个成功的语音交互来说，虚拟形象并不是一个必要条件。但是，如果应用需要处理更敏感的话题（比如情绪或健康）时，务必识别出这些场景并妥善处理。人物模型的一致性使人们能在与它们沟通时得以预测接下来会发生什么，理想情况下，与其提高不同的声音或不同的虚拟形象，不如提高不同的人物模型，并且这些人物模型包含了不同的视觉和音频组件。

凡事有两面性，人物模型的个性越鲜明，用户反应也会越极端。

VUI的调研与评估

VUI是持续演进和迭代的，可用性专家Jakob Nielson 推荐选择5名用户进行测试，他的研究发现，5人以上的测试并没有额外的益处，随着测试人数的增加，ROI会一落千丈。

调查问卷的问题一般包含7个不同的维度：准确性，概念，建议提供（内容），易用性，会话的真实性，用户的好感度和视频流。受试者倾向于给出正面的回答，特别是在面对面的访谈中，大多数人会表现的更加友善，有时会对提供消极的反馈犹豫不决，也可能会夸大事物的积极面。受试者自己通常不会意识到这一点，但一个优秀的访谈者可以处理这些问题。在访谈过程中，用户应该可以从举行测试的人那里得到大量的线索。

VUI测试有5个关键的衡量指标：准确性与响应速度，认知程度，清晰/混乱，友好度和声音。效果评估的指标可能包括：

任务完成率
流失率
VUI的使用时长
语音打断
观察交互模式的占比：语音与GUI
高频次超时无应答和无内容匹配
延迟
完整的呼叫记录

VUI的关键测试之一在交易式语音应答系统（IVR）中被称作“对话遍历测试”（Dialog Traversal Testing, DTT), 坚持完成，用户会感激你的细致和周全。大量的无语音超时式是提示语混乱的标志，当重现多模态App的对话是，展示屏幕交互也是非常必要的。

其中性能在VUI项目的用户体验中占有重要的地位，一般地，延迟产生的原因有糟糕的连接性能、系统处理进程和数据库访问等。关于智能语音系统的性能优化，可以参考智能音箱场景下的性能优化。

总之，语音交互设计的结果使得交互是省时、高效的，能够使用上下文语境，优先考虑的是个性化，而不是所谓的“个性”。

参考资料

Cathy Peral（2018），Designing Voice User Interfaces：Principles of Conversational Experiences
Neilson，J（2012），“How Many Test Users in a Usability Study?”,https://www.nngroup.com
https://dueros.baidu.com/dbp
https://developer.amazon.com

再看语音交互设计