Nature封面：AI与人类斗嘴谁更强？IBM团队发布“AI辩论家”最新研究进展 / 四六文摘

在很多游戏和围棋比赛中，人工智能（AI）都展现出了 “超人” 能力，现在，它又开始冲击辩论赛了。

自 AI 概念诞生以来，如何让计算机对自然语言的理解和处理能力接近人类，一直是科学家们的终极愿景。经过数十年的发展，目前业界已经开发出能够执行语言理解任务的 AI 模型，对于常规任务和特定语言现象，例如预测某个句子的情感，当前最先进的 AI 系统通常能给出一个不错的结果，再搭配上语音相关技术，进行简单的人机对话交互也不再稀奇。

然而，在更复杂的任务中，例如自动翻译、自动摘要和多轮随机对话考验下，AI 系统仍然不能很好地满足人类需要，而比这些单一任务更具综合性的考验是：辩论。

那么，AI 有能力和人进行主题辩论吗？

辩论代表了人类大脑的一种主要认知活动，需要同时应用广泛的语言理解和语言生成能力，一个自主的辩论系统超出了以往语言研究的范围。

不过，来自 IBM 的 AI 研究团队报告了一项最新的研究进展：Project Debater（意为 “辩手项目”），经评估，该系统已可以与人类专家选手进行体面且有意义的现场辩论，它能通过储存了 4 亿篇新闻报道和维基百科页面的知识库，自行组织开场白和反驳论点。

图｜Project Debater 与人类选手辩论（来源：IBM）

相关论文以 “An autonomous debating system”（一个自主辩论系统）为题，于 3 月 18 日以封面文章的形式发表在顶级科学期刊《自然》（Nature）上。

据了解，Project Debater 最早于 2011 年被提出，堪称 “十年磨一剑”，研究人员的目标是让 AI 与人类进行现场辩论时应对自如。另外，他们还强调了 AI 与人类进行辩论和在游戏竞赛中挑战人类之间有着根本区别，这有助于让 AI 走出 “舒适区”，因为在辩论领域，人类仍然占优势，AI 需要新的范式才能取得实质性进展。

初次亮相就对阵冠军选手

研究人员定义了一种辩论形式，它是学术竞争性辩论中常用的辩论风格简化版，即一旦被称为 “辩论动议” 的主题宣布，Project Debater 和人类选手都各有 15 分钟的准备时间。

准备就绪后，双方就开始轮流发言，开场发言和第二次发言各为 4 分钟，闭幕发言各有 2 分钟，演讲通常由支持动议立场的论据和反驳该立场的观点论据组成，辩论前后观众们会对辩论动议进行投票，能争取更多选票的选手被宣布为胜利者。

图｜辩论流程与格式的详细情况（来源：Nature）

Project Debater 的一次正式亮相是在 2019 年 2 月 11 日，它与一位广受认可的辩论冠军 Harish Natarajan 进行了一次现场辩论较量，Harish Natarajan 是 2016 年世界大学辩论锦标赛的总决赛选手，也是 2012 年欧洲大学辩论锦标赛的冠军，此次辩论也是 AI 在公众面前的首次现场辩论。

虽然最终观众的投票结果仍是人类胜利，但 Project Debater 的表现给观众留下了深刻的印象，尽管它的修辞技巧仍未达到专业选手的水平，但它已能够指出辩论中的相关要点。

图｜Project Debater 与 Harish Natarajan 的现场辩论（来源：IBM）

而这次研究论文的重点，则是描述 Project Debater 系统及其在广泛辩题中的结果，而不是这个特定的事件。

考虑到参与辩论所需的任务的多样性，以端到端系统的形式设想一个整体解决方案，例如一个单一的神经模型，几乎是不可行的。相反，IBM 研究团队的做法是将问题分解为并行执行的模块化具体任务。

有趣的是，其中一些相关研究受到了科学界的高度关注。例如，上下文相关的语境检测和上下文相关的证据检测任务是在该项目背景下提出和制定的，现已成为计算论证界的一个活跃研究领域。

AI 辩手是怎样练成的？

整体来说，Project Debater 由四个主要模块组成：论点挖掘、论据知识库（AKB）、论点反驳和论证构建。

其中，论点挖掘主要分两个阶段进行。在离线阶段，基于约有 4 亿篇报道文章的大型语料库（来自 LexisNexis2011-2018 语料库），把文章分成句子，并用其中的单词、维基百科的概念、它们提到的实体以及预定义的词汇来索引这些句子。到了在线阶段，一旦辩论动议被提出，系统就依赖此索引进行全语料库的句子级参数挖掘、检索与动议相关的立场声明和证据。

具体而言，首先，使用定制查询检索包含此类论据的高倾向性句子；接下来，使用神经模型根据这些句子代表相关论据的概率对它们进行排序；最后，结合神经网络和基于知识的方法对每个接近动议的论点立场进行分类。

图｜Project Debater 辩论系统架构（来源：Nature）

在此过程中，系统还使用主题扩展组件来更好地包含相关参数的范围。也就是说，如果主题扩展组件成功识别出与辩论相关的其他概念，它会请求参数挖掘模块也搜索描述这些概念的参数。此外，论点挖掘模块还搜索支持另一方的论据，目的是准备一组对手可能使用的论据和可能作为回应的证据，这一套操作稍后由反驳模块使用。

AKB 旨在捕捉不同辩论之间的共性。AKB 中的文本包含原则性的论点、反证论点和可能与广泛主题相关的常见例子，这些文本是手动编写或自动提取然后手动编辑，并分组成专题类。

给定一个新的辩题，系统能使用基于特征的分类器来确定哪些类与该辩题相关。然后，所有与匹配类相关联的文本都可以潜在地用于语音中，系统根据它们与辩题的语义关联性来选择那些它预测最相关的文本，这些文本不仅包括论点，还包括鼓舞人心的引语、丰富多彩的类比、辩论的适当框架等等。

在论点反驳阶段，IBM 的 Watson（沃森）将使用其针对定制语言和定制声学模型的自动语音到文本服务，将人类对手的语音转换为文本，神经模型会将获得的文本分割成句子，并添加双关语。

下一步，专用组件会确定哪些提前预测的论据确实由对方陈述，并针对性提出反驳。除了基于主张的反驳论据之外，AKB 的关键情感术语也被识别出来，并作为简单反驳形式的索引。

最后的论证构建模块，则是一个集成聚类分析的基于规则的系统。在删除了预先指定为冗余的参数之后，剩余的参数将根据语义相似性进行聚类，对于每个集群，都会确定一个主题，类似于一个维基百科的概念。

系统会选择一组高质量的论点集群。接下来，使用各种文本规范化和重新措辞技术来提高流利性，最后使用预定义的模板逐段生成每个语音，完成与对手的辩论交流。

AI 的辩论能力如何？

与玩游戏、下围棋等竞赛不同，辩论往往掺杂着更多主观因素，因此客观评估一个 AI 辩论系统的性能是项挑战，因为没有一个统一标准来决定辩论胜利者。

在公开辩论中，辩论前后观众的投票可以决定 “获胜” 的一方，但这种方法存在固有的局限性。

首先，如果辩论前的观众投票高度不平衡，那其中一方的胜辩压力必定就很高；其次，投票涉及个人意见，并可能受到各种难以量化和控制的因素影响；另外，创造一个有大量公正观众的现场辩论是复杂的，而制作多场这样的辩论更是如此。

尽管如此，研究人员为了评估 Project Debater 系统的总体性能，将其与各种基线进行比较，并跟踪其随时间的进展情况，由于 Project Debater 之外，研究人员并没有发现其他自动方法可以参加一个完整的辩论活动，因此，对比的范围也是在有限任务下进行，比如生成一个辩论开场白，这显然是任何辩论系统应该具备的第一步。

图｜Project Debater 系统对比评估（来源：Nature）

研究人员选择了 78 个动议来评估当一个新的辩题出现时，各种 AI 系统以及人类专家的表现，每一次演讲都由 15 位评审员进行了回顾评分，以判断此演讲是否能作为支持辩题立场的良好开场白，其中 5 分表示高度一致。Project Debate 的评估结果明显优于其他系统，并且非常接近人类专家的得分。

在开场白之后的评估中，研究人员使用了相同的 78 个动议，再次要求被选中的一组人群想象自己是辩论听众，在这种情况下，让他们阅读三篇辩论演讲，但不告知演讲的来历。结果显示，所有辩题 Project Debater 的平均得分均高于中立 3 分，78 个动议中有 50 次表现的平均得分≥4 分，这表明在至少 64% 的动议中，群众评论员认为 Project Debater 在辩论中表现 “良好”。

不过，虽然 Project Debater 得分显著高于所有对比基线和对照组的得分，但距离人类专家的得分还有明显差距。

图｜Project Debater 输出的辩论内容类型分析（来源：Nature）

值得注意的是，研究人员还将 Project Debater 系统的内容组成与人类预先准备的信息相结合，围绕关键主题进行分组，以提供关于广泛主题的知识、论据和反驳。所以，知识库中还补充了所谓的 “罐装” 文本 —— 由人类预先编写的句子片段 —— 可用于在辩论中介绍和组织文稿。

在进一步评估中，研究人员检查了所有 78 个动议辩论演讲中的内容类型相对分布。结果是，Project Debater 只有不到 18% 的内容是来自传统的 “罐装” 文本，而剩下的内容是由更高级的 AI 底层系统组件提供的。

在 Nature 评论文章中，来自英国邓迪大学（University of Dundee）辩论技术中心的 Chris Reed 撰文表示，这一发现暗示了一个未来，即 AI 可以帮助人类制定和理解复杂的论点。

在 AI 领域，开发能够识别人类自然语言中的论点的 AI 系统是一项最严峻的挑战。Project Debater 展示了该领域的研究已经取得了很大的进步，并强调了在开发能够识别、生成和辩论观点的技术时，将不同 AI 组件（每个组件处理特定任务）集成在一起工作的重要性，无疑这是一项巨大的工程壮举。

同时，他也指出了一些问题，Project Debater 系统最薄弱的方面或许就是，它努力在模仿人类辩手在思维和表达方面的连贯性和流畅性 —— 这个问题与论据选择、抽象表达和编排论点的最高层次有关，且这种局限性并不是 AI 系统所独有的，人类初级选手同样存在。

舌战群儒般的高超辩论技巧是门艺术，而构成好的论据组合的模式也是极尽不同的，因此，仅仅通过询问人类观众是否认为这是 “一场体面的辩论表演” 来评价 Project Debater 的性能也是另一种局限。在现实世界中，没有明确的界限来界定论点，发生在辩论之外的讨论也不是离散的，而是与交叉引用、类比、例证和概括的网络互连。

图｜Project Debater 工作流程示意图

探索舒适区之外的能力

在论文讨论部分，研究人员表示，AI 和自然语言处理（NLP）的研究通常集中在所谓的 “狭义 AI” 上，由狭义定义的任务，通常具有明确的评估指标，并适合于端到端的解决方案，例如那些源于深度学习技术研究的快速落地的解决方案。

相反，“复合 AI” 任务，即与更广泛的人类认知活动相关的任务，需要同时应用多种技能，AI 系统处理的效率较低。

自 20 世纪 50 年代以来，AI 技术突飞猛进，能执行日益复杂的任务，在游戏或棋盘竞赛中的明确规则下，是 AI 发挥能力的 “舒适区”。

首先，游戏中有一个明确的赢家定义，便于使用强化学习技术；其次，游戏中的每个动作都有明确的定义，可以被客观地量化，从而训练竞赛技巧；另外，在玩游戏时，AI 系统会想出任何策略来确保获胜，即使相关的动作不容易被人类理解；最后，对于许多 AI 任务挑战，大量相关的结构化数据是可用的，这对于系统的开发必不可少。

这四个特点在竞争性辩论中却并不适用，竞争性辩论需要一种高级的使用人类语言的形式，一种有很大的主观性和解释空间的形式，相应地，往往没有明确的赢家。而许多现实世界的问题本质上也是模糊的，站在不同角度的立场也根本不同。

对于 AI 系统来讲，使用人类可能无法捉摸的策略赢得辩论似乎不太可能，特别是在需要人类观众评判胜利者的情况下。因此，在人类所擅长的辩论比赛中，走出舒适区的 Project Debater，还有许多问题有待解答。

参考资料：
https://www.nature.com/articles/s41586-021-03215-w
https://www.nature.com/articles/d41586-021-00539-5

https://www.research.ibm.com/artificial-intelligence/project-debater/

https://www.mercurynews.com/2019/02/11/ibms-ai-loses-debate-to-human-but-has-strong-showing/
https://www.mercurynews.com/2019/02/11/ibms-ai-loses-debate-to-human-but-has-strong-showing/

Nature封面：AI与人类斗嘴谁更强？IBM团队发布“AI辩论家”最新研究进展

相关推荐