OpenAI亲谈：我们眼中的GPT-3、大规模语言模型的局限性与出路在哪

2024-07-31 09:15:46

2020年10月14日，来自OpenAI、斯坦福大学HAI研究所等机构的研究人员召集在一起，讨论围绕GPT-3的开放研究问题。

参与研讨会的学者有各种研究背景，包括计算机科学、语言学、哲学、政治学、通信、网络政策等。大致来讲，本次研讨会围绕两个主要问题：

大型语言模型的能力和局限性是什么？讨论涉及几个关键领域，包括：规模型对模型功能的巨大影响；评估大型语言模型是否真正理解语言的困难；在多种数据模态下训练模型的重要性；以及使模型目标与人类价值观相一致的挑战。
被广泛使用的大型语言模型的社会影响是什么？讨论涉及了几个关键领域，包括：难以确定通用语言模型的所有可能使用（或滥用）场景；机构在模型部署中可能面临的挑战；模型在算法层面上泄露信息的潜在可能；减少模型偏见（例如：种族、性别、宗教信仰等）存在的阻碍；以及基于语言模型的自动化应用对劳动力市场的影响。

在会后，来自斯坦福大学、OpenAI 与 AI Index 的数位参会者对讨论内容进行了整理与概括，撰文如下：

论文链接：https://arxiv.org/abs/2102.02503

在开放性的讨论中，作者等人希望给大家提供多角度观点，引起思考，共同寻求解决方案。

技术能力和局限性

1）规模效应

GPT-3是最大的语言模型之一：它具有1,750亿个参数，并且接受了570 GB的文本训练。相比之下，其前身GPT-2（功能与GPT-3类似）具有15亿个参数，并接受了40 GB的文本训练。尽管GPT-2对下游任务展示了一定程度的零样本泛化能力，但当上下文中给出示例时，GPT-3进一步展示了学习更多新颖任务的能力。参会者发现，令人称奇的是，这种泛化能力仅来自于增加模型和训练数据的规模。

有人指出，随着模型规模增加而实现的能力扩展的现象，“就像物理学定律或热力学定律”存在稳定性和可预测性。一些参会者乐观地认为，即使对于比GPT-3大得多的模型，这些趋势仍将继续生效，以后将会出现越来越强大的模型，并能够以更加先进的方式从少量训练示例中学习新的能力。

一位参会者指出，像GPT-3这样的模型规模让人想起了大型粒子加速器实验，构建这样的加速器需要许多不同背景的研究人员。例如，当训练如此大的模型时，具有不同专业知识的不同团队必须协作以运行实验、构建和维护计算基础架构、开发算法，并不断测试模型的功能，以解决可能出现的问题（例如：偏见、滥用、安全性等等）。

2）理解

语言模型中的“理解”是什么构成的？GPT-3是否满足此定义？有些人倾向于基于强智能的概念进行定义，这些概念要求模型具有意图或对现实世界中的请求做出响应的能力。其他人则提出，GPT-3还有一些尚未满足的更弱的智能概念，包括对对抗样本的鲁棒性，这些示例很容易使AI系统感到困惑，而对人类却没有影响。参会者建议，如果模型在稀有但重要的输入上表现不佳，则“基本正确”地解决问题可能不足以被视为理解。

理解的另一个定义围绕因果关系的概念，因为真正理解的模型应该掌握数据特征与所需行为之间的因果关系。一些人认为语言模型不可避免要利用数据中固有的“虚假关联”或“捷径特征”，因此缺乏真正的潜在因果模型。但是，一位参会者提出了另一种观点：语言模型如果具有足够的数据，可能会形成“自然实验”效应，从而使模型能够以类似于人类的方式，从观测数据中学习因果关系。

一些参会者反对理解的二元论，并强调了儿童和成人随着时间逐渐掌握更强大技巧的现象。例如，一位参会者引述了一位著名的物理学家的话，“我第三次教热力学时才了解热力学。”另一位参会者反对单一的理解概念，强调了语言学家和哲学家之间关于意义的辩论，即“意义是从表达之间的关系，还是从某种外部基础真理中衍生而来的？”

最后，一些参会者对理解的关注提出了质疑，认为人类能够以平庸甚至缺乏理解的方式来完成许多任务，其中包括最近赢得了法国拼字游戏冠军的非法语选手。有人则表示，关于GPT-3是否以相关方式理解语言的判断，或许与其是否能成功完成任务无关。

令人印象深刻的是，一位参会者还谈到了一个反向问题，即人类对大型语言模型的能力的理解：“ GPT-3完全是陌生的。问它是否是AGI并不是一件愚蠢的事情。”

3）多模态

大部分讨论都涉及了多模态模型的重要性，多模态模型是对来自其他模态（例如图像、语音等）的数据进行训练的语言模型。参会者大体上同意，大型多模态模型将变得更加普遍，并实现更多功能。实际上，在研讨会之后不久，OpenAI就发布了DALL-E，它是GPT-3的多模态版本，接受了文本到图像转换的训练。

但是，有人认为GPT-3已经在多模态数据上进行了训练，因为训练数据包含散文、结构化数据表和计算机代码。其他人则认为，多模态训练的主要好处可能是让模型更快学习到有用的功能，因为不同数据模态之间的相互作用，可能会比单独的数据模态提供更强的学习信号。最后，一些人评论说，鉴于人类在所能使用的感觉模态范围方面存在差异，因此没有任何其他模态对语言使用至关重要。

4）价值匹配

参会者讨论了模型的目标需要与人的价值更好地匹配。例如，一位参会者提到了一些语言模型对所有的语言符号（例如：名词、介词、数字等）一视同仁，但人类则不一样。其他几位参与者强调了更好地优化事实准确性和对抗鲁棒性的挑战。人的价值和模型的目标的匹配被认为非常重要，尤其是针对通过与环境积极互动学习的“嵌入式” AI智能体。参会者还强调开发更好的算法使智能体对人的价值“转向”，以及促进跨学科的合作，更好地阐明什么是“人的价值”，尤其是考虑到跨越个人和社区的多样性，以及数据集中存在的偏见。

GPT-3 被广泛使用的好处

1）功能

GPT-3 的功能非常强大，可以进行文本概括、机器人聊天、搜索、代码生成和文章生成。

在会上，有人提出：GPT-3 的功能如此震撼，既要仔细管控所有用途（因为 GPT-3 接受任意输入，却无法事先预测模型的所有可能表现），又要保证人类社会的安全不受 GPT-3 威胁，其实是极具挑战性的。

会上的许多人也注意到，如果使用访问受限的 API 对 GPT-3 进行延误，那么OpenAI 比开源更容易地控制模型的使用。

但这种方法也有许多亟待解决的问题，比如：谁可以访问，为什么可以访问？要如何提供模型访问权限来支持大型社区进行大规模的团队协作（检查模型的潜在误用和制定缓解策略）？

2）部署

参会者讨论了部署大规模语言模型可能带来的道德和社会挑战，以及应对这些挑战的方法。

一个建议是增加供学术界使用的计算资源，以便学者研究大规模语言模型的部署。有人提出，设立法律法规，要求使用者披露何时使用 AI 生成文本，可能有助于管理大规模语言模型的影响。另一位参会者则询问：能不能通过某些标准来评估语言模型是否具有社会效益？大家都认为这是一项极具挑战但十分重要的任务。

几位参会者认为，OpenAI 和其他组织不会永远垄断大规模语言模型。他们提到，开发者可能只能垄断 6-9个月，直到其他研究人员复现他们的结果。大家达成一个共识：最前沿的研究机构应利用其前沿地位，负责任地制定新兴领域的标准规范。

此外，还有一些参与者指出，由于技术标准的进步，随着时间的推移，复制 GPT-3 之类的模型会越来越容易。这也进一步表明了使用当前时间窗口的紧迫性。在该窗口中，极少行动者拥有非常大规模的语言模型，并难以制定恰当的规范和原则供其他人遵循。

3）假消息

会上讨论的另一个主要话题是关于错误使用语言模型来生成虚假信息。

具体来说，类似 GPT-3 之类的模型可以用于创造错误的、具有误导性或公关性的文章、推文和新闻报道。

有人认为，此前的一些技术（比如摄影和PS）也会带来相似的问题，社会大众已经提高对此风险的防范意识，因此不必太担心；此外，虽然 GPT-3 在原则上确实可能自动生成虚假消息，但相比用 GPT-3 制造假消息，人工传播谣言似乎更节约成本。

另一些人不同意上述观点。他们认为，语言模型自动生成虚假消息的成本，要远低于培训并支付人力去制造虚假消息的成本。

大家都认为：实际调查自动生成虚假信息与人为制造虚假信息的经济学规律非常重要。

往前看，有人提议，我们不妨设想：在未来，语言模型生成的文本不仅与大家讨论的话题相连贯，而且在任一话题上都具有很强的说服力。

另一位参会者指出，GPT-3或将来的其他语言模型可能会使虚假信息难以或无法从内容上检测出来，从而迫使通过在线平台依赖元数据。同样地，有人建议，诸如 GPT-3之类的系统存在应该鼓励大家更多地使用加密技术来认证媒体。

4）偏见

GPT-3 表现出多类种族偏见、性别偏见和宗教偏见。

一位讨论者将解决语言模型偏见的难度类比为解决在线平台的内容审核难度。尽管两者均存在制定规范的难度，但有些方面也存在缓解的共识与机会。比如，在线平台一致认为有必要解决儿童色情产品或严重的暴力威胁，歧视法中的“受保护阶级”概念也为思考某些语言模型偏见提供了有用的初始框架。

几位研讨会的参与者指出，我们很难以通用的方式定义怎样才算减轻大规模语言模型的偏见问题，因为恰当的语言使用在很大程度上取决于上下文语境。

一位与会者说到，所有数据集在某些方面都有偏见，因此我们面临的挑战不是消除所有偏见，而是根据某些规范和/或法律标准来解决有害的偏见。

一些人建议，类似 OpenAI 这样的公司没有恰当的立场来代表社会制定规范。还有一些人发现，我们很难通过更改训练数据来减轻 GPT-3 等多功能系统的偏见，因为偏见通常是在特定的使用案例下进行分析的。

与会者讨论了如何解决语言模型中有害偏见的多种可能方法，包括：

· 更改初始训练数据，提前减少偏见

· 训练一个单独的模型来过滤语言模型所生成的内容

· 从必要数据上对大规模语言模型进行微调

· 标记数据，以便模型可以学习区分某些形式的内容（可以参见CTRL）

· 将模型训练得更“了解事实”

· 使用人类反馈进行强化学习

· 利用模型本身的知识来改善输出（例如，精心设计提示）

· 开发更多模型在部署前可以运行的“偏见测试”套件

· 与值得信赖的合作伙伴共同研究模型，提供一定的商业服务

这些方法都不是万能的。例如，使用人类反馈来操纵模型仍然会引发问题：人类标记者是谁？如何选择人类标记者？此外，内容过滤器有时会破坏他们要保护的特定智能体（例如，收回大多数人用于诽谤的单词或词组，将这些群体边缘化）。

一位与会者争辩道，将人放置在文本生成的核心，对解决这些问题至关重要。还有一些参会者强调，鉴于现有技术的局限性，应避免使用语言模型的某些功能，且文本生成应用程序在开放性和风险性上的差异非常大。例如，检测正则表达式比管理自杀电话热线更容易处理。

5）经济

另一个讨论主题是关于 GPT-3 等模型的经济意义。参会者观察到，人们当前对涉及文本阅读或分析的工作有不同程度的期望，有些工作令人满意（例如创作写作或阅读与总结报告），而另一些工作则效果较差（例如内容审核）。这就提出一个问题：大型语言模型应该或不应该在什么时候或什么类型的工作上自动化？

一位与会者认为，如果让公司来作这类决定，可能会产生不良后果。大会还讨论到，教育也很可能受到较大语言模型的影响，这可能是论文写作过程以及评估文本的方式变化所导致的。

还有一位与会者提到，向社会不同领域的群体提供 API 访问权限，可以帮助传递潜在的社会变革的早期信号。

未来的研究方向

以下的研究问题受到了大会讨论的启发：

· 我们能否更好地理解为什么语言模型的规模会变得这么大？这能够帮助我们建立更能有效扩展的模型吗？

· 扩展的限制是什么？规模扩大会带来更强的因果推理，符号操控（symbolic manipulation），常识理解以及对更广泛输入类别的鲁棒性吗？还是需要用到不同的技术？

· 我们如何理解大型语言模型功能的局限性？我们是否可以让模型在不确定时寻求帮助、解释或弃权？

· 我们如何开发新的神经网络架构和算法，从而使模型能高效学习文本以外的多模态数据？

· 使大型语言模型的输出更符合人类价值观的不同方法分别涉及到哪些机会和权衡？

· 应该如何分配诸如 GPT-3的模型的访问权，并在安全性、可复制性和公平性等因素之间取得平衡？为了使 GPT-3 之类的语言模型在特定情况下安全或不安全使用，我们需要进行哪种测试？

· 学术界可以采取什么措施来最好地定位自己，以建立这种模型的工业发展护栏，包括提倡获得充足资金来复制训练所需的计算资源？

· 我们如何能最好地促进跨学科合作，以理解和管理大型数据集和此类数据集的模型表示中的偏见？

· 我们如何才能最好地描述此类模型的潜在“威胁态势”；例如，我们是否需要花费更多的时间来担心一些利润驱动的人使用这种模型来生成大量垃圾邮件，还是应该担忧一些人使用模型来生成具有说服力的文本，并在虚假宣传活动中使用？

· 与实现相同目标的替代方法相比，恶意者出于各种目的滥用语言模型的成本效益和技能密集度如何？

原文链接：

https://arxiv.org/pdf/2102.02503.pdf

像人类一样认识世界，AI需要哪些底层思维？

作者 | 琰琰近几年,多模态已经成为自然语言处理(NLP)领域的热点研究方向之一.得益于深度学习的兴起,大数据+大模型的双轮模式推动人工智能实现了跨越式发展.但大量实验证明,仅依靠"炼大模 ...
OpenAI的GPT-3说话了，请听！

新智元报道来源:IEEE Spectrum 编辑:LQ [新智元导读]有1750亿参数的超级语言模型GPT-3自发布以来广受关注,目前已有数百名开发者和公司应用了GPT-3,但随着它的商用, ...
【NLP】GPT：第一个引入Transformer的预训练模型

目前两种最重要的预训练语言模型,一种是前面介绍过的BERT,另外一种就是GPT. GPT出了两个版本,GPT1.0和GPT2.0,GPT2.0相对于GPT1.0差别不大,可以认为是它的增强版.本篇介绍 ...
写作神器还是魔鬼化身？万能语言模型GPT-3起底

「工程壮举」「人间奇迹」GPT-3,会让人类离没事做又近一步吗? 编译 | 心缘编辑 | 漠影 2020年6月,在训练约2000亿个单词.烧掉几千万美元后,史上最强大AI模型GPT-3一炮而红. ...
Demo演示“游戏智能NPC”，AI已经能嘲讽人类了？

对于每一个游戏玩家来说,NPC(非玩家控制角色)或许都不陌生,你可以通过他们学习游戏操作.了解游戏背景.得到任务线索和物品,甚至有些开放世界游戏里,你还能培养不同NPC的好感度,发展友情.爱情. 但是 ...
NLP：NLP领域没有最强，只有更强的模型——GPT-3的简介、安装、使用方法之详细攻略

NLP:NLP领域没有最强,只有更强的模型--GPT-3的简介.安装.使用方法之详细攻略导读:NLP领域的模型,没有最大,只有更大.博主这几天也仔仔细细看了这篇长达75页的论文,光署名作者都有二三十 ...
WenLan-10亿参数！别只玩GPT，来看看人大&中科院联手打造第一个大规模多模态中文预训练模型BriVL

▊ 写在前面近年来,多模态预训练模型在视觉和语言之间架起了桥梁.然而,大多数研究都是通过假设文本和图像对之间存在很强的语义关联来对图像-文本对之间的跨模态交互进行显式建模.由于这种强假设在现实场景中 ...
陈根：1.6万亿参数语言模型，最大规模的人工智能语言模型

文/陈根开发人工智能的语言模型,一直是人工智能的重要细分领域.人工智能语言模型应用包括搜索引擎.文字生成.个性化的对话工具以及软件生成等. 2020年5月,OpenAI的一组研究人员发布了具有里程碑 ...
GPT-3：被捧上天的流量巨星，却有一个重大缺陷，很危险...

来源:nature 编辑:yaxin [新智元导读]去年当红的流量明星非GPT-3莫属,能答题.写文章,做翻译,还能生成代码,做数学推理,不断被人们吹捧.不过,过誉的背后也有人开始质疑,GPT-3真的 ...
［首藏作品］（5696）把文本变成画作，AI对艺术“下手”了

把文本变成画作,AI对艺术"下手"了图为人工智能系统 DALL·E根据文本"穿着芭蕾舞裙遛狗的小萝卜"绘制的图像图片来源:OpenAI官网自然语言处理与视觉处理 ...
GPT-2：OpenAI的NLP商业化野望

自然语言处理(NLP)技术正在生活的方方面面改变着我们的生活. 客厅的智能音箱在跟你每天的对话中飞速进步,甚至开始跟你"插科打诨"来适应你的爱好习惯. 电商客服总是能在第一时间回复 ...
大型语言模型中的隐私注意事项

视频介绍:大型语言模型中的隐私注意事项经过训练以预测句子中下一个单词的基于机器学习的语言模型变得越来越强大.普遍和有用,从而导致问答.翻译等应用程序的突破性改进.但随着语言模型的不断发展,新的和意想 ...
人工智能“干掉”程序员后，又对艺术家下手了

人工智能领域缺钱,但这两个月来,他们不缺「好消息」. Google 母公司 Alphabet 旗下的 DeepMind,先推出了蛋白质结构预测 AI--AlphaFold 2,为困扰了生化学界 50 ...
被捧上天的GPT-3，商业化之路怎么走？

对于我个人来说,刚刚步入媒体圈,职业生涯就将遭遇一次非常严重的AI威胁. 因为GPT-3来了,而且在写文章.编故事的能力上面比上一代更能打了. 今年5月,已经得到微软Azure算力加持的OpenAI放 ...
机器人作家：生产语言的人工智能的发展和风险

Bard @ 2021.03.09 , 20:14 出色的AI可以像人类一样书写,但它对其中意思却一无所知. 2020年6月,硅谷新型而强大的人工智能(AI)已经开始让技术专家眼花缭乱.加利福尼亚州旧 ...

OpenAI亲谈：我们眼中的GPT-3、大规模语言模型的局限性与出路在哪

相关推荐