DeepMind 拟通过游戏来训练AI

去年,DeepMind 研究人员写道,未来的人工智能开发人员可能会花更少的时间来编程算法,而将更多的时间用于生成丰富的虚拟世界来训练它们。

在本周在预印本服务器 arXiv 上次发布的一篇新论文中,他们似乎非常认真地对待该预测的后半部分。

该论文的作者表示,他们为 AI 创建了一个充满挑战的虚拟游乐场。这个名为 XLand 的世界是一个充满活力的视频游戏,由人工智能霸主管理,并由必须学习导航技能的算法填充。

游戏管理 AI 密切关注游戏算法正在学习的内容,并自动生成新的世界、游戏和任务,以不断面对新体验。

该团队表示,一些资深算法师在 4,000 个 XLand 世界中玩约 700,000 场游戏时面临 340 万个独特任务。但最值得注意的是,他们开发了一套通用技能,与任何一款游戏无关,但对所有游戏都有用。

这些技能包括实验、简单的工具使用以及与其他玩家的合作。掌握通用技能,算法在面对新游戏时表现良好,包括更复杂的游戏,例如夺旗、捉迷藏和标签。

这是朝着解决深度学习中的主要挑战迈出的一步。大多数经过训练以完成特定任务的算法——比如在 DeepMind 的案例中,在围棋或星际争霸等游戏中获胜——都是学者。他们在他们知道的一项任务上是超人的,而在其他任务上却毫无用处。他们可以在围棋或国际象棋中击败世界冠军,但必须从头开始重新训练才能做其他任何事情。

DeepMind 表示,通过向深度强化学习算法展示一个开放式、不断变化的世界供学习,他们的算法开始在新的前所未见的任务中展示“零样本”学习。也就是说,他们不需要再培训就可以在体面的水平上执行新任务——看不见的。

一个 AI 玩家通过敲打东西来进行实验,最终找到了一个有用的工具——通往目标的斜坡

这是朝着更通用的算法迈出的一步,这些算法可以在同样无限新颖的现实世界中进行交互、导航和解决问题。

但 XLand 并不是人工智能社区最近对泛化的第一个暗示。

OpenAI 的 GPT-3 可以生成不可思议的书面段落——它的主要目的——但它也可以做其他事情,比如简单的算术和编程。只需几个示例即可对其进行微调。(OpenAI 说 GPT-3 展示了“小样本”学习。)

去年,DeepMind 自己开发了一种算法,该算法编写了自己代码的关键部分,称为价值函数,通过投射奖励来指导其行动。令人惊讶的是,在非常简单的“玩具世界”中接受训练后,该算法继续以超人的水平玩 14 款它从未遇到过的 Atari 游戏,其性能有时与人类设计的 AI 不相上下。

值得注意的是,算法训练的“玩具世界”越多,它的泛化能力就越好。当时,该团队推测,如果有足够多的精心设计的训练世界,该方法可能会产生通用的强化学习算法。

XLand 的开放式学习让我们在这条路上走得更远。然而,这条路能走多远是一个开放且激烈争论的问题。

在这里,算法在一个相对简单的世界中玩相当简单的游戏(尽管经过巧妙调整以保持新鲜感)。目前尚不清楚这些算法在更复杂的游戏上的表现如何,更不用说在整个世界中了。但如果 XLand 是一个概念验证,他们的发现可能表明越来越复杂的世界将产生越来越复杂的算法。

事实上,DeepMind 的研究人员最近将其置于地下,认为(至少在哲学上)强化学习——该组织最引人注目的成功背后的方法——是我们获得通用人工智能所需的一切。与此同时,OpenAI 和其他公司正在大规模进行无监督的深度学习,以实现高级自然语言处理和图像生成。

并非所有人都同意。有些人认为深度学习会碰壁,必须与其他方法配对,比如符号人工智能。但该领域的三位先驱——Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun——最近共同撰写了一篇论文,提出了相反的观点。他们承认深度学习的缺点,包括缺乏灵活性和效率低下,但相信它可以在 不求助于其他学科的情况下克服挑战。

撇开哲学争论不谈,狭义的人工智能已经产生了巨大的影响。

DeepMind 最近展示了它的AlphaFold 算法,它可以预测蛋白质的形状。该组织刚刚发布了 350,000 种蛋白质的预测形状,几乎包括人体中的所有蛋白质。他们说还有1亿正在路上。

从这个角度来看,科学家们几十年来已经研究出大约 180,000 种蛋白质的结构。DeepMind 的蛋白质下降一举使计数几乎翻了一番。新创建的蛋白质库尚未得到科学家的严格证实,但对他们来说将是一个有价值的工具。他们将有一个模板(可能更多)来工作,而不是从一张白纸开始。

无论对通用人工智能的追求如何,似乎仍有足够的空间供其更专业的先驱者使用。

更多人工智能相关知识,请搜索“众壹云”

(0)

相关推荐