用AI玩55款经典游戏是什么体验？

2024-06-12 11:49:31

“脚本之家

”，与百万开发者在一起

作者 | Jack Cui

来源 | Jack Cui（ID：JackCui-AI）

大家好，我是 Jack。

用 AI 算法玩游戏，打破人类玩家的记录，是一种什么体验？

DreamerV2 agent（智能体）可以在 Atari（雅达利）的 55 款经典游戏中挑战人类玩家。

其中不乏我们熟悉的打砖块、蒙特祖玛的复仇、小蜜蜂等经典游戏。

可能有些朋友不知道 Atari，这里简单介绍一下。

1976 年，Atari 公司在美国推出了 Atari 2600 游戏机，这是史上第一部真正意义上的家用游戏主机系统。

80 后、90 后非常熟悉的 FC 红白机（超级马里奥、魂斗罗、松鼠大作战、坦克等等）则是十几年之后的事情了。

正是这样的一台主机创立了现在上千亿美元的家用游戏机产业。

今天要说的主角 DreamerV2 就是在这样一系列具有纪念意义的游戏中的 agent （智能体），Google 的最新力作。

在没有人为的干预下，DreamerV2 agent 可以学习自己打游戏，并且比肩人类，甚至超越。

这样一个看似高大上的算法，咱们现在都能玩！

DreamerV2 刚刚开源，并且只需要一个 GPU 就能跑！

本文，就先带大家简单学习一下 DreamerV2 的原理，以及如何让这个算法打游戏！

强化学习

强化学习是机器学习的一个领域。

这就像训练宠物一样。当宠物做出了指定动作之后，我们给它一些食物作为奖励，使它更加坚信只要做出那个动作就会得到奖励。

这种训练叫 Reinforcement Learning（强化学习，简称 RL ）。

DreamerV2 就是一种 RL 算法，举个简单的例子，说明下工作原理。

上图的网络，最左边是输入，右边是输出。游戏屏幕的图像是输入数据，经过卷积层和全链接层，最后映射到游戏手柄所有可能的动作。

强调如何基于环境而行动，以取得最大化的预期利益。

其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。

在强化学习的世界里，我们的算法被称为 Agent，它与环境发生交互。

Agent 从环境中获取状态（state），并决定自己要做出的动作（action）。

环境会根据其自身的逻辑给 Agent 予以奖励（reward）。这个奖励有正向和反向之分。

比如，动物生活在大自然中，吃到食物即是一个正向的奖励，而挨饿甚至失去生命就是反向的奖励。

动物们靠着自己的本能趋利避害，增大自己得到正向奖励的机会。

如果反过来说，就是避免得到反向的奖励，而挨饿什么的最终会导致死亡。

所以动物生存的唯一目的其实就是避免死亡。

再举个感同身受的例子。

小时候不写作业就挨揍，这就是反向的奖励。

在电子游戏世界（特指Atari 2600这一类的简单游戏。不包括推理解密类的游戏）中：

环境指的是游戏本身，包括其内部的各种逻辑；
Agent指的是操作游戏的玩家，当然也可以是指操作游戏的AI算法；
状态就是指游戏在屏幕上展现的画面。游戏通过屏幕画面把状态信息传达给Agent。如果是棋类游戏，状态是离散的，状态的数量是有限的。但在动作类游戏（如打飞机）中，状态是画面中的每个物体（飞机，敌人，子弹等等）所处的位置和运动速度的组合。状态是连续的，而且数量几乎是无限的。
动作是指手柄的按键组合，包括方向键和按钮的组合，当然也包括什么都不按（不做任何动作）。
奖励是指游戏的得分，每击中一个敌人都可以得到一些得分的奖励。
策略是Agent脑子里从状态到动作的映射。也就是说，每当 Agent 看到一个游戏画面（状态），就应该知道该如何操纵手柄（动作）。RL 算法的任务就是找到最佳的策略。

DreamerV2 是一种理解环境的强化学习算法，我们称为 Model-Based RL。

DreamerV2 只需要输入游戏的图像画面，即可学习。它建立在循环状态空间模型（RSSM）的基础上，在训练过程中，编码器会对图像进行随机表示，并整合到世界模型的循环状态中。

由于画面表示是随机的，Agent 需要提取有效信息再进行预测，这样可以让 Agent 对未见过的画面更具鲁棒性。

DreamerV2 的详细论文解读，可以看这个视频：

https://youtu.be/o75ybZ-6Uu8

跑起来

DreamerV2 项目地址：

https://github.com/danijar/dreamerv2

算法需要使用 Tensorflow 2，版本为 2.3.1，用的游戏环境是 OpenAI 的 Gym。

这是一个支持 Python 语言的游戏环境库，一款用于研发和比较强化学习算法的工具包，它支持训练 Agent 做任何事情，从行走到玩游戏。

直接安装需要的第三方库。

pip install --user tensorflow==2.3.1

pip install --user tensorflow_probability==0.11.1

pip install --user pandas

pip install --user matplotlib

pip install --user ruamel.yaml

pip install --user 'gym[atari]'

配置好后，就可以开始训练我们自己的 Agent 了。

python dreamer.py --logdir ./logdir/atari_pong/dreamerv2/1 \    --configs defaults atari --task atari_pong

使用 Tensorboard 监控训练情况。

tensorboard --logdir ./logdir

动手训练一个自己的 Agent 吧！

end

一个字：绝

你该掌握的AI技能：强化学习01

题图由人工智能设计师完成最近在看一些强化学习的书籍,学习的过程就是要不断的输入,查找资料,理解各种资料,然后输出,总结学习心得,再次输入,输出.不断的重复输入输出这一过程,直至灵活运用学来的知识,转 ...
天地志 | 下一次太空热潮

Facebook首次披露自研AI芯片细节: 为视频而生,LeCun挂帅 Facebook独立自主研发AI芯片的消息,不是新消息. 但为什么一定要自己做?又打算用来做什么?自主芯片会带来哪些不同? 之前 ...
使用离散世界模型掌握 Atari

深度强化学习 (RL) 使人工代理能够随着时间的推移改进他们的决策.传统的无模型方法通过大量试错与环境交互来了解哪些动作在不同情况下是成功的.相比之下,深度强化学习的最新进展使基于模型的方法能够从图像 ...
MuZero：用学习模型规划MuZero玩转雅达利、围棋、国际象棋和日本将棋

Karen Simonyan, 1 ∗ ^{1*} 1∗ Laurent Sifre, 1 , 2 ∗ ^{1,2*} 1,2∗ Simon Schmitt,1 Arthur Guez, 1 ∗ ^{ ...
超越人类的多任务学习算法，将给AI带来什么？

过去十几年,人类可以说是在机器智能面前节节退败,屡败屡战.而多任务处理(multi-tasking),几乎是为数不多可以让我们"天生骄傲"的能力了. 比如,人可以同时打开8个网站. ...
90 后注意！超级玛丽、魂斗罗…20 款经典游戏都能在手机上玩了！

每个 90 后都有过的童年回忆: 小霸王学习机. 小雷回忆起我的童年,真是甜蜜又心酸. 插上 100 合 1 的卡带,我就感觉拥有了全世界. 不幸的是,我一玩就停不下来,谁来都叫不动.每天都是以爸妈拿 ...
国内168款经典游戏ip分布及手游改编现状

问:如何每天看到最实用的行业文章? 答:关注[游戏客栈]啊! [游戏客栈原创内容欢迎注明出处的各种形式转载] 文/游戏客栈字幕近日,CAPCOM宣布成立 Mobile有限公司,旨在正式进军手 ...
公测14年，这款经典游戏如何持续满足玩家的精神世界？

游戏日报提到游戏与传统文化联动,大多数人联想到的,可能只有社会责任.但根据中国青年报的一项社会调查显示,有88.8%的受访青年关注电子游戏中的传统文化元素,86.6%的受访青年喜欢融入传统文化元素的 ...
硬盘中必备的十款经典游戏大作，错过了就找不到了

现在的单机游戏发展速度很快,同时也让一些过时的单机游戏淘汰,在玩家的视线中,渐渐消失,但是经典游戏并不会淘汰,有情怀的玩家依旧会选择经典游戏重温,那么本期就为大家推荐10款经典游戏大作,它们应该在你的 ...
打着团战突然唱起了歌？这款经典游戏是要搞什么事情！

现在这个世道啊真的是要搞事哦,不是卖肉就是卖腐.比如每次明明浏览的都是正规网站,却总是会被各种弹窗小广告搞得面红耳赤. 尤其是作为一个正直而又有节操的十几年游戏老司机,在看到那些连我都没眼看的网游广告 ...
这十款经典游戏大作，放到现在也不落后

随着游戏的不断发展,单机游戏已经越来越多,而且新游戏发布的频率更快,这使得老游戏加速淘汰,一点一点的脱离玩家视线,但是出色的经典游戏,依旧不会使玩家们忘记,而且经典作品永远不会过时.那么本期就为广大游 ...
索尼推出PlayStation Classic复刻主机，赠送20款经典游戏

任天堂此前曾经把自己的经典游戏主机NES和FC红白机做成复刻的迷你版,他们深受老玩家喜爱,而另一家日系游戏主机厂索尼也打算把经典的PlayStation主机复刻一次,索尼宣布在12月会上市PlaySt ...
从战术到战略升级，想不到一款动作游戏还能体验“左右互搏”

8月30日,日本白金工作室的新作<异界锁链>在NS平台正式发售.这款被全球ACT爱好者们翘首以待的作品,一经发售就在媒体和玩家间获得了极高的口碑赞誉.IGN9分.GS8分.目前Metacr ...
盘点童年13款经典FC游戏，绝对有你曾玩过的

80后小的时候,电脑还没有普及,唯一的电子娱乐就是红白机,或者小霸王山寨机,插上卡带就能玩游戏,当时四合一的卡稍贵,但游戏质量很好,多合一的便宜,但游戏质量一般,那你还记得有哪些是你曾经玩过的游戏呢? ...

用AI玩55款经典游戏是什么体验？

强化学习

跑起来

相关推荐