多智能体强化学习中的非平稳性问题
多智能体强化学习中的非平稳性问题 - hoogle的文章 - 知乎 https://zhuanlan.zhihu.com/p/72553328
1 简介
深度学习变革了在复杂环境中开发自主行动的智能体的方式.传统的强化学习(RL)方法使用表格表示或线性函数逼近器,从而难以扩展到高维环境中,主要应用于提供高层状态(high level state)表示的小网格世界或环境中.将深度学习与现有的RL算法相结合,可以开发在更大的状态空间(如图像)中发挥作用的智能体.近年来,可以处理具有大规模状态的环境与连续和离散的行动空间互相混杂的深度强化学习算法被不断提出.
多智能体系统由多个智能体在共享环境中进行操作和学习.许多现实世界中的决策问题可以建模为多智能体系统,如自主车辆控制、资源分配问题、机器人集群和人-机器人交互.尽管深度强化学习在单智能体环境中取得了一定的成功,但是传统的方法在多智能体系统中中还面临着一些额外的挑战.一个主要的挑战,也是本文的重点,是由在训练过程中智能体不断改变其策略从而导致的多智能体环境的非平稳性.这种非平稳性源于打破了大多数单智能体强化学习算法都遵循的马尔可夫假设.由于状态转移概率和奖励依赖于所有智能体的行为,然而这些智能体的决策策略在学习过程中不断变化,因此每个智能体都可以进入一个适应其他智能体所创建的环境的无终止循环.
多智能体系统的其他问题包括多智能体之间的信用分配、对环境的部分可观测性和智能体本身的异质性.在第一个问题中,可能只有一小部分智能体对奖励有贡献,我们需要识别并奖励它们,同时避免惩罚行为最优的代理.局部可观察性由只访问其局部观察值而不访问环境的实际状态的智能体组成,对环境的部分观测可能会显著阻碍训练性能.异质性是指智能体可能具有不同的感知和行为能力,并且它们的学习算法可能不同.
本文重在对多智能体强化学习中的非平稳问题进行一个综述介绍,最后对一些开放的问题和未来的研究方向进行讨论.
2 研究背景
在这一小节中,我们对之前强化学习工作中的定义和符号进行简单介绍,并且对多智能体强化学习中的非平稳问题进行描述.
2.1 马尔科夫决策过程
![](http://n4.ikafan.com/assetsj/blank.gif)
2.2 强化学习方法
![](http://n4.ikafan.com/assetsj/blank.gif)
在表格任务或者简单的线性近似中,时间差分方法和策略梯度方法很难用到大的状态和动作空间中.因此,深度网络被用来解决这一问题.
2.3 马尔科夫博弈
![](http://n4.ikafan.com/assetsj/blank.gif)
2.4 中心化和非中心化结构
有两种主流的结构可以被用在多智能体系统中.第一种结构是集中训练.在一个集中训练的范式中,智能体被联合建模来学习一个联合的策略.该结构的输入是所有智能体观测值的拼接,输出是所有智能体的联合动作.这种集中式结构的最大缺点是巨大的输入和输出空间,伴随着智能体数量的增加,输入维度线性增加,输出的联合策略的空间指数增加.
另一种结构便是去中心化结构,每个智能体被独立于其他智能体来训练.每个智能体有其自己的策略网络,该网络将其的观测值输入并输出其要采取的动作.尽管这一范式能够很好的处理智能体数量的增长所带来的问题,但是其他一些新的问题也在不断显现.其中包含环境的不稳定的问题,奖励分配问题和智能体之间缺乏显式的合作.本文主要致力于介绍如何处理与不稳定性相关的问题.
2.5 不稳定性问题
在马尔科夫博弈中,环境的状态转移函数$T$和单个智能体的奖励函数$r_i$受到所有智能体动作的影响.在训练多个智能体的过程中,每个智能体的策略随着时间在不断变化,因此,每个智能体所感知到的转移概率分布和奖励函数也会发生变化.通常的单智能体强化学习算法假定这些函数具有平稳性,因而这些算法不能很好的用在多智能体的场景下.
![](http://n4.ikafan.com/assetsj/blank.gif)
3 处理不稳定性
下面几个小节主要介绍多智能体强化学习中处理不稳定性的几类方法.这些方法包括了对经典的强化学习算法的改进以及计算和共享额外的对手信息.
3.1 中心化的评论家
处理非平稳性的一个步骤是采用一个集中的评论家体系结构.该体系结构采用了一种演员-批评家算法,该算法由两个部分组成.评论家的训练是集中的,这使得其可以接触到所有智能体的观察和行动,而演员的训练是分散的.由于策略的计算是由每个演员独立完成的,因此可以在测试期间删除评论家所对应的结构,从而该方法是一种分散的执行方法.通过在训练过程中接触到对手的观察和行动,智能体不会经历环境动态的意外变化,这将使得学习过程更为稳定.
![](http://n4.ikafan.com/assetsj/blank.gif)
MADDPG算法将静态的策略梯度算法(DDPG)算法改造作为为一种多智能体结构.在这一方法中,每个智能体有一个单独的集中式的评论家和非集中的演员.由于在训练过程中每个智能体都依赖于其他所有智能体的观测值和动作值,因此每个智能体都可以认为是处在一个稳定的环境中.MADDPG的一个扩展是MiniMax MADDPG (M3DDPG),它使用MiniMax Q-learning在评论家中展示了对不同政策下的对手的鲁棒性.
3.2 去中心化的学习方法
在多智能体系统中处理非平稳性并不一定需要进行集中训练.在多智能体深度强化学习问题中,一种处理非平稳性的替代方法被称之为自我博弈(self-play)算法.这种方法训练一个神经网络,神经网络使用每个智能体自身的观察作为输入,通过将其与当前或以前的版本进行比较,来学习可以推广到任何对手的策略.这种方法可以追溯到TD-Gammon,它设法在双陆棋中战胜人类冠军.最近,自我博弈算法被扩展到更复杂的领域,如围棋,甚至具有连续状态和动作空间的复杂运动环境.
在TD-Gammon中,利用时间差分方法训练神经网络来预测游戏结果。与最近的方法不同,TD-Gammon中的自我博弈只针对当前神经网络的参数设置.以这种方式进行自我博弈可能会导致训练中缺乏探索,因为在不同情景中,神经网络总是选择相同的动作序列.由于双陆棋的动力学是随机的,所以在原始论文中该现象没有发生.
在最近的自我博弈应用中,对训练过程进行了额外的修改,以确保训练在具有确定性动力学的环境中是有效的.在这种情况下,最近的自我博弈方法将神经网络参数存储在学习过程中的不同位置.然后,在自我博弈过程中,在当前和以前版本的神经网络参数中随机选择对手.除了将自我博弈扩展到确定性环境之外,这还允许神经网络对更广泛的对手进行泛化.因此,自我博弈成功地训练了策略,并且这些策略可以很好地推广到围棋甚至复杂的移动任务等环境中。
另一种被用来分散训练的方式是通过经验回放(replay buffer)稳定训练.尽管这一方式在单智能体强化学习中占据非常重要的部分,但是在去中心化的学习过程中由于环境的不稳定性,这一机制可能存储了大量的与去中心化学习无关的信息,从而导致性能变差.解决这一问题的一个简单方法是通过重要性采样动态调整以往经验的权重.这一方式与独立Q学习相结合,可以在星际争霸微管理任务上取得比较好的结果.
3.3 对手建模(Opponent Modeling)
另一个处理非平稳性的可行方向是为对手进行建模。通过模拟其他智能体的意图和政策,可以稳定智能体的训练过程。在多智能体系统中建模其他智能体已经得到了广泛的研究,并由很多更进一步的研究方向.在本文中,我们主要关注最近的方法,即学习对手的模型或使用它们来约束代理的策略.
Raileanu等人提出了一种方法,其中当前智能体使用他们的策略来预测其他智能体的行为.该方法使用一个演员-批评家体系结构,并重用相同的网络来估计其他智能体的目标.详细来说,通过构建一个神经网络$f(s_{s} / o, z_{s}, \overline{z}_{o})$来输入智能体的动作,其中神经网络的输入分别是状态、当前智能体的目标和其他智能体的目标.然而,同样的网络也可以通过改变$z_s$和$\bar{z}_o$的顺序来推断其他智能体的目标.通过观察其他智能体的实际动作,当前智能体可以对可训练参数$\bar{z}_o$进行反向传播和优化. 另一种方式是利用一个单独的网络为其他智能体建模.这两个网络的组合可以通过连接它们的隐藏状态,也可以通过混合使用专家来实现. 这个独立的网络使学习变得更快,甚至允许对不断改变的其他智能体的行为进行建模. 关于对手建模的更多信息参见参考资料.
3.4 元学习(Meta-Learning)
在深度强化学习算法研究取得进展之前,跟踪和上下文检测等方法被提出用来更快地适应非平稳的环境.这两种方法在处理非平稳性方面都采用了一种更加主动反应的观点,即使用学习方法,一旦环境动态发生变化,就尝试快速更改策略或环境模型.然而,Finn等人提出的运动任务的结果突出表明,诸如跟踪等反应性方法仍然无法快速适应深度强化学习算法,使其仅使用少量的学习更新就能应用到动态的环境.
另一种方法是预测环境的变化,而不是制定一种训练深度神经网络对环境变化作出反应的学习算法.然后当给定环境的动态变化时可以制定一个优化过程来寻找初始神经网络参数,这样便可以使用少量的更新过程来更好的学习.像模型无关元学习(Model Agnostic Meta Learning,MAML)这样的元学习方法专门针对这个特定问题进行优化. Al-Shedivat等人进一步扩展了MAML来处理多代理问题中的非平稳性.
3.5 通信
最后,我们讨论的非平稳性度量的最后一类方法是通信. 通过通信机制,不同的智能体可以交换关于他们的观察、行动和意图的信息,以稳定其训练过程.虽然多智能体系统中的通信是一个很好的研究主题,但我们将重点介绍最近使用多智能体深度强化学习进行通信的方法.
![](http://n4.ikafan.com/assetsj/blank.gif)
前面的这些方法都假定所有智能体都能访问其他智能体的隐藏层. Foerster等人在2016年提出了一种方法消除了这一假设.作者首先提出了增强的智能体间学习,其中每个智能体都有两个Q网络.第一个Q网络输出动作值,第二个Q网络用来将其他智能体的输入信息转换为通信消息,并且这两个网络都是利用DQN进行训练的.作者同时提出了可微的智能体间学习,这里只需利用DQN训练一个动作网络,这一网络的训练过程中通过通信信道用到其他智能体的梯度信息.这种方法类似于Mordatch和Abbeel的2018年的工作很想,其中作者提出了一个模型,该模型将其他代理的消息作为输入,并学习输出一个动作和一个新的通信消息.
4 开放问题
根据本调查所概述的方法,我们确定了几个与非平稳性有关的开放问题和未来可能的研究方向.
4.1 利用迁移学习解决非平稳性
本文研究了多智能体系统的几种迁移学习方法.在这种情况下,从元学习和学习对手表示的方法中获得的表征和初始化值可以看作是迁移的知识,从而更快地适应非平稳性.尽管最近取得了一些进展,但在知识迁移的形式以及如何利用这些知识形式加快适应方面仍存在一些悬而未决的问题.
4.2 开放的多智能体系统
在实际问题中,环境中的代理的数量可以是很大的,也可以是多种多样的.此外,由于代理离开或进入环境,代理的数量可能会发生变化.这种问题设置通常被称为一个开放的多代理系统.智能体数量的变化会导致一个动作在学习过程中的不同时间点产生不同的结果.比方说,当另一个起到合作作用的智能体在环境中时,某个行为可能会导致高回报的情况,而当其离开环境时,该行为也会变得无关紧要.
本文中提出的所有技术都没有在不断变化的代理数量的环境中进行测试.一般来说,在具有不同数量代理的问题之间重用知识的迁移学习方法可能是本主题的一个潜在研究方向.此外,研究智能体如何有效地处理能力和学习算法的异构性也将起到重要的作用.
4.3 受限的信息访问
我们在对手模型中所做的大量工作,都需要接近对手的观察和选择交流.虽然在集中培训期间这不是一个强有力的假设,但在测试期间,尤其是在代理之间没有建立通信时,这是非常有限的.更确切地说,假设我们在观测过程中能够接触到对手的观测和行动是过于强烈的.因此,创建不依赖于此假设的模型是一个开放的问题.
4.4 收敛性分析
目前多智能体深RL方法存在的一个开放性问题是缺乏对其收敛性和收敛结果类型的理论认识。博弈论均衡,如相关均衡和纳什均衡,是一个可以用来鼓励并购的理论概念.这些方法的一个缺点是需要计算均衡解,以及均衡的非唯一性,这需要某种形式的协调均衡选择.最近在这个方向上的一个例子是Li等人(2019)的工作,他们使用了极大极小平衡的近似解.因此,一个有趣的研究方向是研究近似解,以纳入这些均衡的概念在多智能体深RL.
4.5 多智能体信用分配
另一个由分散执行的方法引起的问题与在环境中为智能体的奖励分配有关.尽管改进了集中训练或学习对手的表示,但仍然可以改进处理这个问题的方法.一般来说,寻找替代的神经网络架构和学习方法,可以分解较小的智能体集合内部的奖励,这可能是未来的研究方向.
5 结论
在本文中我们首先介绍了五类多智能体强化学习中处理环境平稳性的方法,然后给出了几种在多智能体强化学习场景下的不稳定性研究的可能几个方向.
参考文献:
[1] Papoudakis G, Christianos F, Rahman A, et al. Dealing with Non-Stationarity in Multi-Agent Deep Reinforcement Learning[J]. arXiv preprint arXiv:1906.04737, 2019.
[2] Foerster J, Nardelli N, Farquhar G, et al. Stabilising experience replay for deep multi-agent reinforcement learning[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 1146-1155.