强化学习100篇论文综述(附论文列表)
随着 Alpha Go 的成功,强化学习(Reinforcement Learning,RL)成为了当下机器学习中最热门的研究领域之一。与常见的监督学习和非监督学习不同,强化学习强调智能体(agent)与环境(environment)的交互,交互过程中智能体需要根据自身所处的状态(state)选择接下来采取的动作(action),执行动作后,智能体会进入下一个状态,同时从环境中得到这次状态转移的奖励(reward)。强化学习的目标就是从智能体与环境的交互过程中获取信息,学出状态与动作之间的映射,指导智能体根据状态做出最佳决策,最大化获得的奖励。
强化学习通常使用马尔科夫决策过程(Markov Decision Process,MDP)来描述。MDP数学上通常表示为五元组的形式,分别是状态集合,动作集合,状态转移函数,奖励函数以及折扣因子。
近些年有研究工作将强化学习应用到更为复杂的MDP形式,如部分可观察马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP),参数化动作马尔科夫决策过程(Parameterized Action Markov Decision Process,PAMDP)以及随机博弈(Stochastic Game,SG)。
Figure 1 Left:Reinforcement Learning. Right: Markov Decision Process (Source: Wikipedia)
在强化学习系统中,除了智能体和环境,重要元素还包括价值函数(value function)策略(policy)以及奖励信号(reward signal)。Value-based 和 Policy-based 是强化学习算法设计的两大思路。在智能体与环境交互过程中,奖励是智能体在某个状态执行动作后立即得到的反馈,而价值函数则反映了智能体考虑未来的行动之后对所有可能状态的评估。在调研的105篇文献中,至少10篇对价值函数进行了研究。DQN是其中的代表性工作,该工作使用了 experience replay 和 target network 缓解了过于基于神经网络的价值函数估计方法数值不稳定的缺点。Policy-based的强化学习可以直接优化策略,Actor-Critic 算法和策略梯度算法是这类方法的代表。调研的文献中也有近10篇详细讨论了策略优化的方法,包括 Reactor算法,Trust Region Policy Optimization (TRPO) 以及结合 off-policy 方法的策略梯度算法。奖励的设计对强化学习算法至关重要,但实际问题中奖励信号往往非常稀疏,给强化学习系统的设计带来了挑战。有不少工作提出了解决方案,如利用专家设计的样本指导智能体学习最佳策略。除了以上三个重要元素,强化学习有一大类需要考虑环境模型,即智能体需要在学习策略的同时学习环境的信息,文献中有5篇提到了Model-based 的强化学习算法。在强化学习任务中,智能体需要探索新的状态以获得更全面的环境信息,在调研的文献中有6个工作和强化学习中的探索策略相关。
Figure 2 DeepQ-Network (DQN)
除了研究强化学习中的基本元素外,有近20篇文章研究了提高强化学习效果的机制,包括引入记忆机制、注意力机制,多层次增强学习,多智能体增强学习,结合meta-learning或 transfer learning/multitask learning的增强学习等。
强化学习的成功离不开一系列标准任务和实验平台的支持。在调研的105篇文献中,热门的实验平台主要包括 Atari game ,MuJoCo,OpenAI Gym,DeepMindLab,TORCS 等。强化学习之所以受到关注很大程度上在于它广泛的应用场景。游戏是强化学习传统的应用场景,包括完全信息的棋类游戏,如围棋;不完全信息的牌类游戏,如德州扑克;以及更为复杂的视频游戏,如星际争霸,Dota等。机器人技术也是强化学习另一个重要应用场景,随着强化学习系统的进步,机器人已经能够完成复杂的动作。除此以外,强化学习在自然语言处理领域得到了关注,如对话系统、机器翻译、文本分类、文本生成等任务均有相关文献应用了强化学习的技术;计算机视觉、推荐系统、计算机网络、知识图谱等领域也开始利用强化学习技术对现有方法进行改进。
Figure 3 Reinforcement Learning in Games
Figure 4 Mobieye vision systems for cars, which will benefit from reinforcement learning. (Source: MIT Technology Review)