强化学习100篇论文综述（附论文列表）

2024-08-07 07:45:18

随着 Alpha Go 的成功，强化学习（Reinforcement Learning，RL）成为了当下机器学习中最热门的研究领域之一。与常见的监督学习和非监督学习不同，强化学习强调智能体（agent）与环境（environment）的交互，交互过程中智能体需要根据自身所处的状态（state）选择接下来采取的动作（action），执行动作后，智能体会进入下一个状态，同时从环境中得到这次状态转移的奖励（reward）。强化学习的目标就是从智能体与环境的交互过程中获取信息，学出状态与动作之间的映射，指导智能体根据状态做出最佳决策，最大化获得的奖励。

强化学习通常使用马尔科夫决策过程（Markov Decision Process，MDP）来描述。MDP数学上通常表示为五元组的形式，分别是状态集合，动作集合，状态转移函数，奖励函数以及折扣因子。

近些年有研究工作将强化学习应用到更为复杂的MDP形式，如部分可观察马尔科夫决策过程（Partially Observable Markov Decision Process，POMDP），参数化动作马尔科夫决策过程（Parameterized Action Markov Decision Process，PAMDP）以及随机博弈（Stochastic Game，SG）。

Figure 1 Left:Reinforcement Learning. Right: Markov Decision Process (Source: Wikipedia)

在强化学习系统中，除了智能体和环境，重要元素还包括价值函数（value function）策略（policy）以及奖励信号（reward signal）。Value-based 和 Policy-based 是强化学习算法设计的两大思路。在智能体与环境交互过程中，奖励是智能体在某个状态执行动作后立即得到的反馈，而价值函数则反映了智能体考虑未来的行动之后对所有可能状态的评估。在调研的105篇文献中，至少10篇对价值函数进行了研究。DQN是其中的代表性工作，该工作使用了 experience replay 和 target network 缓解了过于基于神经网络的价值函数估计方法数值不稳定的缺点。Policy-based的强化学习可以直接优化策略，Actor-Critic 算法和策略梯度算法是这类方法的代表。调研的文献中也有近10篇详细讨论了策略优化的方法，包括 Reactor算法，Trust Region Policy Optimization (TRPO) 以及结合 off-policy 方法的策略梯度算法。奖励的设计对强化学习算法至关重要，但实际问题中奖励信号往往非常稀疏，给强化学习系统的设计带来了挑战。有不少工作提出了解决方案，如利用专家设计的样本指导智能体学习最佳策略。除了以上三个重要元素，强化学习有一大类需要考虑环境模型，即智能体需要在学习策略的同时学习环境的信息，文献中有5篇提到了Model-based 的强化学习算法。在强化学习任务中，智能体需要探索新的状态以获得更全面的环境信息，在调研的文献中有6个工作和强化学习中的探索策略相关。

Figure 2 DeepQ-Network (DQN)

除了研究强化学习中的基本元素外，有近20篇文章研究了提高强化学习效果的机制，包括引入记忆机制、注意力机制，多层次增强学习，多智能体增强学习，结合meta-learning或 transfer learning/multitask learning的增强学习等。

强化学习的成功离不开一系列标准任务和实验平台的支持。在调研的105篇文献中，热门的实验平台主要包括 Atari game ，MuJoCo，OpenAI Gym，DeepMindLab，TORCS 等。强化学习之所以受到关注很大程度上在于它广泛的应用场景。游戏是强化学习传统的应用场景，包括完全信息的棋类游戏，如围棋；不完全信息的牌类游戏，如德州扑克；以及更为复杂的视频游戏，如星际争霸，Dota等。机器人技术也是强化学习另一个重要应用场景，随着强化学习系统的进步，机器人已经能够完成复杂的动作。除此以外，强化学习在自然语言处理领域得到了关注，如对话系统、机器翻译、文本分类、文本生成等任务均有相关文献应用了强化学习的技术；计算机视觉、推荐系统、计算机网络、知识图谱等领域也开始利用强化学习技术对现有方法进行改进。

Figure 3 Reinforcement Learning in Games

Figure 4 Mobieye vision systems for cars, which will benefit from reinforcement learning. (Source: MIT Technology Review)

基于云智能控制器的燃料电池最大功率跟踪策略

★中国电工技术学会出品★ 致力于产业界与学术界融合创新的品牌会议 ①浏览会议详情,请戳下面标题 ☟ ☞ 会议邀请︱电气产业与学术盛会本月天津约你 ②参会注册,请长按识别下方二维码 ☟(先注册网站会员, ...
深度强化学习综述(上)

人工智能中的很多应用问题需要算法在每个时刻做出决策并执行动作.对于围棋,每一步需要决定在棋盘的哪个位置放置棋子,以最大可能的战胜对手:对于自动驾驶算法,需要根据路况来确定当前的行驶策略以保证安全的行驶 ...
什么是元学习算法？

第一次听到元学习的预述时,是一个极其兴奋的过程:建立不仅能够进行学习,还能学会如何进行学习的机器项目.元学习试图开发出可以根据性能信号做出响应,从而对结构基础层次以及参数空间进行修改的算法,这些算法在 ...
MuZero：用学习模型规划MuZero玩转雅达利、围棋、国际象棋和日本将棋

Karen Simonyan, 1 ∗ ^{1*} 1∗ Laurent Sifre, 1 , 2 ∗ ^{1,2*} 1,2∗ Simon Schmitt,1 Arthur Guez, 1 ∗ ^{ ...
学术简报｜提高系统经济性的输配两级电网协同优化方案

征稿|第四届轨道交通电气与信息技术国际学术会议招聘|中国电工技术学会招聘学术期刊编辑征稿|中国电工技术学会电机与系统学报(英文季刊) 摘要华中科技大学电气与电子工程学院强电磁工程与新技术国家重点 ...
基于蝙蝠算法的含分布式电源配电网故障定位

2017第六届新能源发电系统技术创新大会中国电工技术学会主办,2017年6月21-24日在河北省张北县举办,大会围绕新能源发展战略.系统关键技术.微电网及储能等重要议题展开交流.浏览会议详情和在线报 ...
初中英语阅读理解专项强化练习100篇大全（附电子版）

初中英语阅读理解专项强化练习100篇大全（附电子版）
小学语文：看图写话100篇练习题（附范文）打印给孩子练习

看图写话是一二年级学生必须掌握的技能,也是考试必考的内容,且所占的分值比例还比较大! 今天分享的这100篇看图写话练习题(附范文),打印给孩子练,满分不愁,家长们存下来,让孩子多练习吧! 看图写话练习 ...
初中英语完形填空专练100篇超汇总,附参考答案、名师点评

初中英语完形填空专练100篇超汇总,附参考答案、名师点评
看图写话100篇练习题（附范文）

小学语文:看图写话100篇练习题(附范文),打印给孩子练,满分不愁看图写话是一二年级学生必须掌握的技能,也是考试必考的内容,且所占的分值比例还比较大,所以家长们一定要严格把控孩子这方面的能力,针对孩 ...
初中英语完形填空100篇练习（附解题技巧名师点评）

[资料预览]
【第五期】20篇强化学习论文总结（附下载链接）

前段时间,我们为大家整理了104篇强化学习论文的综述及列表(点击获取). 为了方便大家学习,我们将会出5期强化学习的论文总结,每期会有20篇左右的论文,在每周一发布,敬请关注. 目前已出了 [第一期] ...
【第四期】20篇强化学习论文总结（附下载链接）

前段时间,我们为大家整理了104篇强化学习论文的综述及列表(点击获取). 为了方便大家学习,我们将会出5期强化学习的论文总结,每期会有20篇左右的论文,在每周一发布,敬请关注. 目前已出了 [第一期] ...
【第三期】20篇强化学习论文总结（附下载链接）

前段时间,我们为大家整理了105篇强化学习论文的综述及列表(点击获取). 为了方便大家学习,我们将会出5期强化学习的论文总结,每期会有20篇左右的论文,在每周一发布,敬请关注. 目前已出了 [第一期] ...
【第二期】20篇强化学习论文总结（附下载链接）

前段时间,我们为大家整理了105篇强化学习论文的综述及列表(点击获取). 为了方便大家学习,我们将会出5期强化学习的论文总结,每期会有20篇左右的论文,在每周一发布,敬请关注. 目前已出了[第一期]2 ...

强化学习100篇论文综述（附论文列表）

相关推荐