学术︱基于狼爬山快速多智能体学习策略的电力系统智能发电控制方法

华南理工大学电力学院的研究人员席磊、余涛、张孝顺,在2015年第23期《电工技术学报》上撰文,为了解决互联复杂电力系统环境下AGC协调控制问题,提出了一种多智能体智能发电控制策略。提出了一种具有多步回溯及变学习率的多智能体新算法——狼爬山”算法。

该算法可根据据CPS标准求解各种复杂运行环境下的平均策略。基于混合策略及平均策略,此算法不仅在非马尔可夫环境及大时延系统里具有高度的适应性,而且能解决新能源电源接入所带来的互联复杂电力系统环境下AGC协调控制问题。对标准两区域负荷频率控制电力系统模型及南网模型进行仿真,结果显示该算法能获得最优平均策略,闭环系统性能优异,与已有智能算法相比具有更高的学习能力及快速收敛速率。

互联电网自动发电控制(Automatic Generation Control,AGC)是电网能量管理系统中最基本的功能之一,是保证电力系统有功功率平衡和频率稳定的基本手段[1-3]。研究模型一般是以经典的两区域IEEE负荷频率控制(Load-Frequency Control, LFC)为基础的频域线性模型,电力系统LFC问题同时也是控制理论界研究的一个经典问题,控制理论新方法也常会被引入到LFC问题中来,2013年文献[4]对半个世纪以来LFC在理论与技术研究的进展进行了全面的回顾。

为了计算区域发电速率,近两年来,欧美电力系统开始采用区域控制误差(area control error,ACE)差异互换(ACE diversity interchange, ADI)方法[5]。2000年以来,国内两大电网公司开始采用的是北美电力可靠性委员会建议的CPS标准,以对所有控制区域进行协调。在智能电网发展的大背景下,开发具有自主学习能力和厂网协调能力的智能发电控制(smart generationcontrol, SGC)逐渐成为一种趋势[6-8]。

近几年来,多智能体强化学习算法已成为机器学习领域研究的热点,特别是基于经典Q学习的算法框架体系得到不断充实和发展。Daneshfar等[9]和Bevrani等[10]已经用多个应用实例证明多智能强化学习里的每一个智能体能追踪其他智能体的决策以动态协调自身动作。数种以博弈论为基础,并用Q学习方法来实现的分布式强化学习方法被陆续提出,比较有名的如:minimax-Q[11]、Nash-Q[12]和friend-or-foe Q[13]。

然而由于Minimax_Q是零和博弈、Nash-Q占用空间大、FF-Q的Agent必须知道其他Agent是敌是友使得FF-Q只具有个体理性等缺陷,限制了这些算法的应用。提出了一种基于相关均衡的分布式多智能体学习算法——DCEQ(λ)算法以解决互联电网AGC协调控制问题,取得较为满意的控制效果[14]。

然而,但智能体个数增加时,DCEQ(λ)算法在搜索多智能体均衡解时间呈几何数增加,限制了其方法的在更大规模的电网系统里广泛应用。Bowling & Veloso于2002年开发了“赢”或“快速学习”的爬山策略算法(win or learn fast policy hill-climbing, WoLF-PHC)[15];学习中, 每个Agent采用混合策略且只保存自身的Q值表。所以,一方面, 它避免了一般Q学习中需要解决的探索和利用这一矛盾问题; 另一方面, 它可解决多Agent系统的异步决策问题。

在文中,融合了WoLF-PHC算法、资格迹[16]和SARSA算法[17],提出了分布式WoLF-PHC(λ)算法,即Distributed WoLF-PHC(λ)(我们称之为“狼爬山”算法),并将该方法应用于求解多智能体SGC中的均衡解。标准两区域负荷频率控制的电力系统模型及南网模型的两个实例研究已经证明此算法的有效性。由于WoLF学习率随环境适应性地变化,与其他SGC方法相比,狼爬山算法具有快速收敛速率。

图1  基于狼爬山的第i个智能体的SGC执行流程

结论

对于狼爬山算法,每个区域智能体不会减少与其他智能体之间的信息交换,而是时时刻刻感知到其他智能体的动作引起的状态变化。控制系统是多智能体系统,每个区域都嵌入了狼爬山算法,与CEQ算法相比,看似Q学习一样的单智能体算法,每个算法里都只有一个智能体,其他智能体动作会对当前的状态及下一时刻状态产生影响,这也就是所谓的智能体联合动作,而智能体会随着状态的变化而随时变化学习率,这也就是狼爬山比Q学习优越的地方。

事实上,如前言中所列举的minimax-Q、Nash-Q、friend-or-foe Q和DCEQ等多智能体学习算法本质上都是属于多智能体之间的博弈,都可以归纳为纳什均衡博弈。但不同于静态博弈场景,对于属于动态博弈的控制过程,纳什均衡解在每个控制时间间隔的搜索速度并不一定都能满足控制实时性要求。

所提出的狼爬山方法是通过平均策略取代多智能体动态博弈的均衡点求解,因此从博弈论的观点来看,狼爬山方法可以看作是一种高效、独立的自我博弈,降低了与其他智能体之间实时信息交换和联合控制策略的求解难度。

总的来说,主要贡献如下:

1) 基于WoLF-PHC,融合SARSA(λ)和资格迹开发了一种新颖的狼爬山算法,能有效解决随机博弈求解和在非马尔可夫环境的应用问题。

2) 通过随机动态博弈的一种合适的赢输标准,引入变学习率及平均策略以提高狼爬山动态性能。

3) 基于标准两区域负荷频率控制电力系统模型及南网模型,对多种智能算法进行了SGC协调的仿真实例研究。仿真结果表明,与的其他智能算法相比狼爬山能够获得快速的收敛特性及学习效率,在多区域强随机互联复杂电网环境下具有高度适应性和鲁棒性。

电气技术(微信号:dianqijishu)

关注电气工程技术、聚焦学科前沿发展

(0)

相关推荐