学术︱光伏发电数据挖掘中的跨度选取
“2015第二届轨道交通供电系统技术大会”11月在京开幕
报名方式1
浏览会议详情和在线报名参会,请进入"分布式发电与微电网"微信号(dggrid),点击菜单栏“地铁会议”。
报名方式2
长按下图,识别二维码,即可浏览会议详情和在线报名参会。
中国电力科学研究院、华北电力大学控制与计算机工程学院的研究人员李建林、籍天明等,在2015年第14期《电工技术学报》上撰文,分析光伏电站有功出力数据时,粒度和跨度是两个重要指标。粒度决定了数据的采样间隔,跨度决定了选取时长。当粒度一定时,跨度过小则包含信息量少,造成信息的缺漏和失真;跨度过大则信息冗余繁杂,造成存储量和计算量不必要的增大。因此,确定数据跨度对光伏出力数据的分析有着重要意义。
本文首先对光伏电站出力数据进行统计分析,通过自相关分析得出跨度选取的初步结论。基于天气特征对数据进行聚类,利用统计学原理对不同类别的光伏出力数据进行最优样本容量估计,确定了光伏电站出力数据分析时所需要的数据跨度,并考察了储能容量需求与数据跨度的关系。结果表明,光伏出力数据跨度为31天时即可满足配置储能容量的数据量需求。
光伏发电作为一种清洁丰富的可再生新能源,备受国内外学者的关注[1-3]。目前,针对于光伏发电的研究日趋成熟,目前主要在于功率预测[4-5],优化控制[6-7],以及配置于光伏电站的储能系统容量优化[8-12]。
上述问题的本质即是对光伏出力数据蕴含信息的挖掘与分析。光伏电站的数据库中存储着大量数据,在对光伏出力数据进行分析时,需要考虑数据采集的密集程度与采集数量,即数据的粒度和跨度。数据量等于跨度与粒度的比值。可见,在采集粒度一定的情况下,数据总体跨度降低,会线性减少总体数据量,但易导致总体样本数量不足,使不确定性增加,涵盖信息不完全;数据总体跨度增加,总体数据量增长,样本的不确定性的完备性增强,但是会产生冗余,带来重复性研究和计算。
目前,国内外针对数据总体跨度的研究已有一定成果。文献[13]利用信息熵对数据的平稳性进行度量,提出基于信息熵的训练样本长度选择方法,选择出合适的训练样本,减少了数据长度、节省了学习时间,同时也提高了预测结果的精度。
文献[14]对参数模型建模所用的样本长度进行了讨论,分析了用不同样本数建模时的差异,认为建模样本数的多少对模型参数估计存在不可忽视的影响,特别是在样本长度较短时,影响很大,建模时必须认真考虑。
文献[15]介绍了用均方值的变差系数曲线方程在给定分析精度条件下来估计所需样本长度的方法。利用该方法,可用有限的但是足够的试验数据建立起均方值变差系数的数学模型,从而推得所需精度下必要的样本长度。文献[16]考虑模型的函数形式,基于费舍尔信息近似方法,结合三个竞争模型,进行决策树分析。
文献[17] 在蒙特卡洛过程中,提出一个样本大小和尺寸空间关联函数,通过描述矩阵和椭圆轮廓线,使用极大似然估计法减少空间统计量的数据。文献[18]在树木与地貌关系分析过程中,研究了不同的抽样策略和样本容量对研究结果的影响。
针对可再生能源出力数据的数据总体跨度研究方面研究还不成熟,本文以配置于光伏电站的储能系统容量优化问题为例进行分析。许多文献将数据总体跨度选为1天[9]或是1年[10-12],不可避免地将许多特征相似日的数据重复考虑和计算。
对此,本文针对粒度为1min的光伏出力数据进行分析与数理统计,给出了一种确定光伏出力数据跨度的方法,并通过考察跨度与光伏电站配置的储能容量的关系进行分析和验证。