Excel应用大全 | 时间序列预测的步骤

一本书教会你分分钟搞定数据分析!
人们无法知道股票市场在明天是涨是跌,可是会通过以往已有的表现判断未来的走势而做出决策。人们无法预知房地产市场在未来五年是怎样的,同样会通过以往的表现和已知的信息做投资决策。厂商会通过以往已知的销售规律判断本季度是否要增产,酒店通过往年的入住率判断在淡季是否要降价促销,等等。
这些活动都是基于已知的历史数据推测未来,时间序列就是研究这种预测的工具。

预测原理

不同行业和领域的时间序列数据有不同的特点。例如,旅游行业,往往在夏季达到高峰,零售行业在节假日,尤其是春节时达到高峰,某交易所的股票综合指数则明显呈现出波动性。而一个国家的GDP,在经济发展好的时候通常会逐年稳步增长,如果遇到经济萧条则很大概率会持续几年下降,没有明显的周期性和波动性。所以,不存在一个简单的时间序列模型可以描述以上所有例子中的特点。针对比较常见的时间序列数据,已有一些很常用的模型适用,并且预测效果也不错。
时间序列的一个重要特征是,相邻时间点之间是等距的,并且有明确的先后顺序,如2019年的GDP总是在2018年之后产生。因此2019年的GDP会在一定程度上受到2018年GDP的影响。以此类推,2020年的GDP会受到2019年的影响,如果按照这个时间序列下去,会得到一个连续的数据。
我国2018年的GDP增长率是6.6%,如果以此预测2019年的增长率是-1%似乎缺乏依据,更加可信的预计是2019年的GDP增长率在6.0%~7.2%。能将预测值控制在某种程度的范围中,是因为自身数据存在着变化规律,如果想要更精确地预测,就要找到这些规律建模并预测。

预测流程

第一步,先找出数据是否含有趋势性、季节性等特征。

第二步,对不同特征的数据采用不同的模型,常用模型选择方法如下。
无趋势序列:简单平均法、移动平均法、指数平滑法。
有趋势序列:回归模型。
有季节性序列:分离季节性因素后再选择以上适合的模型。
第三步,建立模型。模型是指用数学、统计学等方法模拟实际问题,如回归模型y=a+bx,是模拟一个事物对另一个事物有某种依赖关系。不同实际问题对应不同的模型,寻找并建立合适的模型,再用模型去预测实际问题的发展,是建立模型的初衷,如图13-9所示。
图 13-9 建立模型解决实际问题
第四步,对模型进行评估。从图13-9可以看出,对实际问题解释是否充分、预测是否准确,主要依赖于模型的准确度。在实际建模中,模型很难一次做到最准确,通常要对其进行不断的调整,使其越来越接近真实情况,模型越接近真实情况,预测就越准确。
建立模型后直接进行预测,相当于生产了一把枪,还没有调校精度就上战场。调校枪的射击精度通常需要先找个靶子开几枪试试,才知道怎样调、调多少。调整模型的过程与此类似,需要先用对照数据测试,检验模拟是否准确。最好的对照数据是真实发生的,所以建模时只用一部分原始数据做数据建模,另外一小部分原始数据用来做预测对照。用于建模的这部分数据称为训练集,用于对照的这部分数据称为测试集,训练集和测试集数据量的比例通常是7:3,这个比例可以根据实际情况修改。需要注意的是,在时间顺序上必须满足70%的数据在先,30%的数据在后。
操作方法是将图13-9中在实际问题中收集的数据按7:3分成两部分,用70%的训练集建立模型,预测后面30%的数据,如图13-10所示。

图13-10模型调整流程

建立模型后,用模型去预测后面30%的数据(测试集),得到预测值,再用预测值和提前保留的30%测试集作对比,这时二者的对比一定会出现一定程度的偏差,这部分偏差就是模型要调整的方向,调整的目的是缩小这种偏差。用对比结果对模型做评估,根据评估结果调整模型,得到调整后的模型后再重复图13-10的步骤,每操作一次都会更加接近真实数据,模型永远不可能和真实情况一样,总要接受一定的偏差,所以不需要进行无数次的训练,模型的精度能达到可接受的范围即可。

对模型评估的方法有很多,其中一种方法是均方误差(meansquareerror ),一般用简写MSE表示。图13-11展示了某次预测中得到的预测值和测试集。

图 13-11 预测值和测试集

对比方法是用测试集的每个值减去预测值的对应的值,计算所有差值的平方的均值,实质是两个数据集中各数值的距离平方和均值,计算式如下:

从这个过程可以看出,均方误差 MSE 的计算公式如下:

其中,Y是测试集的数值,F是预测的数值,n是预测值的个数。
均方误差代表的是预测值和测试集之间的差距,差距越小代表模型越精确。
MSE的计算思路和方差类似,都是距离平方的均值,这是统计学中对比两组数据距离的很重要的思维方式。
另外一种评估方法是均方根误差(rootmeansquareerror),一般用RMSE表示,通过名称可以知道,它是MSE的平方根。RMSE是最常用的预测结果衡量标准。

第五步,通过MSE的值来确定是否调整模型,如果预测差距很大,则应重新考虑是否需要更换模型。

第六步,通过调试模型确定相对最精确模型,并得出预测结果。
(0)

相关推荐

  • 人工智能在预测单机风电功率上的应用进展

    点击下面标题,了解通知详情 第九届电工技术前沿问题学术论坛征文通知 单机风电功率预测依据风机轮毂风速的历史数据预测风电功率.风速与功率的高比例关系使得电力调度系统对风电功率预测精度的要求较高,此外,风 ...

  • 业务预测:了解一些基本知识

    经常听到公司的管理层谈论预测:"我们的销售未达到预测的数字","我们对预测的经济增长充满信心,并有望超过目标." 最后,所有财务预测都是有根据的猜测,无论它们是 ...

  • R语言神经网络模型预测车辆数量时间序列

    原文链接:http://tecdat.cn/?p=19980 具有单个隐藏层和滞后输入的前馈神经网络,可以用于预测单变量时间序列.将神经网络模型拟合到以时间序列的滞后值作为输入的时间序列.因此它是一个 ...

  • 用PowerBI图表进行时间序列预测分析

    时间序列预测就是利用过去一段时间内的数据来预测未来一段时间内该数据的走势,比如根据过去5年的销售数据进行来年的收入增长预测,根据上个季度的股票走势推测未来一周的股价变化等等. 对于大部分人来说,这是个 ...

  • 揭开KPI异常检测顶级AI模型面纱

    摘要:2020GDE全球开发者大赛-KPI异常检测告一段落,来自深圳福田莲花街道的"原子弹从入门到精通"有幸取得了 总榜TOP1的成绩,在这里跟大家分享深圳福田莲花街道在本次比赛的 ...

  • Excel应用大全 | 时间序列的描述性分析

    一本书教会你分分钟搞定数据分析! 人们无法知道股票市场在明天是涨是跌,可是会通过以往已有的表现判断未来的走势而做出决策.人们无法预知房地产市场在未来五年是怎样的,同样会通过以往的表现和已知的信息做投资 ...

  • Excel笔记大全(详细步骤)

    函数应用 (一)单元格引用 1.相对应用 单元格引用相对于公式所在的单元格不同而自动发生变化.如A1 2.绝对引用:"$" 快捷键:F4/Fn+F4 无论公式在哪个单元格,公式中的 ...

  • 某命学同道整理的八字预测的步骤

    一.首看日主的得令.得地.得势.得气. 得令:即日主生于何月,看生旺死绝囚. 得地:看日主坐下地支及与其它地支的作用关系. 得势:生我助我的天干众寡,包括天干的干和支中藏干. 得气:看八字寒暖燥湿,以 ...

  • Excel应用大全 | 单纯随机抽样

    一本书教会你分分钟搞定数据分析! 在数据分析中,抽样是指从全部数据中选择部分数据进行分析,以发掘更大规模数据集中的有用信息.在收集数据过程中,绝大多数情况下,并不采取普查的方式获取总体中所有样本的数据 ...

  • 实用Excel快捷键大全

    光明网2月23日 · 光明网官方账号 来源: 宁波发布

  • 工作中常用的25个Excel操作技巧,附详细步骤,收藏备用

    今天整理了几个Excel操作技巧,都是工作中最常用的,附详细操作步骤,易学易懂,为了提高工作效率,赶紧学起! 01.最快求和 选中数据区域和求和结果存放区域,按Alt =键,完成多行多列同时快速求和. ...

  • Excel快捷键大全

    Excel快捷键大全

  • 最强Excel快捷键大全,需要时查一查!说起Excel,可能所有人都知道这是一个office软件,但...

    说起Excel,可能所有人都知道这是一个office软件,但很少有人知道,这个名字其实源自英语中的"Excellence"一词,代表着:卓越和优秀. 感感顾名思义,设计者对这款软件 ...

  • Excel应用大全 | 二维表转换一维表

    一本书教会你分分钟搞定数据分析! 常见的二维表是一种交叉表,有行.列两个方向的标题交叉定义数据的属性.二维表在工作和生活中应用十分广泛,如课程表.工资表.人员花名册.价格表等.一维表则是每一行都是完整 ...