回归是一种统计方法,这种方法可以用来建立数学模型,从而根据一个或多个变量来预测另一个变量的值。回归分析的本质是如何确定两个或多个变量之间的相关关系,并依据估计结论做推测的过程。估计是基于已有数据集(如含有两个变量X和Y的数据集,其中X是自变量,Y是因变量),计算X和Y之间的相关性(求出相关系数r),然后用已知的X数据和r估计Y。例如,收集1000个成年人的身高和体重数据,计算出身高和体重之间的相关系数,再取新的若干个成年人的身高,使用估计方法可以估计每个人的体重,这就是估计的基本流程。在这个过程中,用到的估计方法称为线性回归。设身高为X,体重为Y,则(xi,yi)是成年人i的身高和体重,用样本数据绘制的散点图如图12-1所示,在该图中身高和体重具有一定程度的正相关属性,为这个杂乱的散点图拟合一条适当的直线,即回归线。
为了说明一条直线的拟合过程,在此先简化数据集,只保留10个点的数据,具体数值如表12-1所示。
如果数据点较少并且相关性很强,几乎可以通过目测来画一条接近所有数据点的直线,从而看出趋势。但是在图12-2所展示的数据中,很难用目测的方式得到一条直线来估计和每一个数据点的距离。尝试几条直线,都只能得到近似结果,如图12-3所示。实际上只有一条直线能最佳地拟合数据趋势,所有数据点距离该直线的垂直方向距离的平方和最小,这和计算方差、相关系数的逻辑相同,都是计算某一个标准的距离平方和的最小值。每个数据点都有一个垂直于X轴的到拟合线的距离,如图12-4所示。
图 12-4 数据点与拟合线的垂直方向的距离
如果某一条拟合线距离所有数据点的距离平方和最小,那么这条拟合线就是最优拟合线,也称为回归线。以上用“最小距离”寻找回归线的方法即是最小二乘法。用最小二乘法找到的回归线,其实际意义是,尽量减少估计值相对于实际值的总变动。从回归线中,可以得到以下结论。1. 这是变量 Y 对 X 的回归,也就是说 Y(体重)将依据 X(身高)的值被估计出来。2. 这条回归线可以进行比较准确的预测。例如,如果身高是 180cm,那么体重大概是 78kg。3. 每一个数据点和回归线的距离就是估计误差,是两个变量之间相关的直接反映,如果是完全估计,所有估计的数据刚好落在回归线上,从这个意义上讲,回归线也是最小误差平方和的直线。
给定回归线之后,可以估计所有的未来值,这正是回归分析的目的,建立回归线然后进行估计。
步骤1:单击选中散点图图表,单击【图表元素】按钮,在弹出的【图表元素】快捷菜单中选中【趋势线】复选框。步骤2:单击【趋势线】复选框右侧的展开按钮,在弹出的快捷菜单中选择【线性】选项,如图12-5所示。
图 12-5 生成回归线