“万物皆有联”,是大数据一个最重要的核心思维。
所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系。而事物这种相互影响、相互关联的关系,就叫做相关关系,简称相关性。
世界上的所有事物,都会受到其它事物的影响:
- HR经常会问:影响员工离职的关键原因是什么?是工资还是发展空间?
- 销售人员会问:哪些要素会促使客户购买某产品?是价格还是质量?
- 营销人员会问:影响客户流失的关键因素有哪些?是竞争还是服务等?
- 产品设计人员:影响汽车产品受欢迎的关键功能有哪些?价格、还是动力等?
所有的这些商业问题,转化为数据问题,不外乎就是评估一个因素与另一个因素之间的相互影响或相互关联的关系。而分析这种事物之间关联性的方法,就是相关性分析方法。当然,有相关关系,并不一定意味着是因果关系。但因果关系,则一定是相关关系。在过去,主要是要寻找影响事物的因果关系,所以过去也叫影响因素分析。但是,从统计学方法来说,因果关系一定会有统计显著,但统计显著并不一定就是因果关系,所以准确地说,影响因素分析应该改为相关性分析。所以,在不引起混淆的情况下,我们也会用影响因素分析。客观事物之间的相关性,大致可归纳为两大类:一类是函数关系,一类是统计关系。
函数关系,就是两个变量的取值存在一个函数来唯一描述。比如,销售额与销售量之间的关系,可用函数y=px(y表示销售额,p表示单价,x表示销售量)来表示。所以,销售量和销售额存在函数关系。这一类关系,不是我们关注的重点。
统计关系,指的是两事物之间的非一一对应关系,即当变量x取一定值时,另一个变量y虽然不唯一确定,但按某种规律在一定的范围内发生变化。比如,子女身高与父母身高、广告费用与销售额的关系,是无法用一个函数关系唯一确定其取值的,但这些变量之间确实存在一定的关系。大多数情况下,父母身高越高,子女的身高也就越高;广告费用花得越多,其销售额也相对越多。这种关系,就叫做统计关系。
进一步,统计分析如果按照相关的形态来说,可分为线性相关和非线性相关(曲线相关);如果按照相关的方向来分,可分为正相关和负相关,等等。详细见下面的图形。描述两个变量是否有相关性,常见的方式有:相关图(典型的如散点图和列联表等等)、相关系数、统计显著性。如果用可视化的方式来呈现各种相关性,常见有如下散点图。对于不同的因素类型,采用的相关性分析方法也不相同。简单地说,相关分析,就是衡量两个数值型变量的相关性,以及计算相关程度的大小。相关分析,常用的方法类别有:简单相关分析、偏相关分析、距离相关分析等。其中前两种方法比例常见。
- 偏相关分析,是在排除某个因素后,两个变量的相关程度。
- 距离相关分析,是通过两个变量之间的距离来评估其相似性(这个少用)。
注:在没有特别说明的情况下,下文所说的相关分析,指的是简单相关分析。判断两个变量是否存在线性相关关系,一种最简单的方法就是可视化。相关分析中最合适的图形就是散点图。在下表中,将腰围、脂肪比重和体重用散点图的方式画出来,则如下图所示。显然,随着腰围的增加,体重也在增加。说明,腰围和体重是存在相关关系的,而且应该是正相关。同样,脂肪比重与体重也是正相关的。可视化的优点是:直观,但其缺点是:无法准确度量。比如腰围和脂肪比重,对体重的影响程度到底有多大?或者说,这两个因素中哪个因素对体重的影响会更大?散点图是无法给出答案的。所以,在相关分析时,我们将引入一个新的数据指标(即相关系数),专门用于衡量两个变量的线性相关程度。相关系数(CorrelationCoefficient),是专门用来衡量两个变量之间的线性相关程度的指标,经常用字母r来表示相关系数。相关系数,是以数值的方式来精确地反映两个变量之间线性相关的强弱程度的。最常用的相关系数,是皮尔逊(Pearson)相关系数,又称积差相关系数,公式如下。
- |r|越趋于1,表示线性相关越强;|r|越趋于0,表示线性相关越弱。
- 若|r|=1,为完全线性相关(相当于两变量有函数关系)
其实,并不是说一定要r=0时才表示两变量不存在线性相关。在实际的应用中,因为r表示的是相关程度,所以我们往往会将r的取值分成几个区间,来表示不同的相关程度(如下图所示)。由于上述相关系数是根据样本数据计算出来的,所以上述相关系数又称为样本相关系数(用r来表示)。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ。但由于存在抽样的随机性和样本较少等原因,通常样本相关系数不能直接用来说明两总体(即两变量)是否具有显著的线性相关关系,因此还必须进行显著性检验。相关分析的显著性检验,经常使用假设检验的方式对总体的显著性进行推断。
- 假设:两个变量无显著性线性关系,即两个变量存在零相关
- 在变量X和Y服从正态分布时,该t统计量服从自由度为n-2的t分布。
1)如果P<α,表示两变量存在显著的线性相关关系;下面以腰围、体重、脂肪比重为例,来说明应该怎样进行相关分析。3) 分别将腰围和体重,拖入X轴和Y轴,确定即可。观察散点图,可知:腰围与体重应该是存在线性相关性的,或者说,腰围对体重是有影响的。不过,这相关程度(或影响程度)有多大,则需要进一步计算相关系数来度量。因为,Pearson相关系数要求变量服从正态分布,所以在计算相关系数之前,需要先确定两变量是否都服从正态分布,或者近似正态分布。如果采用其它相关系数(参考“相关系数种类”小节),则可以省略正态性检验。在SPSS中,判断两变量是否服从正态分布操作步骤如下:在SPSS中,采用的是K-S检验以及Shapiro-Wilk检验的结果。当Sig>0.05时,表明该变量服从正态分布,否则为非正态分布。注:当样本量大于50时用K-S检验结果,样本量小于50时用Shapiro-Wilk检验结果。如表所示,显然腰围和体重两个变量都是服从正态分布的,所以可以采用Pearson相关系数。下面在计算相关系数时,将采用Pearson相关系数。1) 打开数据文档,点击分析à相关à双变量,进入相关分析界面。2) 将要判断的几个变量全部选入变量列表,确定,即可得到相关系数矩阵。显然,相关系数矩阵是对称矩阵,而且对角线上的相关系数全为1(即变量自身的相关系数为1)。从上表中可知,腰围和体重的相关系数r=0.853,存在强相关;脂肪比重和体重的相关系数r=0.697,存在中度相关。在SPSS中,不但计算出变量间的相关系数,同时还进行了显著性检验(即计算了统计量t,且查询出对应的概率P值,见显著性一行)。在相关系数矩阵中,查看显著性一行,腰围和体重对应的概率P=0.000(因精度的原因,看起来概率为0),显然P<0.05,即根据显著性检验,也可知腰围和体重、脂肪比重和体重,都存在显著的线性相关关系。1、根据显著性判断,可知腰围与体重、脂肪比重与体重,都存在显著线性相关性。2、根据相关系数,可知腰围与体重存在强相关,脂肪比重与体重存在中度相关。然后,再从业务上对分析结果进行解读,并给出相应的业务策略或建议:1、 业务解读:腰围对体重的影响很大,脂肪比重对体重的影响较大。2、 业务建议:要减轻体重,最好先减小腰围,少吃脂肪类食物。