相关分析：从概念到步骤的实用指南

2024-04-05 02:50:25

来源：量化研究方法

作者：傅一航

一

什么是相关性

“万物皆有联”，是大数据一个最重要的核心思维。

所谓联，这里指的就是事物之间的相互影响、相互制约、相互印证的关系。而事物这种相互影响、相互关联的关系，就叫做相关关系，简称相关性。

世界上的所有事物，都会受到其它事物的影响：

HR经常会问：影响员工离职的关键原因是什么？是工资还是发展空间？
销售人员会问：哪些要素会促使客户购买某产品？是价格还是质量？
营销人员会问：影响客户流失的关键因素有哪些？是竞争还是服务等？
产品设计人员：影响汽车产品受欢迎的关键功能有哪些？价格、还是动力等？
……

所有的这些商业问题，转化为数据问题，不外乎就是评估一个因素与另一个因素之间的相互影响或相互关联的关系。而分析这种事物之间关联性的方法，就是相关性分析方法。

当然，有相关关系，并不一定意味着是因果关系。但因果关系，则一定是相关关系。

在过去，主要是要寻找影响事物的因果关系，所以过去也叫影响因素分析。但是，从统计学方法来说，因果关系一定会有统计显著，但统计显著并不一定就是因果关系，所以准确地说，影响因素分析应该改为相关性分析。

所以，在不引起混淆的情况下，我们也会用影响因素分析。

二

相关性与影响因素分析

▷ 相关性种类

客观事物之间的相关性，大致可归纳为两大类：一类是函数关系，一类是统计关系。

函数关系，就是两个变量的取值存在一个函数来唯一描述。比如，销售额与销售量之间的关系，可用函数y=px（y表示销售额，p表示单价，x表示销售量）来表示。所以，销售量和销售额存在函数关系。这一类关系，不是我们关注的重点。

统计关系，指的是两事物之间的非一一对应关系，即当变量x取一定值时，另一个变量y虽然不唯一确定，但按某种规律在一定的范围内发生变化。比如，子女身高与父母身高、广告费用与销售额的关系，是无法用一个函数关系唯一确定其取值的，但这些变量之间确实存在一定的关系。大多数情况下，父母身高越高，子女的身高也就越高；广告费用花得越多，其销售额也相对越多。这种关系，就叫做统计关系。

进一步，统计分析如果按照相关的形态来说，可分为线性相关和非线性相关（曲线相关）；如果按照相关的方向来分，可分为正相关和负相关，等等。详细见下面的图形。

▷ 相关性描述方式

描述两个变量是否有相关性，常见的方式有：相关图（典型的如散点图和列联表等等）、相关系数、统计显著性。

如果用可视化的方式来呈现各种相关性，常见有如下散点图。

至于相关系数和统计显著性，请参后续章节。

▷ 相关性方法种类

对于不同的因素类型，采用的相关性分析方法也不相同。

下面简单总结一下所选用的相关性分析方法。

三

相关分析基本知识

简单地说，相关分析，就是衡量两个数值型变量的相关性，以及计算相关程度的大小。

▷ 相关分析种类

相关分析，常用的方法类别有：简单相关分析、偏相关分析、距离相关分析等。其中前两种方法比例常见。

简单相关分析，是直接计算两个变量的相关程度。
偏相关分析，是在排除某个因素后，两个变量的相关程度。
距离相关分析，是通过两个变量之间的距离来评估其相似性（这个少用）。

注：在没有特别说明的情况下，下文所说的相关分析，指的是简单相关分析。

▷ 散点图

判断两个变量是否存在线性相关关系，一种最简单的方法就是可视化。

相关分析中最合适的图形就是散点图。在下表中，将腰围、脂肪比重和体重用散点图的方式画出来，则如下图所示。

显然，随着腰围的增加，体重也在增加。说明，腰围和体重是存在相关关系的，而且应该是正相关。同样，脂肪比重与体重也是正相关的。

可视化的优点是：直观，但其缺点是：无法准确度量。比如腰围和脂肪比重，对体重的影响程度到底有多大？或者说，这两个因素中哪个因素对体重的影响会更大？散点图是无法给出答案的。

所以，在相关分析时，我们将引入一个新的数据指标（即相关系数），专门用于衡量两个变量的线性相关程度。

▷ 相关系数

相关系数（CorrelationCoefficient），是专门用来衡量两个变量之间的线性相关程度的指标，经常用字母r来表示相关系数。

相关系数，是以数值的方式来精确地反映两个变量之间线性相关的强弱程度的。最常用的相关系数，是皮尔逊（Pearson）相关系数，又称积差相关系数，公式如下。

相关系数的特征如下：

相关系数的取值范围是在[-1，1]之间。
|r|越趋于1，表示线性相关越强；|r|越趋于0，表示线性相关越弱。
若|r|=1，为完全线性相关（相当于两变量有函数关系）
r=1，为完全正线性相关。
r=-1，为完全负线性相关。
若r >0，表示两个变量存在正相关。
若r< 0，表示两个变量存在负相关。
若r = 0，表示两个变量不存在线性相关关系。

其实，并不是说一定要r=0时才表示两变量不存在线性相关。在实际的应用中，因为r表示的是相关程度，所以我们往往会将r的取值分成几个区间，来表示不同的相关程度（如下图所示）。

▷ 显著性检验

由于上述相关系数是根据样本数据计算出来的，所以上述相关系数又称为样本相关系数（用r来表示）。

若相关系数是根据总体全部数据计算的，称为总体相关系数，记为ρ。

但由于存在抽样的随机性和样本较少等原因，通常样本相关系数不能直接用来说明两总体（即两变量）是否具有显著的线性相关关系，因此还必须进行显著性检验。

相关分析的显著性检验，经常使用假设检验的方式对总体的显著性进行推断。

显著性检验的步骤如下：

假设：两个变量无显著性线性关系，即两个变量存在零相关
构建新的统计量t，如下所示

在变量X和Y服从正态分布时，该t统计量服从自由度为n-2的t分布。

计算统计量t，并查询t分布对应的概率P值。
最后判断（α表示显著性水平，一般取0.05）：

1）如果P<α，表示两变量存在显著的线性相关关系；

2）否则，不存在显著的线性相关关系。

四

基本步骤

简单相关分析的基本步骤如下：

下面以腰围、体重、脂肪比重为例，来说明应该怎样进行相关分析。

第1步：绘制散点图

在SPSS中，绘制散点图非常简单。操作步骤如下：

1）点击图形à图表构建程序。

2）在库中选择散点图，双击简单散点图。

3）分别将腰围和体重，拖入X轴和Y轴，确定即可。

观察散点图，可知：腰围与体重应该是存在线性相关性的，或者说，腰围对体重是有影响的。不过，这相关程度（或影响程度）有多大，则需要进一步计算相关系数来度量。

第2步：选择系数公式

因为，Pearson相关系数要求变量服从正态分布，所以在计算相关系数之前，需要先确定两变量是否都服从正态分布，或者近似正态分布。

如果采用其它相关系数（参考“相关系数种类”小节），则可以省略正态性检验。

在SPSS中，判断两变量是否服从正态分布操作步骤如下：

1）点击分析à描述统计à探索，进入探索界面。

2）将待判断的变量选入因变量列表。

3）打开绘制界面，选中带检验的正态图，确定。

确定后得到如下的正态性检验结果：

在SPSS中，采用的是K-S检验以及Shapiro-Wilk检验的结果。当Sig>0.05时，表明该变量服从正态分布，否则为非正态分布。

注：当样本量大于50时用K-S检验结果，样本量小于50时用Shapiro-Wilk检验结果。

如表所示，显然腰围和体重两个变量都是服从正态分布的，所以可以采用Pearson相关系数。下面在计算相关系数时，将采用Pearson相关系数。

第3步：计算相关系数

在SPSS中，计算相关系数的操作步骤如下：

1）打开数据文档，点击分析à相关à双变量，进入相关分析界面。

2）将要判断的几个变量全部选入变量列表，确定，即可得到相关系数矩阵。

确定后得到如下的相关系数矩阵：

显然，相关系数矩阵是对称矩阵，而且对角线上的相关系数全为1（即变量自身的相关系数为1）。从上表中可知，腰围和体重的相关系数r=0.853，存在强相关；脂肪比重和体重的相关系数r=0.697，存在中度相关。

第4步：显著性检验

在SPSS中，不但计算出变量间的相关系数，同时还进行了显著性检验（即计算了统计量t，且查询出对应的概率P值，见显著性一行）。

在相关系数矩阵中，查看显著性一行，腰围和体重对应的概率P=0.000（因精度的原因，看起来概率为0），显然P<0.05，即根据显著性检验，也可知腰围和体重、脂肪比重和体重，都存在显著的线性相关关系。

第5步：进行业务判断

根据前面的相关分析，可得到数据分析结论：

1、根据显著性判断，可知腰围与体重、脂肪比重与体重，都存在显著线性相关性。

2、根据相关系数，可知腰围与体重存在强相关，脂肪比重与体重存在中度相关。

然后，再从业务上对分析结果进行解读，并给出相应的业务策略或建议：

1、业务解读：腰围对体重的影响很大，脂肪比重对体重的影响较大。

2、业务建议：要减轻体重，最好先减小腰围，少吃脂肪类食物。

这样，就实现了从数据到业务的完整的相关分析过程。

ANSYS Workbench优化设计技术系列讲座（三）：参数相关性分析

本文为优化设计系列讲座系列的第三篇,前面发布的相关内容的链接如下: ANSYS Workbench优化设计技术系列讲座(一):设计探索与优化技术概述 ANSYS Workbench优化设计技术系列讲座 ...
最小二乘法——线性回归背后的数学，探究其公式的诞生过程

你可能听说过比萨斜塔的故事.在建造过程中,塔开始逐渐向一边倾斜. 假设吉诺( Gino),其中一位工程师,想预测塔的未来倾斜度.他想知道倾斜度是否会增加,到明年会增加多少.吉诺的唯一信息是下面的表格, ...
六西格玛管理工具——相关分析

六西格玛管理工具--相关分析在六西格玛管理的分析阶段(analyze)中,分析问题出现的原因是至关重要的.这时,统计学中的相关分析及回归分析就是很有力的六西格玛工具. 如果同时获得了两个或多个连续型 ...
(转载)SPSS之相关分析与线性回归模型（图文+数据集）

在讲解线性回归模型之前,先来学习相关分析的知识点,因为相关分析与回归有着密切的联系相关分析任意多个变量都可以考虑相关问题,不单单局限于两个变量,一次可以分析多个变量的相关性任意测量尺度的变量都可 ...
JASP统计分析实践：相关分析

案例数据源:雇员数据请在本公众号后台回复关键词[雇员]获取数据下载链接. 分析目的:试分析初始薪金水平与当前薪金水平的相关性. 初始薪金和当前薪金两个变量均为连续数据,如果满足多元正态分布,那么可以 ...
相关分析方法

Day 15:相关分析:直线相关VS秩相关隶属第四章:现况调查的统计分析策略无论实验性研究还是观察性研究,都少不了相关分析的身影,尤其是现况调查和队列研究.在现况调查中,相关分析往往可以用于多个指标之 ...
RPA项目POC指南：概念、步骤与技巧

UB Store "为什么部署RPA前要进行POC?RPA不是开箱即用吗?" 其实,RPA的实施并非总是一帆风顺,"碰坑"在所难免. 据安永报告显示,30%至5 ...
刘渡舟：偏头痛治疗实用指南，效佳且愈不复发

刘渡舟:我治偏头痛偏头痛,根据我在临床治疗经验,如果偏头痛而口苦.心烦,脉来弦数,舌质偏红,苔见薄黄的,这是火邪侵犯了少阳胆经,可用柴胡12克,黄芩.连翘.丹皮.胆草各10克,夏枯草12克进行治 ...
手机号就能暴露你的全部信息？10条实用指南保护你的互联网隐私

手机号就能暴露你的全部信息？10条实用指南保护你的互联网隐私
实用指南 | 儿童乐园预约指南来啦

无忧无虑的玩耍才是童年乐趣的真谛在欢乐港湾对标国际高标准和新颖设计的童乐园等着你来发现 Happy children's time 大型立体攀爬网.大型秋千组合. 山坡大型曲线不锈钢滑梯 ...
王羲之《草诀百韵歌》，草书辨识实用指南

<草诀百韵歌>是明韩道亨于万历四十一年(公元1613年)书写的.<草诀百韵歌>是把比较通行的草字集中起来,找出它的结体和行笔中的某些规律,编成五字一句的韵文,以便于记忆. 在这 ...
盆景茉莉花养花实用指南

优美小调<茉莉花>令人沉浸其中,而茉莉花清淡的香气.洁白的花瓣也令人着迷.茉莉花原产于中国江南地区以及西部地区, 现在已经广泛地种植在亚热带地区,如果我们想要在家中种植,就必须先了解其相关 ...
人类白细胞抗原-G（HLA-G)研究实用指南

人类白细胞抗原G(humanleukocyteantigen,HLA-G)是由Geraghty于1987年首次克隆出来的位于6号染色体短臂的一类免疫耐受分子,具有选择性组织分布的特点,表达于母胎界面绒 ...
《股票估值实用指南》第2版精华干货

在未来能收获的现金流不确定(有危险)的情况下,为什么投资,如何投资,以及是否投资于某些项目.风险投机或者股票.买卖某个投资或股票的决策,必须建立在三个与现金流有关的标准之上:基本的现金流规模(即收益率 ...
数据处理如何做？请收好这份实用指南

总会有小伙伴问起"数据是都收集好了,可是应该怎么处理呢?" "对数据中的重复值.异常值有什么好的处理方法?" "我的问卷里既有多选题.填空题,也有量表 ...

相关分析：从概念到步骤的实用指南

相关推荐