如何理解相关分析的显著性检验?
我们做两个变量间相关性分析时,统计软件会输出一个显著性检验结果,也就是说结果里面除了相关系数之外,还有一个p(或sig)值,许多新手对这个p值不知作何解释。
小兵今天解答一下这个问题。
1 相关系数也是随机的
统计分析的数据多数是小数据集,通俗说就是小样本,从一个总体中可以抽取出许多随机样本,两个变量间相关系数本身是一个随机的数字。
现有的数据,你计算相关系数为r1,如果让你重新抽样1次,你会得到另外一个相关系数r2,就是这个意思。所以,考察样本数据的相关系数,有随机性、偶然性。
2 相关系数的显著性检验
因为相关系数有随机性,所以一定要想办法检定不犯错误的概率,所以就非常自然的有了显著性检验。相关性和显著性检验是两个不同的概念,但是显著性检验在这里就能说明相关性(相关强度、方向)的产生是不是偶然因素导致的。
原假设:假设变量之间的相关性为零。
如果P<0.05,则说明【变量之间的相关性为零】这个假设不成立,出现这个情况的概率微乎其微,反之,我们在95%的置信度下可以粗暴认为变量之间是存在相关性的,即相关性显著(哪怕是比较小的相关系数)。如果P>0.05,那么【变量之间的相关性为零】这件事被接受,不能否定,则说明变量间的相关性不显著。
3 先读p值再读相关系数
显著性检验是对随行性的检定,所以先读这一个结果,后读取相关系数的结果。
以上图为例,广告印刷投入与男装销售额、女装销售额之间均存在显著的相关性(P<0.05),与男装销售额的相关系数为0.266,与女装销售额的相关系数为0.436,说明他们之间存在一定的正相关性。
赞 (0)