相关系数高达0.8又如何?

书上看到一个很好玩的例子

#call up and explore the data
data(anscombe)
attach(anscombe)
anscombe
cor(x1, y1) #correlation of x1 and y1
cor(x2, y1) #correlation of x2 and y2
par(mfrow = c(2,2)) #create a 2x2 grid for plotting
plot(x1, y1, main = "Plot 1")
plot(x2, y2, main = "Plot 2")
plot(x3, y3, main = "Plot 3")
plot(x4, y4, main = "Plot 4")

出图丑爆了,但是能说明问题了,如下:

可以看到这4个数据集的X,Y都是有关系的,其中第一个看起来是线下相关,第二个应该是曲线,第三个有离群点,第四个呢,完全就跑偏了,那么它们的线性回归如何呢?

是不是很有趣,大家的相关系数,居然都是0.82,大家都知道,相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下:

  • 当r>0时,表示两变量正相关,r<0时,两变量为负相关。

  • 当|r|=1时,表示两变量为完全线性相关,即为函数关系。

  • 当r=0时,表示两变量间无线性相关关系。

  • 当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1,两变量间线性

关系越密切;|r|越接近于0,表示两变量的线性相关越弱。

一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关。

亲爱的读者朋友们,你怎么看呢?

来自于: 【好书共享】机器学习入门

(0)

相关推荐