数据科学中的相关性和因果关系
今日份知识你摄入了么?
废话不多说让我们马上直切主题。
相关性 Correlation
关联意味着与另一个变量的关系。比方说,一个变量中的运动与另一个变量中的运动关联。举个栗子,伴随着天气转热,冰淇淋的销量会上涨。
正相关表示,运动方向相同(左图);负相关意味着变量以相反的方向移动(中图)。较远的右图是变量之间没有相关性时。
图片制作by:correlation.html
因果关系 Causation
因果关系意味着一个变量导致另一个变量发生更改,这意思就是一个变量依赖于另一个变量。比如说是天气热了,人们才有更多的晒伤。在这种情况下,天气会导致晒伤。
照片制作by:Anthony Figueroa相关性不是因果关系
相关性vs因果关系的不同
让我们来试试这个可视化效果的另一个示例。你的计算机电池不足会导致它关闭。它还会导致视频播放器关闭。现在,计算机和视频播放器关闭事件是相关的;真实原因是电池电量耗尽。
照片由Lionel Valdellon相关性vs因果关系
为什么这个在数据科学中很重要?
你见过多少次暗示A导致B的研究。比如,去健身房可以提高工作效率和专注率。这真的是因果关系么?
作为一名数据科学家,你不应该让相关性迫使你产生偏见,因为它可能导致错误的特征工程和不正确的结论。
相关性并不意味着因果关系。
如果你要为健身房和生产力关系编写一个机器学习模型,而不是关注相关功能(去健身房),那么你应该关注高性能(勤奋、毅力、日常工作等)的实际原因,以验证因果关系。
R中的相关性
假设你有一个数据集,并且想要评估数据集中的某些要素是否相关。我使用的是mtcar数据集,这是R中的内置数据集之一。
library(ggcorrplot)
#read mtcars, one of the built in dataset in R
data(mtcars)
#use cor function get correlation
corr <- cor(mtcars)
#build correlation plot
ggcorrplot(corr, hc.order = TRUE, type = 'lower', lab = TRUE)
自己试试吧复制将上面的代码粘贴到R中。
以上代码段的输出
运行代码时,应获取带取相关绘图和值的输出。值接近 1表示正相关,和如果接近-1表示负相关。在上面的示例中,你可以观察到disp和wt呈正相关,为 0.89;而mpg和cyl的负相关为 -0.85。
因果影响方法
因果关系比相关性更难得出结论,但也并不是没有可能。确定因果影响的最常见方法之一是通过实验和增量研究。
照片制作by:Analytics Vidya 因果关系和相关性有什么区别?
原文作者:Sundas Khalid
翻译作者:陈奕霖Eilleen
美工编辑:过儿
校对审稿:Dongdong
原文链接:https://medium.com/@sundaskhalid/correlation-vs-causation-in-data-science-66b6cfa702f0