数据科学中的相关性和因果关系

今日份知识你摄入了么?

废话不多说让我们马上直切主题。

相关性 Correlation

关联意味着与另一个变量的关系。比方说,一个变量中的运动与另一个变量中的运动关联。举个栗子,伴随着天气转热,冰淇淋的销量会上涨。

正相关表示,运动方向相同(左图);负相关意味着变量以相反的方向移动(中图)。较远的右图是变量之间没有相关性时。

图片制作by:correlation.html

因果关系 Causation

因果关系意味着一个变量导致另一个变量发生更改,这意思就是一个变量依赖于另一个变量。比如说是天气热了,人们才有更多的晒伤。在这种情况下,天气会导致晒伤。

照片制作by:Anthony Figueroa相关性不是因果关系

相关性vs因果关系的不同

让我们来试试这个可视化效果的另一个示例。你的计算机电池不足会导致它关闭。它还会导致视频播放器关闭。现在,计算机和视频播放器关闭事件是相关的;真实原因是电池电量耗尽。

照片由Lionel Valdellon相关性vs因果关系

为什么这个在数据科学中很重要?

你见过多少次暗示A导致B的研究。比如,去健身房可以提高工作效率和专注率。这真的是因果关系么?

作为一名数据科学家,你不应该让相关性迫使你产生偏见,因为它可能导致错误的特征工程和不正确的结论。

相关性并不意味着因果关系。

如果你要为健身房和生产力关系编写一个机器学习模型,而不是关注相关功能(去健身房),那么你应该关注高性能(勤奋、毅力、日常工作等)的实际原因,以验证因果关系。

R中的相关性

假设你有一个数据集,并且想要评估数据集中的某些要素是否相关。我使用的是mtcar数据集,这是R中的内置数据集之一。

library(ggcorrplot)#read mtcars, one of the built in dataset in Rdata(mtcars)#use cor function get correlation corr <- cor(mtcars)#build correlation plotggcorrplot(corr, hc.order = TRUE, type = 'lower', lab = TRUE)

自己试试吧复制将上面的代码粘贴到R中。

以上代码段的输出

运行代码时,应获取带取相关绘图和值的输出。值接近 1表示正相关,和如果接近-1表示负相关。在上面的示例中,你可以观察到disp和wt呈正相关,为 0.89;而mpg和cyl的负相关为 -0.85。

因果影响方法

因果关系比相关性更难得出结论,但也并不是没有可能。确定因果影响的最常见方法之一是通过实验和增量研究。

照片制作by:Analytics Vidya 因果关系和相关性有什么区别?

原文作者:Sundas Khalid

翻译作者:陈奕霖Eilleen

美工编辑:过儿

校对审稿:Dongdong

原文链接:https://medium.com/@sundaskhalid/correlation-vs-causation-in-data-science-66b6cfa702f0

(0)

相关推荐