统计学入门:变量相关性分析方法大盘点

作者:LatticeInvest

文章来源:格栅的所见所思

近期想做一些变量之间的分析,于是找了一些书籍和资料来学习,并试着做了一些整理。一些东西还没太搞懂,整理的可能有错误,请多指正。

一、变量的分类和变量的测量尺度

测量就是将数分配给一个对象(object)或者事件(event)的特征(characteristic),这样可以使其与其他对象或特征进行比较。也就是用数值对事物或其特征进行比较。尺度(scale)就是为了测量而建立的准则。

变量首先从大维度上,可以分为定性变量和定量变量。

定性变量(Qualitative variable):变量之间有差异,但这种差异无法量化比较。

  • 分类/名义变量(Categorical/NominalVariable,或无序分类变量),一般指两个及以上的分类,但是本身没有等级顺序之分。要注意两个原则:①不同类别之间要互相排斥,也就是说每个研究对象只能归到一类;② 所有研究对象均有归属,不可遗落。例如:性别(男女),血型(A、B、AB、O),颜色(红黄蓝)。
  • 有序变量(Ordinal Variable,或有序分类变量),可以进行等级划分,进行排序比较,但是却不能知道每个等级之间具体相差的是多少,比如好与更好之间的差。有序变量的“类间距”并不相等,也就是各类型之间的稀疏程度并不是均匀的。例如:教育水平(小学、中学、大学、研究生),喜欢的程度(高中低),高中年级:(高一、高二、高三)。
定量/数值变量(Quantitative/numericalvariable,):可以进行加减
  • 间隔尺度/等距尺度Interval scale:间隔尺度是指事物的数值之间具有一定的间隔,这个间隔是等距的,因此也被称为是等距尺度。间隔尺度的对象有顺序、可以进行比较,也就是具有定类尺度和顺序尺度的所有特点。比如华氏温度(不是温度差)、时间(不是小时),这样的数据是连续的,同时没有实际意义的0点。因为0°C并不代表没有温度,00:00也不代表是没有的时间。不过1°C、2°C、3°C、4°C...的间隔都是1°C;时间也是比如1:00、2:00、3:00间隔是1个小时。比如3点比2点晚,同时晚了1个小时(3-2=1);2017年比2018年早,而且早一年(2018-2017=1)。这类尺度研究的事物只能对其间隔进行计算,也就是说只可进行加减计算,却不能进行乘除计算,比如1点*2点并没有什么意义,2018年/2017年也没有任何意义。
n 离散变量(或非连续性变量,discrete or un-continuous variable):离散的不能够连续的,只能取到的是某些特定的值,而且这些值之间存在着一些“间隔/间隙”。比如,休假的日期只可以是4天、5天、7天等,一天每小时到达北京火车站的火车的数量等。
n 连续变量(continuous variable):在给定的范围内,可以取到任何的数值的变量,其实也就是可以有小数点的变量,离散变量中,不能说每小时到达2.3个火车,但是比如体重可以是50.3kg,每小时到达火车的数量只可能是2个或者三个,这是离散变量,但是体重可能是50.3kg,也可能是50.33kg,这个体重就是一个连续变量。连续变量通常四舍五入取小数点后三位。
  • 比例尺度/定比尺度(ratio scale):连续的,同时存在类别、顺序、可以比较大小、有差异、可以相加、可以计算比例、也可以相乘,而且0点具有实际的意义,比如收入(income),0就代表没有任何收入,一个公司部门4个员工的月收入是A:2000、B:5000、C:8000、D:10000,B比A的月收入多3000,C的月收入是A的4倍,D的月收入是B的2倍。这样的数据还有,绝对温度,利润等。
二、列联表contingency table的分类及相应的统计分析方法
1. 无因果关系
2. 有因果关系
(0)

相关推荐