我认识的基本统计检验
作者:xph(谢鹏昊)
统计方法有很多,首先了解每一种方法解决什么问题,使用的前提是什么,以及最终结果如何理解,并进行可视化
进行统计的工具有很多,R, SPSS EXCEL, 每个人的习惯不一样,使用的软件也不同。大家尽量做好记录,保证操作流程以及结果的可重复性。
每周大家学习一个新的统计知识,做好学习笔记,可以进行可视化的,尽量做出图形,发到群里统一整理。尽量学习使用有道云笔记进行记录,方便他人的查看以及记录。
2021.7.18 差异分析
主要包括:方差分析、T检验、卡方检验、非参数检验
以及什么是多重比较
为什么要做差异分析
得到实验结果后,处理与对照组的 结果是否存在差异,差异是否明显,并不是简单的肉眼感觉,并且差异是由于处理造成的还是 样品间的重复不好而造成,是需要有统计学的支持。
不同方法的使用前提以及选择标准
由于自己也非统计专业,一些方法只停留在应用层面,具体原理以及最准确的应用并不明确,大家要保留质疑
这里按照使用频率介绍
1. 非参数检验(秩和检验)
方差分析,t检验也叫参数检验,在使用前数据都必须满足一定的条件 :数据正态分布,方差齐性。微生物数据一般不符合,因此我自己多选用非参方法
非参数检验对数据没有太多要求
非参数检验要求重复较多大于5
1.1 单/双样本 非参数检验
实验设计上与方差分析类似,看下面的例子就好
Wilcoxon检验
Mann-Whitney检验
1.2 多组数据 非参数比较
Kruskal-Wallis检验
事后检验
类似于方差分析中的多重比较,事后检验(怎么叫应该都可以),判断两个平均数间有差异,哪两个平均数间没有差异。
2.方差分析(ANOVA)
使用前需要先检测数据是否正态分布,以及方差齐性
多重比较 方差分析只告诉了我们不同处理结果不同 ,但是具体哪两组有明显差异,则需要进行多重比较
1.单因素方差分析(ONE-WAY-ANOVA)
单因素方差分析是指对单因素试验结果进行分析,检验因素对试验结果有无显著性影响的方法。单因素方差分析是用来检验组内和组件的方差之间的差异,从而确定到底是确定性因素还是随机因素导致的差异的一种统计方法。
举个例子简单说:要分析不同处理对植物生长影响,处理包括:有机肥,化肥,生物有机肥。这些都可以归类为施肥处理 所以称为单因素,如果种植土壤类型(黄土,盐土)不同,那么土壤类型也是一种处理。两种处理同时考虑 则为多因素方差分析。
单因素协方差
检测两个癌症病人,使用同一种药的效果, 一个抽烟,一个不抽,剔除抽烟的影响,就叫单因素协方差,但是我也没用过
2.多因素方差分析
接着上面举的例子,土壤类型以及施肥处理都可以对 植物生长造成影响,所以两种处理的影响要综合考虑,并且土壤类型以及施肥 之间是否互相影响。
多重比较
方差分析只能判断组内和组件方差是否有差异,多重比较可用来进一步确定哪两个平均数间有差异,哪两个平均数间没有差异。
多重比较有多种方法,也有一定的使用条件
方差齐性
方差齐性的前提下,有14种(或许更多),常听说的 LSD,Tukey,Scheffe。。。。
放上别人总结
T检验
我个人感觉方差分析的应用更广泛,因此T检验用的很少。
T检验只用于两组间的均值比较,同样数据需要满足一定的要求,正态,方差齐
T检验共分为三种方法,分别是独立样本T检验,配对样本T检验和单样本T检验
卡方
属于非参数假设检验,但是只针对分类数据,比如“性别”是一个分类变量,其变量值是“男”或“女”,两者之间无法进行运算或比较。
最后放一张网友梳理图
R语言实现与可视化
主要依赖于师兄开发的EasyStat进行,这个包目前主要关注单因素的分析,对多因素的交互作用,并未进行开发。这里只放师兄写的链接了
重点了解输入数据的格式,以及group 列的含义,以及如何调用包中的函数进行正态,方差齐性的检验
虽然可以满足大多数需求,但是个性化的需求仍需要自己调整,这里重点学习 如何导出作图的数据,进行二次创作