批次效应到底是个什么东东?
基本概念
关于批次效应的基本解释, 在10年的一篇综述当中是这么解释的。
Batch effects are sub-groups of measurements that have qualitatively different behaviour across conditions and are unrelated to the biological or scientific variables in a study. For example, batch effects may occur if a subset of experiments was run on Monday and another set on Tuesday, if two technicians were responsible for different subsets of the experiments, or if two different lots of reagents, chips or instruments were used. Leek et. al (2010)[4]
简单翻译一下的话,就是:
批次效应是在进行实验的时候附带产生了和实验结果没有关系的数据偏差。例如,
1. 一组实验在星期一进行一次而另一组在星期二进行,
2. 两名技术人员进行相同的实验,
3. 实验当中使用了两种不同批次的试剂、芯片或仪器
以上这些都有可能产生批次效应则可能会出现批次效应。
如何检测批次效应
在进行去除批次效应之前,首先还是需要观察一下批次对于数据的影响情况。通过比较去除之前和去除之后的变化,才能了了解具体的数据变化。
常规的批次效应的检测方法,主要是通过聚类或者降维分析 两种方法来检测批次效应的存在。
分层聚类
基于每个样本整体的表达数据,通过分层聚类可以计算出每个样本之间的相似度(距离远近)。最后在树状图当中,根据树状图的高度来观察各个样本之间的相似/差异程度。
关于树状图更多的内容可以查看:[[树状图(Dendrogram)]]
当批次效应存在的时候,我们就可以看到,有可能是相同类型的样本表达趋势也不相近。例如下面的这个图,我们可以看到在进化关系上,批次2的正常样本和批次3的正常样本的整体表达是不在一起的。
而在我们去除批次效应之后,再通过树状图观察的话,就发现之前的正常样本就聚到一起了。
降维分析
主成分分析(PCA), t-SNE以及umap等等算法都可以进行降维分析。在进行检测的降维分析之后,可以通过散点图的方式来展示不同批次之间的分布。
关于PCA推荐STATQUEST对于PCA的讲解(bilibiliID: BV1T4411T73S)。
其他比较批次关系的方法
以上是两种常用的检测不同批次之间的方法,同样的也还要其他的方法可以使用。具体的可以查看这个文章:https://www.itl.nist.gov/div898/handbook/eda/section4/eda42a3.html . 简单来说主要还包括:
图分析:双柱状图、QQ图、箱线图 等等
定量分析:F检验、双样本t检验 等等。
批次效应去除方法
经典的用来去除批次效应的方法还是ComBat算法。这类算法之前主要还是通过类似R语言这样的编程工具来进行分析。不过前段时间我们也提到过两个用来去除批次效应的工具。具体的相关工具介绍可以看我们明天的帖子哦。
批次效应的替代方法
由于我们在进行批次去除的时候,我们在定义批次分组的时候也只是基于我们的自己了解的情况进行定义的。但是每个数据集具体的情况不是很清楚。所以有可能也会出现在尝试着去除批次之后,发现其实不同组织类型的样本也并没有区分的很开的情况。就比如我们在去除批次之后的这个正常样本。
这个时候与其强行的去除批次进行差异分析。倒不如分析各自的数据集,然后再寻找稳定表达的差异表达基因。如果是这样的话,就可以在差异表达分析之后,使用RobustRankAggreg 算法来寻找稳定表达的基因即可。。
对于RobustRankAggreg 进行多数据集分析的工具的,我们在[[NetworkAnalyst-一站式表达谱数据分析]]的数据库当中介绍过。在这个一站式的表达谱数据分析工具就含有了RobustRankAggreg 算法。所以如果想要用这个算法的话,可以尝试使用这个工具。
相关参考资料
Managing Batch Effects in Microbiome Data
PH525x series - Biomedical Data Science
https://www.plob.org/article/22574.html
Tackling the widespread and critical impact of batch effects in high-throughput data