批次效应到底是个什么东东?

基本概念

关于批次效应的基本解释, 在10年的一篇综述当中是这么解释的。

Batch effects are sub-groups of measurements that have qualitatively different behaviour across conditions and are unrelated to the biological or scientific variables in a study. For example, batch effects may occur if a subset of experiments was run on Monday and another set on Tuesday, if two technicians were responsible for different subsets of the experiments, or if two different lots of reagents, chips or instruments were used. Leek et. al (2010)[4]

简单翻译一下的话,就是:
批次效应是在进行实验的时候附带产生了和实验结果没有关系的数据偏差。例如,
   1. 一组实验在星期一进行一次而另一组在星期二进行,
   2. 两名技术人员进行相同的实验,
   3. 实验当中使用了两种不同批次的试剂、芯片或仪器
   以上这些都有可能产生批次效应则可能会出现批次效应。

如何检测批次效应

在进行去除批次效应之前,首先还是需要观察一下批次对于数据的影响情况。通过比较去除之前和去除之后的变化,才能了了解具体的数据变化。
常规的批次效应的检测方法,主要是通过聚类或者降维分析 两种方法来检测批次效应的存在。

分层聚类

基于每个样本整体的表达数据,通过分层聚类可以计算出每个样本之间的相似度(距离远近)。最后在树状图当中,根据树状图的高度来观察各个样本之间的相似/差异程度。

关于树状图更多的内容可以查看:[[树状图(Dendrogram)]]

当批次效应存在的时候,我们就可以看到,有可能是相同类型的样本表达趋势也不相近。例如下面的这个图,我们可以看到在进化关系上,批次2的正常样本和批次3的正常样本的整体表达是不在一起的。

而在我们去除批次效应之后,再通过树状图观察的话,就发现之前的正常样本就聚到一起了。

降维分析

主成分分析(PCA), t-SNE以及umap等等算法都可以进行降维分析。在进行检测的降维分析之后,可以通过散点图的方式来展示不同批次之间的分布。

关于PCA推荐STATQUEST对于PCA的讲解(bilibiliID: BV1T4411T73S)。

其他比较批次关系的方法

以上是两种常用的检测不同批次之间的方法,同样的也还要其他的方法可以使用。具体的可以查看这个文章:https://www.itl.nist.gov/div898/handbook/eda/section4/eda42a3.html . 简单来说主要还包括:

  • 图分析:双柱状图、QQ图、箱线图 等等

  • 定量分析:F检验、双样本t检验 等等。

批次效应去除方法

经典的用来去除批次效应的方法还是ComBat算法。这类算法之前主要还是通过类似R语言这样的编程工具来进行分析。不过前段时间我们也提到过两个用来去除批次效应的工具。具体的相关工具介绍可以看我们明天的帖子哦。

批次效应的替代方法

由于我们在进行批次去除的时候,我们在定义批次分组的时候也只是基于我们的自己了解的情况进行定义的。但是每个数据集具体的情况不是很清楚。所以有可能也会出现在尝试着去除批次之后,发现其实不同组织类型的样本也并没有区分的很开的情况。就比如我们在去除批次之后的这个正常样本。

这个时候与其强行的去除批次进行差异分析。倒不如分析各自的数据集,然后再寻找稳定表达的差异表达基因。如果是这样的话,就可以在差异表达分析之后,使用RobustRankAggreg 算法来寻找稳定表达的基因即可。。

对于RobustRankAggreg 进行多数据集分析的工具的,我们在[[NetworkAnalyst-一站式表达谱数据分析]]的数据库当中介绍过。在这个一站式的表达谱数据分析工具就含有了RobustRankAggreg 算法。所以如果想要用这个算法的话,可以尝试使用这个工具。

相关参考资料

  1. Managing Batch Effects in Microbiome Data

  2. PH525x series - Biomedical Data Science

  3. https://www.plob.org/article/22574.html

  4. Tackling the widespread and critical impact of batch effects in high-throughput data

(0)

相关推荐

  • 人工智能基础课堂纪要8

    5.3 Boosting[**] 1.boosting集成原理 随着学习的积累从弱到强 2.实现过程 1.初始化训练数据权重,初始权重是相等的 2.通过这个学习器,计算错误率 3.计算这个学习期的投票 ...

  • 【機器學習】聚类算法使用小结

    聚类算法使用小结 k-means 原理 优点 缺点 sklearn 调参 凝聚聚类 原理 优点 缺点 DBSCAN 原理 优点 缺点 sklearn 调参 高斯混合聚类 原理 优点 缺点 MeanSh ...

  • 去除批次效应好,还是RobustRankAggreg优?

    最近参加了生信技能树曾老师的GEO数据挖掘月学徒培养,对一些文章中的GSE数据集走标准化分析流程. 小洁老师在去除批次效应的探索文件里给出了两种方法,一个是用R包limma中的函数removeBatc ...

  • 群体结构图形三剑客

    重测序便宜了,群体的测序和分析也多了起来.群体结构分析,是重测序最常见的分析内容.群体结构分析应用十分广泛,首先其本身是群体进化关系分析里面最基础的分析内容,其次在进行GWAS分析的时候,本身也需要使 ...

  • 主成分分析(PCA)原理总结

    主成分分析(Principal components analysis,以下简称PCA)是最常用的降维方法之一,在数据压缩和消除冗余方面具有广泛的应用,本文由浅入深的对其降维原理进行了详细总结. 目录 ...

  • 电液换向阀的内控、外控、内泄、外泄到底是什么东东?

    来源:今日头条 JustMy. 机电液不分家,搞液压的不一定精通电气,搞电气的必须了解液压!机械嘛,无论液压还是电气,都得掌握必要的知识,比如机加车铣磨床,公差配合,等离子激光线切割,焊接等等.但是今 ...

  • 防狼喷雾到底是个什么东东?

    防狼喷雾剂防身器材的一种,市面上常见的为口红外观大小,同一般的喷雾剂使用原理差不多.只是里面的原料是辣椒水之类的对人有很强刺激性的液体,使歹徒暂时丧失视力,根本无法睁开眼睛,上呼吸道强烈咳嗽,浑身难受 ...

  • 这两天疯狂上涨的柔性OLED到底是个啥东东?

    本公众号文章经过独立思考而来,力争做到观点一目了然,拒绝人云亦云,拒绝模棱两可,拒绝绕来绕去,不说别人说过的话.每天同时发布在东方财富网.雪球.摩尔金融.选股宝.水晶球等各大财经网站和新浪个人微博上, ...

  • 归属感到底是什么东东?

    前面讲过什么是安全感,这篇文章告诉读者们什么是归属感,归属感其实就是我们每个人内心最缺乏的精神状态,为什么缺乏归属感出生就缺少吗,每个人都用自己的追求,有的人归属感是结婚生子,有的人归属感是四处旅游, ...

  • 服务器到底是个什么东东?跟电脑有啥区别?

    一位朋友留言点的内容,想了解服务器方面的知识,对于普通用户而言,确实对服务器感觉很神秘,不知道服务器到底是个什么东东,我保证看完这篇,你就会明白服务器到底是个啥了. 首先可以很明确的告诉你,服务器也是 ...

  • 太极拳学的胸腹掏空到底讲的什么东东?

    习木 21:55:02 脏府运动 ...可说说么? 二水居士 21:55:33 脏腑运动分几个层面来说吧: 第一是脏腑器官的运动 通过胸腹贴腰背来带动脏腑器官运动 习木 21:56:37 压力按摩? ...

  • 到底是批次效应还是真实生物学差异

    因为10X仪器的商业化成功,目前大家的单细胞转录组课题基本上都是10X数据,所以我在单细胞天地分享了一系列相关教程,希望可以接地气的帮助大家,如下: 我的课题只有一个10x样本肿么办? 两个样品的10 ...

  • 特许权使用费到底是个什么东东?

    大家都知道个人所得税法中,综合所得包括四项,工资薪金所得.劳务报酬所得.稿酬所得.和特许权使用费所得. 在这四项所得中,估计最让人感觉到陌生的项目就是特许权使用费所得了,毕竟有特许权使用费所得的人群不 ...

  • 烘焙科普 | “包治百病”的纳豆,到底是什么东东?看完爱了

    曾经有一条关于"纳豆到底有多难吃"的话题冲上了热搜. 不喜欢它的人对它的评价是这样的: 喜欢它的人对它的评价是这样的: 不禁好奇,纳豆究竟有什么魔力,能引得这么多人展开激烈的讨论- ...