为什么需要设置重复样本? – 测序无法消除个体间基因表达水平的差异

二代测序及基因芯片技术使得过去的十多年涌现出大量关于RNA-seq的研究。但似乎一些研究人员没有注意到,基因表达的异质性不仅仅是由技术误差导致的。基因表达是一个相对随机的过程,同一类型样本中的不同个体,基因的表达可能会不一样。一般来说,基因表达的异质性(Var(Expr))可以被分解为以下三个部分:

Var(Expr) = Across Group Variability + Measurement Error + Biological Variability

Across Group Variability即由于不同的处理或不同的细胞类型等导致的表达水平差异,即通常所说的组间差异。例如,肿瘤样本与正常样本之间的表达差异。

Measurement Error指实验或测序过程中的技术误差。技术误差会导致一定的基因表达异质性,但其可以通过对同一样本进行多次实验/测序(即技术重复)来消除。

Biological Variability指同一分组的不同样本之间的表达差异。即使排除掉Measurement Error,这种样本间的表达差异也是存在的,即无法通过测序来消除Biological Variability。

在实验设计中,如果关注的是组间差异(Across Group Variability),那么Measurement Error和Biological Variability就会成为影响分析结果的因素。

Measurement Error可以通过技术重复来消除,我们下面主要关注一下Biological Variability为何不能通过测序来消除。

以下利用两个研究的数据,评估了不同测量方法(二代测序和基因芯片)导致的表达水平差异:

说明:

每个点表示一个基因;

横坐标表示利用基因芯片方法检测得到的某个基因在不同样本之间的表达水平的标准差;

纵坐标表示利用二代测序方法检测得到的某个基因在不同样本之间的表达水平的标准差;

黑色线表示对表达异质性(s.d.)的最佳线性拟合;

红色线表示y=x。

高亮的两个点/三角表示基因COX4NB和RASGRP1

从上述结果可以看到,两种技术检测得到的表达抑制性相差很小。

以下展示了不同样本的两个基因(COX4NBRASGRP1)的标准化(圆:均值归一化;三角:中心化)后的表达量。上图表示二代测序,下图表示基因芯片。

从结果可见,无论使用哪种技术,基因COX4NB在不同样本中的表达水平都较为一致,基因RASGRP1则异质性较高。

综合上述两个结果,Biological Variability是基因的特性,而与检测方法无关。

Biological Variability对于实验设计、数据分析影响很大。考虑上述基因COX4NB和RASGRP1,如果检测到不同处理组之间COX4NB的表达有差异,那么这个差异很可能是真阳性,因为组内异质性很小;但如果检测到两组之间RASGRP1表达有差异,如果重复样本数量不够,很有可能检测到的差异是假阳性,因为无法排除是否是Biological Variability导致的。

综上所述,为了得到更可信的结果,需要足够的生物学重复。

(0)

相关推荐