是否可以根据10X转录组数据来推断基因组CNV信息呢?
有学员问10x的3'端测序来infer CNV 是否可靠?
这个问题,说实话,很难回答,因为要是能完整回答这个问题,其实就是一篇正经的生物信息学文章了。
而且以前的确有文章这样做,我看到过的文章是是 Comprehensive analysis of immune evasion in breast cancer by single-cell RNA-seq , 链接是. doi: http://dx.doi.org/10.1101/368605 bioRxiv preprint first posted online Jul. 13, 2018; 就是使用10X转录组数据来推断CNV信息,如下:
那么10X数据跟其它单细胞转录组差异在哪呢?
在我们推荐的各种单细胞转录组技术比较的文章,Ziegenhain et al., 2017, Molecular Cell http://dx.doi.org/10.1016/j.molcel.2017.01.023 其实提到过:
虽然这篇文章没有比较10X,不过,只要是你的文章足够多,其实很容易想到,因为10X技术出来的单个细胞的reads数量太少,检测到的基因数量太少。
很容易从10X的数据分析报告看出来,10X单细胞转录组数据处理流程在我们单细胞天地有详细介绍:
报告如下:
显示平均每个细胞的测序数据量是45K条reads。
当然,并不是10x一个技术是这样单个细胞的reads数量太少,检测到的基因数量太少。比如文章:Li et al., Dysfunctional CD8 T Cells Form a Proliferative, Dynamically Regulated Compartment within Human Melanoma, Cell (2019), https://doi.org/10.1016/j.cell.2018.11.043 :同样的,平均每个细胞也就40K左右的reads数量啦。
比如汤富酬的 A single-cell RNA-seq survey of the developmental landscape of the human prefrontal cortex:
再比如张泽明的 Lineage tracking reveals dynamic relationships of T cells in colorectal cancer:
这跟10X来说,都是数量级的差异。
如果你想让你的 10X达到百万级别的测序量该如何
从40K到1M,需要25倍的扩大,如果从包lane的角度来说,有点太贵了,现在哪怕是Nova-seq,一条lane也得好几千块钱,虽然是10X费用是一个样本2万块钱,但是给一个10X样本测25条lane,就把成本优势给搞没有了。
不过,并不是说推断CNV就一定需要1M的reads,实际上是可以通过模拟不同文库大小数据,来测试什么样的数据量,是可以足够推断CNV的,比如就可以在bulk数据,或者那样的C1数据里面测试。
这个课题,就交给大家了哦。