什么,你的转录组测序数据样本量不够?

曾经(大约是2010附近)普通的bulk的转录组测序跟如今的单细胞转录组一样火爆,是个样品就去测序,都不会理会类似的实验设计是否有已经发表的文章。都妄想用经费堆,去摘低垂的果实,所以大量数据烂在手上,拖到后面就越来越难以发表,能捡到个普通杂志发表出去就谢天谢地了。

比如发表在《genes & genomics》这个期刊(影响因子1分左右)的 2016的文章:《Transcriptome analysis of non-small cell lung cancer and genetically matched adjacent normal tissues identifies novel prognostic marker genes》,链接是 https://link.springer.com/article/10.1007/s13258-016-0492-5 ,就是一个超级普通的bulk的转录组测序数据。

他们自己的课题设计其实仅仅是做了  10 pairs of genetically matched transcriptome (NSCLC and adjacent normal tissues obtained from 10 patients) ,其实这样的数据本来就可以直接去TCGA数据库提取了,完全没有必要自己招募病人自己花钱测序。数量级上不去,分析也是平平无奇,所以作者得结合两个公共数据:71 pairs (GSE40419) and 58 pairs (TCGA-LUAD),

结合两个公共数据

这样就有3次差异分析,可以取交集看韦恩图:

多次差异分析取交集看韦恩图

普通的转录组数据分析超级简单

有意思的是都2021了仍然有人转录组走tophat加cufflinks流程,过时了,我在2015年逛biostar论坛的时候,看到了这样的表述:

Tophat 首次被发表已经是6年前
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍,hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一
Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM
Sailfish更是跳过了比对的步骤,直接进行kmer计数来做QC,特异性及准确性都还行,但是速度提高了25倍
kallisto同样不需要比对,速度比sailfish还要提高5倍!!!

当时各路大神就建议大家抛弃传统的tophat加cufflinks流程,毕竟其作者都说它过时了,起码可以替换成为:hisat2+stringtie+ballgown流程啊!

如果你看到有人还在使用tophat加cufflinks流程来处理转录组数据,也不要急于嘲讽,有可能是他们的数据本来就是五六年前的,或者给他们服务的公司仍然是使用过时的流程而已。

但是我们的B站免费NGS数据处理视频课程就不会如此过时,因为常规ngs组学早在2015就定型了,我们的视频课程大多在2018年前后制作,已经组建了微信交流群的有下面这些:

最后,既然是肿瘤病人的测序数据,分析到最后,肯定是画龙点睛一下,添加生存分析,使用  lung cancer microarray datasets (GSE41271, GSE37745, and GSE4573)  ,就可以说明自己的测序数据分析得到的基因是有临床意义的。

添加生存分析

我在生信技能树多次分享过生存分析的细节;

生存分析是目前肿瘤等疾病研究领域的点睛之笔!

作为学徒作业吧,处理71 pairs (GSE40419) and 58 pairs (TCGA-LUAD),这两个数据集,主要是差异分析!

(0)

相关推荐