什么，你的转录组测序数据样本量不够？

2024-04-10 16:32:47

曾经（大约是2010附近）普通的bulk的转录组测序跟如今的单细胞转录组一样火爆，是个样品就去测序，都不会理会类似的实验设计是否有已经发表的文章。都妄想用经费堆，去摘低垂的果实，所以大量数据烂在手上，拖到后面就越来越难以发表，能捡到个普通杂志发表出去就谢天谢地了。

比如发表在《genes & genomics》这个期刊（影响因子1分左右）的 2016的文章：《Transcriptome analysis of non-small cell lung cancer and genetically matched adjacent normal tissues identifies novel prognostic marker genes》，链接是 https://link.springer.com/article/10.1007/s13258-016-0492-5 ，就是一个超级普通的bulk的转录组测序数据。

他们自己的课题设计其实仅仅是做了 10 pairs of genetically matched transcriptome (NSCLC and adjacent normal tissues obtained from 10 patients) ，其实这样的数据本来就可以直接去TCGA数据库提取了，完全没有必要自己招募病人自己花钱测序。数量级上不去，分析也是平平无奇，所以作者得结合两个公共数据：71 pairs (GSE40419) and 58 pairs (TCGA-LUAD)，

结合两个公共数据

这样就有3次差异分析，可以取交集看韦恩图：

多次差异分析取交集看韦恩图

普通的转录组数据分析超级简单

有意思的是都2021了仍然有人转录组走tophat加cufflinks流程，过时了，我在2015年逛biostar论坛的时候，看到了这样的表述：

Tophat 首次被发表已经是6年前 Cufflinks也是五年前的事情了 Star的比对速度是tophat的50倍，hisat更是star的1.2倍。 stringTie的组装速度是cufflinks的25倍，但是内存消耗却不到其一半。 Ballgown在差异分析方面比cuffdiff更高的特异性及准确性，且时间消耗不到cuffdiff的千分之一 Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM Sailfish更是跳过了比对的步骤，直接进行kmer计数来做QC，特异性及准确性都还行，但是速度提高了25倍 kallisto同样不需要比对，速度比sailfish还要提高5倍！！！

当时各路大神就建议大家抛弃传统的tophat加cufflinks流程，毕竟其作者都说它过时了，起码可以替换成为：hisat2+stringtie+ballgown流程啊！

如果你看到有人还在使用tophat加cufflinks流程来处理转录组数据，也不要急于嘲讽，有可能是他们的数据本来就是五六年前的，或者给他们服务的公司仍然是使用过时的流程而已。

但是我们的B站免费NGS数据处理视频课程就不会如此过时，因为常规ngs组学早在2015就定型了，我们的视频课程大多在2018年前后制作，已经组建了微信交流群的有下面这些：

最后，既然是肿瘤病人的测序数据，分析到最后，肯定是画龙点睛一下，添加生存分析，使用 lung cancer microarray datasets (GSE41271, GSE37745, and GSE4573) ，就可以说明自己的测序数据分析得到的基因是有临床意义的。

添加生存分析

我在生信技能树多次分享过生存分析的细节；

生存分析是目前肿瘤等疾病研究领域的点睛之笔！

作为学徒作业吧，处理71 pairs (GSE40419) and 58 pairs (TCGA-LUAD)，这两个数据集，主要是差异分析！

老瓶新装：TCGA+GEO分子分型发5+分

Heterogeneity of MSI-H gastric cancer identifies a subtype with worse survival通过MSI-H胃癌的异质性识别生存期较差的亚 ...
值得借鉴！公开数据库加点湿实验就发了7分+SCI！

Clinical significance and inflammatory landscapes of a novel recurrence associated immune signature ...
9+免疫预后模型真香系列

导语今天和大家分享的是2020年7月份发表在Briefings in Bioinformatics杂志上的一篇文章"Computational recognition of LncRNA ...
点到就是赚到，一篇8.579的miRNA纯生信文章

导语今天和大家分享的是2020年10月份发表在Theranostic杂志(IF=8.579)的一篇文章"A panel of eight microRNAs is a good predi ...
热乎的5.5分SCI，来看看最新的预后模型文章是怎么做的

在本项研究中,作者下载TCGA结直肠癌(CRC)数据作为训练集,GEO数据库(GSE40967,GSE12945,GSE17536,GSE17537)作为验证集.从分子特征数据库中选择上皮间质转化相关 ...
TCGA数据库的初次了解

对于研究cancer相关的小伙伴们,相信你们在看文献的过程中,经常可以看到有些作者利用TCGA数据库里的数据进行分析.整合,得到很多有意思的思路.那么TCGA数据库是个啥?里面有写什么东西?我也很好奇 ...
学会跨平台筛选肝癌预后标志物，上3分一点都不难

Front Genet (IF:3.517)杂志上的一篇文章"Identification of Platform-Independent Diagnostic Biomarker Pane ...
TCGA-miRNA批次矫正后数据集介绍

前段时间,我们对于批次效应有关的东西进行了一些介绍.其中包括 [[批次效应]] [[批次效应去除工具]] 对于经常使用的TCGA数据库而言,同样也有批次效应存在.对于这样的批次,在公布之前也经过一定的 ...
Genome Biology | SCRABBLE: 利用未细分的转录组测序数据作为限制对单细胞转录组测序进行估算

推荐:江舜尧编译:多儿编辑:马莉费城儿童医院学者Kai Tan等人于2019年5月7日在<Genome Biology>上发表题目为<SCRABBLE: single-cell ...
技术贴 | 宏转录组专题 | DDBJ数据库：宏转录组测序数据下载

本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读 DDBJ(DNA Data Bank of Japan)是与NCBI的GenBank,EMBL的EBI数据库齐名的世 ...
如何对多个转录组测序数据找变异呢

以前生信技能树发过这个教程: RNA-seq 检测变异之 GATK 最佳实践流程第一次对参考基因组建索引然后进行第一次序列比对之后根据第一次比对得到的所有剪切位点,重新对参考基因组建立索引再进 ...
什么，ENA和SRA数据库存放的单细胞转录组测序数据并不一致啊？

是时候把生信技能树的舞台交给后辈! 粉丝来稿作者:黑川五郎写在前面单细胞转录组以10X公司为主流,单细胞天地公众号详细介绍了cellranger流程,大家可以自行前往学习,如下: 单细胞实战(一 ...
明码标价之转录组测序数据的可变剪切

前面我们的明码标价之普通转录组上游分析,受到了各大热心粉丝的吐槽,觉得太简单了我们居然还好意思收费. 额,其实呢,这些粉丝应该是"饱汉不知饿汉饥",其实数据分析这个技能啊,难者不会 ...
一个简单转录组测序数据发两篇sci（你也可以！）

你还认为普通转录组测序没有用吗? 最近看到群里有小伙伴在讨论一个数据集 GSE140275 ,我发现它这个简单转录组测序数据发两篇sci,是关于 acute ischemic stroke 这个疾 ...
10X单细胞转录组的测序数据量这么少是为什么

最近读到发表在nature medicine杂志的文章<Immune profiling of human tumors identifies CD73 as a combinatorial t ...
明码标价之10X转录组原始测序数据的cellranger流程

冷知识:其实一个10X单细胞转录组样品可以有多达84个fastq文件哦! 我们在单细胞天地多次分享过cellranger流程的笔记,大家可以自行前往学习,如下: 单细胞实战(一)数据下载单细胞实战( ...
说清楚你的单细胞转录组课题多少个样品，测序数据量如何

现在发布一个优秀学员根据我的视频教程写的10个笔记,连载,希望可以从某种程度上面帮助你更好的学习我的7个小时34集的单细胞转录组数据处理视频.当然了,如果你确实没有时间学习数据处理细节,也可以委托生信 ...

什么，你的转录组测序数据样本量不够？

普通的转录组数据分析超级简单

相关推荐