一篇最基本生信分析文献解读
利用一周多的时间,我们把最最基本的生信套路来讲解了一遍。正好前几天一个小伙伴拿了一篇相关文献在咨询问题。这里就拿这篇文献来总结一下我们目前写的这些东西。
这次我们来讲解的这边文献是2019-10-12发表的OTT杂志上的一篇生信加少量实验验证的文章。实话实说,目前对于生信最最最基本的套路,如果没有实验验证还是不好发文章的。所以一般都会加一些实验验证的。
这个文章的主要流程是个这样的:
这里我们就基于文章的材料方法来说一下具体的内容:
1
文章当中关于公共数据获取部分提到了这些东西。
作者使用了GEO数据库来进行候选数据筛选。关于GEO数据库可见帖子:GEO数据库介绍 (一)
作者这GEO里面找到了三个芯片,其中描述了这三个芯片的平台。关于芯片平台的描述可见帖子GEO数据集详细介绍。
2
作者使用了GEO2R来进行数据的筛选,关于GEO2R的使用可见:GEO2R差异表达分析软件
通过对三个数据集的筛选,作者通过Venn图来进行取交集。至于为什么是取交集而不是一起分析,这个可以参考文章:GEO数据库可能遇到的问题。
3
接着作者对差异表达的基因进行了富集分析,其中包括GO分析和KEGG分析。关于GO和KEGG的内容,可见:GO分析和KEGG分析都是啥?。对于基因的富集分析,这个文章使用的是最常见的ORA的分析方法,具体关于基因富集的分类可以参考文章: 基因富集分析算法介绍
作者使用的富集分析的软件是DAVID,这个软件我们也吐槽过说,更新不及时,不是很好用,所以推荐是WebSestalt富集分析软件,或者clusterprofiler。
4
作者通过STRING数据库进行了蛋白相互作用分析预测,关于STRING数据库的使用可以参考文章:STRING:蛋白相互作用数据库的使用。
基于蛋白相互作用网络的degree,关于如何来筛选核心基因这个可以参考:相互作用网络分析基础。作者筛选了前10的基因。文中作者使用的cytoscape来进行筛选的,但是其实通过excel也是得到结果的,这个可见:核心基因筛选:基于EXCEL。
5
再往下作者做的其实是TCGA的数据库验证,但是在材料方法里面没写。我们可以在结果当中具体的过程。
对于肿瘤研究,现在如果只是用GEO数据集分析,不用TCGA再看一下的话,都觉得不好意思,所以一般的肿瘤研究可能都会用到TCGA的验证的。其目的也就类似于多加了一个数据集来增加结果准确性。但是对于TCGA有些肿瘤正常样本很少。分析的结果可能偏差更大。文章使用的GEPIA的数据库。这个数据库对于查询TCGA表达结果还是很好用的,简单上手。
6