一篇最基本生信分析文献解读

利用一周多的时间,我们把最最基本的生信套路来讲解了一遍。正好前几天一个小伙伴拿了一篇相关文献在咨询问题。这里就拿这篇文献来总结一下我们目前写的这些东西。

这次我们来讲解的这边文献是2019-10-12发表的OTT杂志上的一篇生信加少量实验验证的文章。实话实说,目前对于生信最最最基本的套路,如果没有实验验证还是不好发文章的。所以一般都会加一些实验验证的。

这个文章的主要流程是个这样的:

这里我们就基于文章的材料方法来说一下具体的内容:

1

公共数据获取

文章当中关于公共数据获取部分提到了这些东西。

作者使用了GEO数据库来进行候选数据筛选。关于GEO数据库可见帖子:GEO数据库介绍 (一)

作者这GEO里面找到了三个芯片,其中描述了这三个芯片的平台。关于芯片平台的描述可见帖子GEO数据集详细介绍

2

差异表达分析

作者使用了GEO2R来进行数据的筛选,关于GEO2R的使用可见:GEO2R差异表达分析软件

通过对三个数据集的筛选,作者通过Venn图来进行取交集。至于为什么是取交集而不是一起分析,这个可以参考文章:GEO数据库可能遇到的问题

3

富集分析

接着作者对差异表达的基因进行了富集分析,其中包括GO分析和KEGG分析。关于GO和KEGG的内容,可见:GO分析和KEGG分析都是啥?。对于基因的富集分析,这个文章使用的是最常见的ORA的分析方法,具体关于基因富集的分类可以参考文章: 基因富集分析算法介绍

作者使用的富集分析的软件是DAVID,这个软件我们也吐槽过说,更新不及时,不是很好用,所以推荐是WebSestalt富集分析软件,或者clusterprofiler。

4

蛋白相互作用分析

作者通过STRING数据库进行了蛋白相互作用分析预测,关于STRING数据库的使用可以参考文章:STRING:蛋白相互作用数据库的使用

基于蛋白相互作用网络的degree,关于如何来筛选核心基因这个可以参考:相互作用网络分析基础。作者筛选了前10的基因。文中作者使用的cytoscape来进行筛选的,但是其实通过excel也是得到结果的,这个可见:核心基因筛选:基于EXCEL

5

TCGA数据库验证

再往下作者做的其实是TCGA的数据库验证,但是在材料方法里面没写。我们可以在结果当中具体的过程。

对于肿瘤研究,现在如果只是用GEO数据集分析,不用TCGA再看一下的话,都觉得不好意思,所以一般的肿瘤研究可能都会用到TCGA的验证的。其目的也就类似于多加了一个数据集来增加结果准确性。但是对于TCGA有些肿瘤正常样本很少。分析的结果可能偏差更大。文章使用的GEPIA的数据库。这个数据库对于查询TCGA表达结果还是很好用的,简单上手。

6

核心基因甲基化相关分析
在核心基因选择之后,作者利用了TCGA的甲基化数据MEXPRESS来查看基因的甲基化水平有没有变化。这个我们数据库正好我们也总结过,大家可以看:[数据库介绍]MEXPRESS:TCGA甲基化分析数据库。由于版本的更新。现在的这个数据库的2.0版本的结果会比之前的更加详细一些。
写在最后
以上就是这篇文章所有的除了基本一些实验验证的所有分析过程。总体下来分析过程其实不难,要是想要模仿的同学可以试着来分析一下啦!
看完如果觉得有所收获,点个“在看”再走~让大家一起学习哦~

(0)

相关推荐