一个窍门搞定生信创新性问题,也太太太太太太太简单了吧!
解螺旋公众号·陪伴你科研的第2569天
从小白的角度,一刻钟复现生信套路。
各位小伙伴大家好,今天给大家带来的是一篇发表在Medical science monitor(目前最新影响因子:1.9)的GEO数据库的非肿瘤生信文章套路。

文章题目
Key Genes Associated with Non-Alcoholic Fatty Liver Disease and Acute Myocardial Infarction
复现任务
在前面的复现中,我们复现过了肿瘤单基因套路的文章、基因家族套路的文章、多肿瘤联合分析的文章,这次我们来一起看一下多疾病联合分析。给你的生信研究多一个切入点。接下来我们看下,在非肿瘤中,又有哪些内容呢?
图1-2:非酒精性脂肪肝疾病(NAFLD)及急性心肌梗死(AMI)差异基因表达的热图
图3:NAFLD和AMI的差异基因(DEG)相交的韦恩图
图5-8:交集基因的GO和KEGG结果富集分析
图9:PPI蛋白互作网络
图10:Hub基因的评分
图11-12:在NAFLD及AMI中,前6基因的ROC曲线
文章结构
在进行这篇文章的复现之前,我们首先看一下这篇文章的Fig4。

作者在Fig4放了一张全文的流程图,其实现在在生信文章中放流程图已经很常见了,但是大家一般都放在第一张图。第四张图是流程图还是一个很有创意的操作。不管怎么说,放流程图这一点还是值得我们大家学习的,我们也借助这张图看一下作者的分析思路:
首先,作者分别在NAFLD(非酒精性脂肪肝)的GSE63067数据集和AMI(急性心肌梗死)的GSE60993和GSE66360数据集(这个位置作者在流程图中写错了,大家要引以为戒)中,分别筛选了差异基因后取交集,这也就是我们“挑”这部分,然后对交集基因进行了GO/KEGG富集分析(圈),之后绘制了蛋白互作网络(联),最后,对于Hub基因,作者又在两个疾病中分别绘制了ROC曲线(靠)。
文章复现
接下来我们来看一下各张图片:
Figure 1、2
NAFLD及AMI差异基因表达的热图


目前仙桃学术已经收录了部分GEO数据库中的数据集,现在我们就登陆仙桃学术进行实操一下如何复现这张热图吧。
登陆仙桃学术:www.xiantao.love
选择“数据集检索”——在检索框中输入我们本文中所应用的非酒精性脂肪肝数据集GSE63067,回车之后即可看到数据集的基本情况。

下拉该界面,点击“选择样本”,可以看到该数据库中共有18个样本,点击序号左侧的小方框即可选择全部样本,在备注中输入“非酒精性脂肪肝”(不写也可以,但是因为本文用到了几个GEO数据集,建议大家逐个做好标注),最后点击“添加到样本库”,我们的第一个数据集的样本就添加好啦。

在添加之后,界面会显示“添加成功!”字样,我们可以看到左侧样本库信息中已经显示了我们刚刚加入的样本,现在点击“进入我的样本库”。

作者在原文中描述该数据集中有11个NAFLD样本与7个正常对照,我们先选择正常的7个样本,加入分组1中,作为对照组。并用同样方法将其余的11个样本加入分组2中。

现在我们可以看到两个分组均已选择好,点击右侧的“提交分析”。
免费版/基础版/高级版每日可以提交分析的次数是不同的,高级版的20次一般足够大家日常分析所需啦~

一般几分钟后我们就可以在页面下方看到历史记录中状态变成完成啦,在这里我们修改一下项目名称为“差异分析-GSE63067”,点击确定。


接下来我们用同样的方法分析急性心肌梗死的GSE66360数据集,原文中,作者应用了GSE66360和GSE60993两个数据集综合分析,目前GSE60993数据集仙桃学术尚未收录,在这里我们仅以GSE66360这一个数据集进行示范:
根据GEO数据库对该数据集的描述,该数据集中收录了50例正常对照及49例心肌梗死后患者样本,我们仍然将正常对照设置为分组1。

接下来我们进入生信工具的“历史记录”模块,在这里我们可以看到刚刚分析完成的两个数据集:

点击“下载”,即可看到“热图下载”选项,点击即可下载保存:


同样方法也可以得到另一个数据集的热图结果,大家自己试着做一下,我就不多赘述啦。
Figure 3
NAFLD及AMI差异基因(DEG)相交的韦恩图

首先我们下载NAFLD的GSE63067数据集分析结果,在EXCEL中打开,应用筛选功能,根据原文设置筛选条件为:|logFC|>1且p<0.05。
注:通常情况下,我们一般通过设置adj.P阈值进行筛选,但是在小编复现时候,发现如果设置adj.P的话,得到的差异基因结果较少,因此,我们在这里以p<0.05为阈值进行后续的复现。



新建一个EXCEL表格,命名为“韦恩图”,并将上述筛选得到的基因名称复制粘贴到第一列。

用同样方法粘贴AMI的GSE66360数据集筛选结果,最后得到的结果如下:

保存该文件。
接下来我们利用我们的仙桃学术进行可视化。
进入生信工具,选择“基础绘图”——“韦恩图”模块,点击上传文件,上传我们刚刚整理好的结果,之后点击确认。

仙桃学术提供了结果的几种保存形式,可以按照自己的需要进行保存。
由于我们下一步还要对差异基因进行富集分析,在这里,我们还需要下载一下Excel格式表格。

Figure 5-8
交集基因的GO和KEGG结果富集分析


打开我们上一步得到的结果文件:

选择交集这一列,新建一个文档进行保存。
打开生信工具,选择“功能聚类(圈)”——“GO|KEGG”——“GO|KEGG富集分析”模块,上传我们刚刚整理好的文档,在右侧富集分析中我们先选择GO:BP(也就是我们的Fig5),最后点击确认。

得到富集分析结果如下:

点击保存结果,保存结果名称为GO_BP。

修改富集分析参数位置的条目,我们可以依次得到GO_BP、GO_CC、GO_MF和KEGG的结果。
进入“GO|KEGG可视化”模块,就可以看到我们之前保存的结果啦。在这里我们仍然以GO_BP结果为例进行示范:

我们选择GO_BP项目,其它参数暂时选择默认,输出结果如下:

我们可以看到目前结果和原文中的横纵坐标是相反的,我们可以在参数中进行调整:

调整后结果如下:

点击保存结果,我们将此结果保存。
用同样方法输出GO_CC、GO_MF以及KEGG的富集结果,分别保存。结果如下:

之后我们来看一下如何进行拼图:
虽然本文用了四张图片依次展示了结果,但是大部分时候更常见的是将多张小图拼成一个大图,所以拼图这一项技能我们也要加满哟。
点击上方“拼图工具”,就可以看到我们之前保存的四张图片啦。

将图片拖进来,然后调整到自己想要的位置及大小即可:

工具目前还提供了自动吸附、辅助线等功能辅助我们进行拼图,可以进行少许留白,最后点击“PDF下载”就可以看到拼完的图片了,字母工具也替我们加上啦。这张一张风格统一、对齐又美观的图片就完成啦。

我们本次分析得到的结果和原文并不一致,因为我们所用的数据集较原文少了一个,但是文章的分析和操作思路还是一样的,还是可以供大家参考学习我们的生信工具都可以做些什么。
Figure 9
PPI蛋白互作网络

蛋白互作网络我们需要借助String数据库,有持续关注我们推文复现的小伙伴们一定对于这个数据库已经不陌生啦。
登入String数据库:https://string-db.org/
数据库的主界面长这样:

点击“SEARCH”即可进入分析界面。选择“Multiple proteins”,将之前得到的交集基因输入分子列表中,确定物种:人类,点击SEARCH。

得到蛋白互作网络图。如果觉得得到的分子过多或过少可以点击右下角的“More”和“Less”进行调整。

在“Exports”模块中可以输出上面的图片。

也可以保存TSV格式的结果“string_interactions.tsv”文件,然后在cytoscape软件中进一步美化:
打开cytoscape软件,在左上角菜单栏File-Import-Network from File,导入我们刚刚下载的“string_interactions.tsv”文件。

点击“OK”即可导入。
生成基本图像:

想形成文章中所示的圆形的话,在Layout中点击Circular Layout,就形成圆形啦。

Figure 10
Hub基因的评分

用Excel打开我们之前在String数据库下载的tsv格式结果:

统计node1中,每个蛋白的个数:
打开Excel中的筛选功能,先选择第一个蛋白,点击确定。

表格左下角会显示该蛋白出现的次数:

依次进行整理,最后结果如下图所示:

按照节点个数降序排列。
选择“插入”——“图表”——“二维柱形图”:

得到结果:

Figure 11、12
在NAFLD及AMI中,前6基因的ROC曲线

本文的最后两张图,作者展示了在前面分析得到的TOP6基因在两种疾病中的诊断效能,我们一起来看一下:
我们以我们在复现过程中得到的前四个分子为例(FPR1、BCL2A1、MMP9、MNDA),在AMI的GSE66360数据集中进行分析。
首先,我们下载GSE66360的表达谱数据:

用Excel打开:

新建一个文件,在表达谱文件中搜索“FPR1”,复制整行,并转置到空白文件中,将四个基因表达谱整理如下:

在“结果报告下载”下载得到的压缩包中,解压后找到“样本表格”文件,打开,如下图所示:

整理表达数据及样本表格中的分组结果,最后整理结果如下图所示:

在仙桃工具中,“基础绘图”——“诊断性ROC曲线”模块,上传我们刚刚整理好的文件,点击确认。

就可以看到图11的结果啦:

下拉即可看见的AUC结果表:

同时也提供了详细的统计学结果描述供大家参考,感兴趣的话大家也可以自行查看~
好啦,到此为止,这篇文章我们就复现结束了,感觉这篇文章的新意在于将两个非肿瘤疾病进行了联合分析,不知道是不是也能给大家带来新的思路和启发呢?


医学人体解剖手绘:科学与艺术交织的生命真实

收稿范围广泛的国人友好Q1区SCI杂志

老司机带你使用ImageJ高效分析图片


领 悟 科 研 优 人 一 步
