手把手教你一刻钟零代码复现近5分单基因生信文章(附详细操作教程)
解螺旋公众号·陪伴你科研的第2487天
文末有惊喜
从小白的角度,一刻钟复现生信套路。各位小伙伴大家好,我是解螺旋的雪球。今天雪球为大家带来一篇2020年10月份发表于Aging-US(影响因子:4.831)的单基因生信文章套路复现。
文章复现是生信小白成长为大神的最佳路径。在本篇文章中,雪球将会手把手教您9图4表逐个步骤的文章复现。
话不多说,我们开始吧!
题目:High expression of RRM2 as an independent predictive factor of poor prognosis in patients with lung adenocarcinoma
材料与方法部分
第一部分 患者数据收集情况
从TCGA数据库中获取535个患者样本的表达矩阵(数据格式为FPKM)和临床数据。样本排除标准:1)基因表达量为0的值;2)预后信息不充足的患者。一共503例患者的样本纳入本研究。
注:不同版本的TCGA数据,有可能获取的患者的样本例数不一致,因为TCGA数据库一直处于更新过程中。所以看到生信文章中TCGA里同一个癌种的患者样本数不一致,大家也不要奇怪,有可能就是版本不同导致的。大家做生信分析的时候,尽量选择TCGA数据库中的最新版本的数据进行下载。
第二部分 图表结果及复现
一、使用工具:
1)仙桃学术工具(https://www.xiantao.love/products),
2)Oncomine数据库(www.oncomine.org)
3)TIMER数据库(http://timer.cistrome.org/)
4)GEO数据库(https://www.ncbi.nlm.nih.gov/gds/?term=)
二、复现任务:
Figure1 在肺腺癌中RRM2的差异表达情况。
Figure2 在肺腺癌患者中,PPM2的临床相关性分析。
Figure3 肺腺癌患者中的预后分析(总预后分析,亚组分析)
Figure4 肺腺癌患者多因素Cox回归分析的森林图结果
Figure5 RRM2表达在肺腺癌整体/亚组的ROC分析
Figure6预测肺腺癌患者1年,3年,5年生存率(Overall survival)的nomogram图
Figure7 基于RRM2的GSEA富集分析
Figure8 两个GEO数据集的预后分析验证
Figure9 Oncomine和TIMER数据库对RRM2的表达分析
Table1 肺腺癌患者的基线资料表
Table2 RRM2表达和临床特征之间的Logistic分析。
Table3 单因素/多因素的临床变量,基于RRM2的Cox回归分析
Table4 基于RRM2高表达基因的KEGG富集分析
三、复现步骤
1)Table1 肺腺癌患者的基线资料表
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择临床意义(靠)- 基线资料表,点击进入
选择疾病—肺腺癌
根据原文中材料与方法,选择表达矩阵的数据格式为FPKM。一共有594例样本。(这里可以发现仙桃学术工具的有预后信息、剔除表达量为0的值的样本比原文中的例数要多。这是由于版本的不同导致的,仙桃学术是调用的最新版的TCGA表达和临床信息。优先选择最新版本的数据库更新数据。)
在分子框内点击一下,输入基因名RRM2。选择第一个基因。
点击确认。
点击基本参数,在表格格式中有“纯基线资料表”“列联表”“列联表-简洁版”可以选。根据本篇文章,选择纯基线资料表(即不以目的基因表达高低分组的基线资料表;很多单基因套路文章其实这里会选择以目的基因表达高低进行分组,一来以特定基因分组的基线资料表不太会与那种以整体数据集临床分析的基线资料表内容重复;二来可以进一步给本研究的目的基因更多”戏份“,看以该基因表达值进行分组对临床变量的影响)
分类变量这里把所有的变量都选上。
其他结果按默认选项保持不变(当然也可以根据实际需要选择,当你拿不准是否需要调整时,一个是可以根据已经发表的文献进行参数调整;一个可以选择默认参数也是没问题的)。点击确认。
结果保存。这里有“保存结果“”Excel表格下载“”CSV表格下载““Word表格下载”等多种结果保存形式。雪球推荐先点击保存结果,输入分析名称,比如“基线资料表”,然后点击确定。这样在历史记录中就会保存有这个结果,留待以后的调整修改。
在历史记录中的第一条“基线资料表”中就有我们刚才保存到 云端的数据啦。后续需要调整分析可以在历史记录这一栏里追溯回来。
同时,也推荐点击Word表格下载。下载后会出现这样的word文档展示页面。一键式发表级的三线表就完成了。该表可以直接应用于文章发表。
(小贴士:目前并非在仙桃学术工具中的每个临床变量都有;有一些基因突变信息是基于基因组信息的分组分析,目前仙桃学术工具还没把这部分变量纳入。后面的Logistics和Cox回归分析的临床变量同理)
2)Figure1 在肺腺癌中RRM2的差异表达情况。A:正常组和肿瘤组对比;B:癌旁和肿瘤组对比(样本例数更少,同一个患者的癌/癌旁有配对关系)
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择表达差异(挑)中的非配对样本,点击进入。
选择肺腺癌,FPKM数据格式,TCGA-LUAD。
注意:仙桃工具除了原文中的TCGA数据集单独分析,还提供了联合GTEx数据库。
(小知识点:GTEx数据库,全称Genotype-Tissue Expression。这个数据库收集的是正常人因为意外去世的尸体解剖的样本。GTEx最常见的用途就是与TCGA数据库中的肿瘤样本联合分析。在TCGA收集的某些癌种癌症组织数据中正常数据不足的时候,把GTEx纳入进来,分析的结果更为准确)
在类型中选择“点图”,点击输入分子“RRM2”。选择中位数±四分位数。
点击确认。
得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于生信文章中材料与方法与结果部分的写作。
点击保存。可以选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。
同样步骤选择配对样本。用类似的步骤操作。
得到配对图的结果,进行保存。
选择拼图工具进行拼拼图。点击拼图工具,进入拼图页面。
拖拽目标图片进入画布。(在对齐图片的时候可以选择横向参考线和纵向参考线辅助对齐。两个图片对齐时,接近辅助线的时候还有磁吸功能,拼图非常便利!
点击PDF下载,还会自动标记字母哦!点击下载,即可保存成pdf图片。(小贴士,这里也可以把图稍微放大,或者两图直接的行间距放大,可以在右侧减少留白)
3)Table2 RRM2表达和临床特征之间的Logistic分析。
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择临床意义(靠)- Logistics回归,点击进入
选择TCGA-LUAD, FPKM, 分子输入PPM2,临床变量那里点击加号,多显示几个临床变量。在“请选择“部分点击,出来不同的临床变量和亚组分类进行选择。
选好之后点击确认。
保存结果。点击保存成“word表格下载“。打开word,可以看到发表级的RRM2表达和临床特征之间的Logistic分析结果。(目前工具只能做二分类变量,还不能做多分类变量,以后Logistic分析多分类变量这个功能会推出)。
3)Figure2 在肺腺癌患者中,不同临床特征在PPM2的表达分析。包括年龄,临床阶段,TNM分期,肿瘤状态,新的肿瘤事件,抽烟状态等临床变量。
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择临床意义(靠)- 临床相关性,点击进入
选择TCGA-LUAD, FPKM, 分子输入RRM2,以图A的age为例。在左边第一个方框方框中点击,选择临床- Age;在右边第一行方框中选择亚组<=65,在右边第二行方框中选择亚组>65。点击确认。得到以下的结果。
可以看出,在原文中显示的不同年龄分组(<=65,>65)之间,RRM2的表达有差别;而在仙桃学术工具中分析的没差别。这是由于样本数不同,TCGA的版本不同引起的结果;相对来说,仙桃学术应用的最新版本数据结果更准一些。当然,也有可能当样本数又增加,不同年龄分组之间又展现出显著差异。足够大的样本量的积累,这样临床相关性显著与否的结论才会更稳定一点。
同样的,图分析完之后,仙桃工具下方会有统计学方法,分析流程,统计分析结果的汇总。可以直接应用于材料与方法,结果部分的描述。
用同样的步骤,把B,C, D, E, F, G, H作图拼图。结果如下。点击下载按钮下载。(小贴士,这里每个图直接可以预留一部分行间距,这样图片右侧就不会有留白啦)
4)Figure3 肺腺癌患者中的预后分析,包括RRM2在(A)总的患者中的预后分析;以及在(B-H)不同亚组(包括年龄,不同阶段,M0, N0,肿瘤状态,抽烟与否,T分期)中的预后分析。
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
先复现图A。选择临床意义(靠)- KM曲线图,点击进入
选择TCGA-LUAD, FPKM, 分子输入RRM2,点击确认。得到以下的结果。保存结果。
再复现图B。选择临床意义(靠)- 亚组KM曲线图,点击进入
在左边第一个方框方框中点击,选择临床- Age;在右边第一行方框中选择亚组<=65,以及 >65两个亚组变量。预后类型选择默认的OS(Overall survival)点击确认。得到以下的图和统计分析的结果。
保存结果,并依次分析C-H。然后在拼图工具中将A-H进行拼图。拼图结果如下。
5)Table3 单因素和多因素的临床变量与预后(overall survival)关联的Cox回归分析
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择临床意义(靠)- 单因素|多因素Cox回归,点击进入
选择TCGA-LUAD, FPKM, 分子输入RRM2,采用默认的预后类型(overall survival)。在左侧框里选择临床变量,或者输入基因名(可以填一个或多个基因名),在右侧框可里选择亚组变量,或者基因表达的Lox或者High。如果需要再增加变量,点击右侧的加号;如果需要剔除某个变量,需要在变量的右侧点击减号。确定好临床变量和分组信息后,点击确认。会分析出统计分析表,以及统计数据、相应的材料与方法、结果部分的描述。
进一步保存成word文档和excel结果。分析结果如下。
6)Figure4 肺腺癌患者多因素Cox回归分析的森林图结果
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择基础绘图 - 森林图,点击进入
目前仙桃学术生信工具并没有针对单基因的森林图分析。需要根据多因素Cox回归分析的结果进行整理。
点击下载示例数据,看一下示例数据的格式。需要把多因素cox回归分析结果整理成以下形式。
将之前cox回归分析的excel结果删除B、C列单因素分析结果,只保留多因素cox分析结果。
点击excel文件上传。为了避免森林图过宽,字体重叠,把宽度调整为15cm(先点击确认,如果字体重叠,再回来扩大宽度的厘米数,直到森林图字体不重叠为止)。点击确认。
图片行内字数过宽,需要横拉条拉动才能看全页面。这时候选择“查看大图”。
得到结果如下。由此森林图复现出来了。
6)RRM2表达在肺腺癌整体/亚组分析(年龄、病理阶段、T/N/M分期等)中的诊断价值。
复现步骤:
先复现图A总体的ROC分析结果。
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择临床意义(靠)- ROC曲线,点击进入
选择TCGA-LUAD, FPKM, 分子输入RRM2,选择显示曲线下面积,不显示外框,其他保持默认。点击确认。保存结果。
再复现图B。选择临床意义(靠)- ROC曲线-自选变量,点击进入
选择TCGA-LUAD, FPKM, 分子输入RRM2。在左侧框里选择临床变量,在右侧框可里选择亚组变量。这里临床变量选择“临床-T stage”,右侧框选择T1, T2。在风格中,外框不显示,网格选择显示;曲线下面积选择显示。点击确认。
得到以下结果,选择保存结果。
依次选择不同的临床变量和亚组变量,保存结果。最后在拼图工具里进行拼图。
7)Figure6 预测肺腺癌患者1年,3年,5年生存率(Overall survival)的nomogram图。
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择临床意义(靠)- 预后分析 – Nomogram图,点击进入
选择TCGA-LUAD, FPKM。在左侧框里选择临床变量,或者输入基因名(可以填一个或多个基因名,基因名一般放在最下面),在右侧框可里选择亚组变量,或者基因表达的Lox或者High。
如果需要再增加变量,点击右侧的加号;如果需要剔除某个变量,需要在变量的右侧点击减号。确定好临床变量和分组信息后,在预测年限中的预测类型中采用默认的OS(overall survival),在时间1内选择1年,在时间2内选择3年,在时间3内选择5年。图片宽度改为25cm,高度改为15cm(为了避免文字在图中有重叠,先按默认宽高点击确认;然后再调整图片的宽高)
这里雪球为了给大家展示工具的临床变量分析,故意把所有的临床变量都选全了。大家发文章的时候,选择有意义的变量纳入进入分析即可。
点击确认, Nomogram图就可以做出来啦,同时会分析出统计分析表,以及统计数据、相应的材料与方法、结果部分的描述。点击查看大图,下载pdf文档。
7)Table4 基于RRM2高表达基因的KEGG富集分析结果。
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择功能聚类(圈) - GO|KEGG可视化,点击进入
点击下载示例数据,看示例的数据准备。根据示例,我们看到准备好差异基因列表就可以进行分析。
准备好基于RRM2高低表达值分析出来的差异基因列表,这里只保留gene_id,logFC,adjust Pvalue和gene name四列信息即可。
选择筛选和排序。因为原文献的值选择RRM2的高表达差异表达基因做富集分析。阈值条件设置为LogFC> =2,adjust Pvalue <0.05。
得到差异基因列表。一共筛选到347个高表达差异表达基因。
将差异基因列表复制到右侧的分子list。富集分析的条目选择KEGG。类别选Homo sapieens。点击确认。
获得KEGG富集分析结果。点击保存结果。同时下载word表格。(这里的页面只展示了top5的结果,所有的富集分析结果需要下载excel表格来看。)
打开Excel分析结果如下图所示。可以选择top5,10,20等通路进行展示,也可以选择自己感兴趣的通路进一步通过GO|KEGG可视化展示。
打开word表格看富集分析结果。这里的表格展示条目虽然与原文中不同,但是却是生信wenz 中更常展现的参数,推荐小伙伴们选择以下的参数展现在文章中。
如果后续需要对GO/KEGG富集分析结果进一步可视化,可以选择GO|KEGG可视化进行作图分析。原文中作者只展示了表格,这里雪球就不再演示了,感兴趣的小伙伴可以自己试试。除了KEGG富集分析,也可以选择GO(BP, MF, CC)这三种富集分析,这样又多3个图了,是不是感觉工作量迅速扩大了不少呢?
Figure7 基于RRM2的GSEA富集分析
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择功能聚类(圈) - GSEA富集 - GSEA分析,点击进入
点击下载示例数据,看示例的数据准备。根据示例,我们看到准备好基因列表和对应的value值就可以进行GSEA分析。
这里的Value值可以是logFC的值。准备好基因名和logFC的值。然后点击文件上传
数据集选择默认,物种默认选Homo sapienn;高级分析参数采用默认。然后点击确认。
获得了GSEA的富集分析结果。
选择功能聚类(圈) - GSEA富集 – GSEA可视化,点击进入
在历史记录里下载GSEA的富集分析的结果表格。点击下载按钮,选择Excel表格下载或者CSV表格下载都可以。
打开结果表格,看到富集分析的结果。
选择刚才做的GSEA富集分析的条目,在基因集ID里会自动展现前两条富集分析到的通路(这里基因集ID最多可以展现5条通路,既可以选择top富集到的通路,也可以选择自己感兴趣的通路)。这里根据原文选择第一条信号通路,点击确认。
点击保存结果,查看大图。再依次多做几条信号通路的GSEA可视化分析,在拼图工具里进行拼图。
8)Figure8 两个GEO数据集的预后分析验证(总的预后分析/亚组预后分析)
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择基础绘图- 生存曲线,点击进入
点击下载示例数据,看示例的数据准备。根据示例,我们看到准备好生存状态(一般“1”代表观察对象死亡;“2”代表Censored data,Censored data指的是我们观察对象在我们研究截止时间依旧存活),时间(月份)和分组信息就可以绘制生存曲线图。
整理好GEO目标数据集的预后信息,点击文件上传。这里雪球就用示例数据先替代。其他参数选择默认。点击确认。得到生存分析的结果。点击保存结果。再依次做其他亚组变量的预后分析,整理好数据上传,就可以在线做预后分析。是不是比Prism操作简便多了!然后依次保存结果,最后在拼图工具里拼图,连繁琐复杂的Illustrator和Photoshop软件都省了!
9)Figure9 Oncomine和TIMER数据库对RRM2的表达分析
复现步骤:
A和B图
I 登录Oncomine(https://www.oncomine.org/resource/login.html)的网站,用机构邮箱注册并登录。
II 研究把基因RRM2。在search栏中输入分子RRM2,并点击search按钮,页面自动刷新如下。选择目标区域进行截图,这样图A和B的结果就出来了。
教程解读
实操
C图
I 登录TIMER数据库(http://timer.cistrome.org/)的网站
II 选择Exploration,选择Gene_De,在文字框内输入基因名RRM2,点击submit。
III 获得以下分析结果,保存成pdf格式。
V 把Oncomine获得的结果与TIMER数据库分析得到的结果在Illustrator或者Photoshop软件中进行拼图。Figure9到此就大功告成啦!
(彩蛋,这里仙桃学术也可以做单基因的泛癌分析哦!)
复现步骤:
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择表达差异(挑)- 非配对样本,点击进入。选择疾病-泛癌。因为有的癌种的正常样本数不够,用GTEx数据库的正常样本补足,将TCGA与GTEx数据库联合分析。这里建议选择XENA-TCGA-GTEx泛癌数据。参数部分的类型选择-箱图/柱状图,基因输入RRM2。点击确认。
RRM2泛癌的结果就分析出来啦。保存结果,点击大图,下载pdf文档。
好了,本期零代码4+生信文章复现就到这里啦!是不是感觉很easy,感觉分分钟也能做出属于自己的SCI了呢~
欢迎对仙桃感兴趣的小伙伴扫描二维码咨询哦