2020年零代码4分生信套路拆解+全文复现
解螺旋公众号·陪伴你科研的第2236天
大家好,我是风。有肿瘤研究方向的学员来问我,能不能为新人来详细分析一篇肿瘤研究的零代码生信文章,今天这篇Identification of Therapeutic Targets and Prognostic Biomarkers Among CXC Chemokines in the Renal Cell Carcinoma Microenvironment不知道合不合你们胃口。会了代码的学员可能会不喜欢这种零代码的文章,认为用上代码都发不了好文章,还零代码?你这种想法从某种角度来说也没错,毕竟如果纯生信10+的文章,那不上代码可能不行,但是找个好的切入点,利用各种数据库零代码解决“温饱”,应该还是可以的。这篇文章是2020年发表在Frontiers in Oncology,IF为4.137,实时IF 4.99,估计今年上5分是没问题了。
先看题目
一样我们先来看下题目,疾病为肾癌,问题一样是寻找预后靶点和标志物:
从题目就可以看出来,这又是一个基因家族的分析,对于这种文章,分子的选择就非常关键了。不要拘泥于基因家族,你也可以选择某条通路的基因或者某一条通路一个分支上的基因。当然啦,分子新颖性和经典性也要考虑。除了这种多个基因单肿瘤的分析,你也可以选择一个分子,然后单基因泛肿瘤分析,这个很容易可以想到对吧?在线工具门槛低,所以提出问题和设计故事就非常重要了。肾细胞癌背景知识不复杂,使用到的工具有:ONCOMINE, GEPIA, UALCAN, cBioPortal, GeneMANIA, DAVID 6.8, Metascape, TRRUST, LinkedOmics和TIMER,都是我们熟悉的工具吧?
再看内容
挑
作者先是使用Oncomine数据库评价CXC趋化因子在肾癌中的表达,采用阈值为FC>2,p<0.05,rank为top10,结果显示在癌组织中CXCL6、CXCL9、CXCL10、CXCL11和CXCL16的转录水平显著高于正常肾组织,而CXCL3、CXCL7和CXCL13的转录水平显著低于正常肾组织(作者在展示这个结果的时候就开始引用文献讨论结果的可靠性,emmmm,我觉得见仁见智,放在讨论部分阐述可能会更好)。为了验证结果的可靠性,作者还用UALCAN验证了CXC家族在肾癌中的表达。(Figure 1-3)
▲Figure 1 Oncomine
▲Figure 2 UALCAN
▲Figure 3(作者并没有交代Figure 3是怎么画出来的,但是GEPIA可以达到这样的效果)
靠
接下来作者转到了临床意义部分,即使用GEPIA分析CXC和肾癌临床病理参数之间的关系。结果表示随着肿瘤进展,CXC1、CXC5、CXC9、CXC10、CXC11和CXC13的表达增加,这些数据表明这些CXC趋化因子在肾癌的发生和发展中起着重要作用。
▲Figure GEPIA
还没结束,作者趁热打铁,既然分析了CXC表达与肾癌分期之间的关系,那接着再分析一下这些分子的预后作用,很合理吧?所以接下来还是使用GEPIA分析CXC趋化因子在肾癌进展中的预后价值,主要分析了无病生存期(DFS)和总生存期(OS),结果发现CXCL1和CXCL5的表达与较长的无病生存期有关,而CXCL1、CXCL2、CXCL3、CXCL5和CXCL13的低转录水平与较长的总生存期显著相关。
▲Figure 5 GEPIA
▲Figure 6 GEPIA
联
接着作者转到分子交互部分,使用cBioportal对肾癌中的CXC家族成员基因突变进行分析,同时利用TCGA数据,分析了CXC成员表达之间的相关性,结果发现CXCL1、CXCL2、CXCL3、CXCL5之间的相关性较强。此外,作者还使用STRING数据库对差异表达的CXC趋化因子进行了PPI网络分析,以探索它们之间的潜在相互作用,并GeneMANIA探索它们之间的可能参与的通路与功能(这个你们很少用吧?)最后使用cBioportal分析CXC分子与50个最相关的邻近基因的关系(cBioportal这个功能好像已经消失了,可以用其他数据库补上这部分分析):
▲Figure 7 cBioportal+GeneMANIA
圈
前面作者找到了CXC差异基因的50个邻近基因,接着使用DAVID和metascape对这些分子进行功能聚类,也就是GO和KEGG,结果显示在KEGG中,趋化因子信号通路、细胞因子-细胞因子受体相互作用、癌症中的通路、病毒致癌途径、RAS信号通路、癌症中的蛋白多糖、白细胞跨内皮细胞迁移和RAP1信号通路与肾癌的发生和发展密切相关。
▲Figure 8 DAVID
挑圈联靠一套打完,各位看官先别急着走,主线走完了,我们来看看作者还进行了哪些支线内容:
联:(拓展性的联)作者利用TRRUST和LinkedOmics数据库探索了差异表达的CXC趋化因子的可能转录因子靶点和激酶靶点,结果发现有三个转录因子(RELA、NFKB1和SP1)与CXC趋化因子的调节有关。RelA和NFKB1是CXCL1、CXCL2、CXCL5、CXCL10和CXCL12的关键转录因子,SP1是CXCL1和CXCL5的关键转录因子。具体结果展示如下:
▲Table 2 TRRUST
▲Table 3 LinkedOmics
接着作者认为肾癌中CXC趋化因子的免疫细胞浸润参与了炎症反应和免疫细胞浸润,从而影响肾癌患者的临床转归,所以利用TIMER数据库对差异表达的CXC趋化因子与免疫细胞浸润的相关性进行分析,后面就是描述一下TIMER的结果了:
▲Table 9 TIMER
这样文章整套走完,其实套路来说相对简单,类似的套路还有在生信全书第四段位讲解的范文,目前来说这种基因家族的分析,只要文章故事组织的好,发表的可能性还是很大的,就看你能加多少支线内容并且构成一个好故事了。
生信只是一种工具,不管是代码也好,在线工具也罢,能够为我们的科研服务才是好工具,生信就像是一个大综述,一个有理有据带有很多图表的大综述,只有把生信的结果落实到生物学功能并进行实验,那生信结果才有它的价值,进一步说,只有有希望转化成临床成果的数据挖掘才是好的科研项目,当然我加了“有希望”三个字,毕竟就算是基础实验,能够转化的也不多,但是科研就是这样不是吗?毕竟不积跬步,又如何以至千里呢?
文章套路就算拆解完了,接下来我们看看文中图表是如何做出来的?我们要怎么进行复现?
Figure1分析
Figure 1 是使用Oncomine数据库对肾癌中CXC趋化因子mRNA水平进行研究,图片的解读见上一章,这期我们主要是复现,首先打开Oncomine数据库(https://www.oncomine.org/resource/main.html):
以CXCL1为例,文章采用的阈值分别为:p 0.05, fold change 2, gene rank top 10%,接下来我们在检索框中输入CXCL1,然后点击CXCL1 (Gene):
在左边的栏目设置筛选条件,分别设置:Analysis Type选择Cancer vs. Normal Analysis ,Cancer Type选择Kidney Cancer,Data Type选择mRNA,然后在右边图片上方设置筛选阈值,分别为:
设置内容及结果如下图:
上图红色框出来的Cancer VS Normal的图片就是Figure 1中CXCL1所对应的图片了,按照上述方法依次输入CXC家族其他基因,最后使用Adobe Illustrator进行拼图,拼成Figure 1的形式,这样Figure 1就完成啦。
Table1分析
看起来好像很复杂,但是我们拆开来看,表格可以用Excel进行制作,那关键就在于获取表格中的内容啦,我们需要的数据分别是:TLR基因名称,Type肿瘤类型,Fold change,P值,t-test值和Reference引用,需要注意,文章表格纳入的是肾透明细胞癌的dataset,所以表格没有CXCL1的内容,为方便大家理解和操作,我们直接使用CXCL1为例找到表格中的信息,具体操作步骤并无异同。在刚才的界面中点击右上角Other View,然后选择Dataset View:
出来的界面如下图:
表格所需要的信息除了Reference之外,其他信息都在上图红色框内,复制粘贴到Excel表格中即可,那么Reference该怎么找呢?点击图片下方作者信息:
怕大家找不到,我还标多了一个箭头,然后会弹出下方的页面:
点击红色方框内箭头所指的Pubmed即可跳转到文章的Pubmed页面,找到PMID或者DOI,接着使用Endnote进行引用即可。同样的方法查找CXC家族其他成员的信息,制作成Table 1,这样Oncomine部分的内容就此结束。
Figure2分析
Figure 2是使用UALCAN数据库对CXC家族成员进行分析,我们直接看操作部分,首先打开UALCAN网站(http://ualcan.path.uab.edu/):
点击TCGA analysis,进入TCGA数据分析页面:
输入的Gene symbol可以一次性输入多个,避免重复操作,这里仍然以CXCL1为例,下方选择肾透明细胞癌,然后点击Explore,出来的页面如下:
然后点击Expression:
这样,Figure 2中CXCL1的内容就出来了,我们可以从图片下方框出来的p值判断这个结果是否具有统计学意义,依次操作CXC其他家族成员,下载图片后一样使用AI进行拼图,这样Figure 2就成为我们盘中餐啦!
Figure3分析
这个图展示的是CXC家族在RCC中的表达水平,文章并没有说明是哪个网站的图片,那我们不妨想一想,类似的图片,好像我们在生信全书的上篇有位老师讲过,好像就是GEPIA网站(http://gepia.cancer-pku.cn/index.html),那我们打开来看看:
打开GEPIA,按照上图选择“Multiple Gene Analysis ”下方的“Multiple Gene Comparison ”,进入下方页面:
在Gene List的位置输入CXC家族,然后Tissue Order选中dataset为KIRC肾透明细胞癌,其他选择默认参数,然后点击Plot,得到下方图片:
这个图片看起来和Figure 3是不是就挺像的了?下载图片后用AI再捣鼓捣鼓(其实也不用咋捣鼓),这样我们Figure 3也算搞定啦,接下来我们看看Figure 4又是什么
Figure4分析
Figure 4表示不同表达的CXC趋化因子与肾癌病理分期的关系,也就是stage分期,并且注明了是GEPIA的结果,好家伙,还好我还没关闭GEPIA(http://gepia.cancer-pku.cn/index.html),那行, 我们还是以C XCL1 为例,来吧:
点击Expression DIY下方的Stage plot,进入下方页面后,输入基因CXCL1并选择肿瘤为KIRC,然后设置相应颜色,如下:
接着点击Plot,下方就会出来相应图片:
这个图片跟文章是一摸一样了,按照上面的步骤依次对其他CXC家族成员进行分析,然后保存所有图片后使用AI进行拼图,Figure 4又被不知不觉搞定了,好像速度有点快?接下来继续往下。
Figure5分析
Figure 5还是用GEPIA做的图,表示的是肾细胞癌患者无病生存曲线(DFS)中不同表达CXC趋化因子的预后价值,那接着我们还没关闭的GEPIA继续往下:
点击Survival下的Survival plot,进入生存分析的界面:
按照上图红色框中的内容进行设置,然后点击Plot,这样CXCL1的图就又出来了(奇怪,
我为什么要说又?):
一样的步骤再做其他CXC家族的成员,然后进行拼图即可,接下来我们再往下:
Figure6分析
OMG,又是生存曲线,还只是把DFS换成了OS,你们别信啊,生信不是这么简单的东西,只是刚好这个文章就用GEPIA弄了好几个图而已,我们再来看看操作,还是刚才的页面,把DFS换成了OS,如下:
然后点击Plot,这样CXCL1的OS生存曲线又出来了:
这样Figure 6也完成了,诶,行吧,今天就到这里吧,我们打到了Figure 6,下回从Figure 7开始。
Figure7A分析
这个图展示的是CXC家族在RCC中的突变情况,一看就知道是cBioportal(www.cbioportal.org),我们打开网站:
在左边选择肿瘤Kidney,然后选择相应的TCGA RCC数据集,如下:
点击Query by gene,到达下面页面,然后进行相应设置:
提交后等待页面结果:
这个结果跟文章似乎稍微有点出入,可以多试试几个参数,不过这个结果是我试了几次后最接近文章结果的结果了,考虑到cBioportal曾经改版过,似乎这个有差异也算正常,既然说到cBioportal,就不得不说一下,新版的网站取消了network的模块,所以这7B和7E是没办法做了≡(▔﹏▔)≡,那我们接着继续到7C吧;
Figure7C分析
7C是STRING做的CXC家族的蛋白互作网络,STRING网站 (https://string-db.org/),大家应该很熟了,打开网站:
点击SEARCH进入下一个页面:
按上图输入CXC家族,选择human后点击SEARCH,到达下一页面:
打开GEPIA,按照上图选择“Multiple Gene Analysis ”下方的“Multiple Gene Comparison ”,进入下方页面:
在Gene List的位置输入CXC家族,然后Tissue Order选中dataset为KIRC肾透明细胞癌,其他选择默认参数,然后点击Plot,得到下方图片:
点击CONTINUE:
这个图又跟文章的结果一致了有没有?人狠话不多,接着7D;
Figure7D分析
这个图其实我在训练营就讲过了,来过训练营的学员可能有印象,这个图是GeneMANIA (http://www.genemania.org)网站的图片,我们打开网站:
在左上角输入CXC家族成员,点击SEARCH,结果如下:
点击左下角的小圆圈可以给网络添加相应的颜色:
可以选择排名靠前的通路,也可以选择符合自己研究方向的通路,当然还可以对网络排列进行修饰:
相应的操作都在图片坐标,多点点,选择自己喜欢的style,又不花钱,点点没坏处嘛,这样我们7D也就解决了,接下来的Figure 8是 肾细胞癌中不同表达的CXC趋化因子和50个最常改变的邻近基因的富集分析,其中50个邻近基因也是从cBioportal得到的结果,也就是基于Figure 7E,网站改版后暂时无法复现,接下来看到Table 2;
Table2分析
Table 2是通过TRRUST预测CXC家族成员的转录因子,网站网址为:TRRUST (https://www.grnpedia.org/trrust/),我们一样打开一下网页:
点击中间的SEARCH,在出来的页面拉到下方,然后如下图设置:
输入CXC家族成员之后,点击提交,得到结果如下:
将表格整理就可以放入文章中,点击表格中红框的数字,可以直接跳转到相应详情页面,这里就不给大家展开啦,最后到了Figure 9;
Figure9分析
Figure 9是不同表达的CXC趋化因子与免疫浸润细胞丰度(TIMER)的相关性,我们打开TIMER网站(https://cistrome.shinyapps.io/timer/):
我们以CXCL1为例,选择TIMER首页的GENE模块,点击进入下方页面进行设置:
设置完成后点击Submit提交,得到了下方的结果:
按照上面的步骤依次分析剩下的CXC成员,然后拼成Figure 9,这样就大功告成啦!等等等等,好像还有一个表格:
Table4分析
这个表格其实也可以在TIMER进行分析,我们点击TIMER模块中的Survival,然后进行如下设置(这里我以CXCL1和CXCL2为例):
设置完成后,在右边就可以看到相应的分析结果了:
然后整理成表格就完成啦!这样我们文章的复现操作就此结束!
这篇零代码的文章,用的很多数据库都是在我们生信全书上篇中讲解过的网站,有了好工具,关键的还是怎么组成一个好的故事,当然,思路也是很重要,当然文章复现过程中还有很多细节需要大家去进一步细化,这些都是打磨的工作,相信难不倒大家。一篇文章复现完了,也不是就此结束,我们可以思考下,还有哪些网站的哪些分析可以加进来,让数据更加丰富呢?