非肿瘤研究领域生信分析思路以及经典文献推荐
为什么生信分析会这么火?
最重要的原因是便宜、性价比高。
一方面,各种公开的免费生信数据库和生信可视化分析工具越来越多,即使没有课题经费,按差异表达、聚类分析、交互网络、临床意义四步走做一套生信分析,也能无中生有发一套生信文章。
另一方面,随着高通量测序成本的不断下降,有越来越多的医生或者研究人员也慢慢也能做的起各种组学测序了。
还有一个原因是生信发章仍被各个医院/科研机构所认可。
不少医生和医学生有动力选择用生信文章作为毕业和晋职称的敲门砖。发基础科研与生信分析类文章没有被差别对待,而且这两者之间也没有明显的界限。
第一呢,生信文章是属于article而非review的,属于正二八经的实验类文章;
第二点,生信文章和基础科研的界限很难完全界定,比如生信分析中加了免疫组化/WB的验证,也是可以归类于基础科研的文章;
第三点,是一个小心机了,生信文章的题目起的隐蔽一点,没有TCGA或者GEO这样的词汇,一般是很难区分是生信文章还是基础科研文章的。
生信分析有什么用?
在我看来,生信其实解决了四方面的筛选和预测。
首先可以通过筛选差异表达基因,找关键基因signature,或者缩小范围找Hub gene,预测潜在的biomarker;
其次,也可以通过对通路或者生物学功能的富集聚类分析,筛选出潜在的分子作用机制或者相关通路;
另外,可以通过数据库预测靶基因、转录因子、互作分子、邻近分子等,筛选与目标分子直接或者间接作用的分子;
最后一点,根据预测目标基因或者基因集合的诊断、预后和复发情况。
生信分析如何分类?
生信分析有很多种分类方式。
按套路组合来分,可以分为单基因分析套路,ceRNA分析套路,转录因子分析套路,m6A甲基化分析套路,网络药理学分析套路,基因signature分析套路,临床预测模型分析套路,多组学分析套路,泛癌分析套路等等。
如果按最简单粗暴的疾病大类来分,可以分为肿瘤方向的生信分析和非肿瘤方向的生信分析。
肿瘤和非肿瘤不都是疾病吗?分析起来有啥差别呢?
最大的不同还是在于数据的来源上面。
肿瘤研究有很多公开的与肿瘤相关的高通量数据库,比较著名的有TCGA、Oncomine、Cbioportal、GEPIA, UCSC XENA、Timer等数据库,这些数据库样本量大,临床和预后信息全面,有的提供了多组学数据的下载和分析,有的还提供了直接在线出图的可视化分析。可谓是应有尽有。
而反观非肿瘤研究领域。
一方面能用的数据库有限,在线直接分析的数据库有限。数据库中其中最有名的当属GEO,另外ArrayExpress也提供了非肿瘤疾病的下载。这两个数据库都是泛疾病数据库,不仅非肿瘤,肿瘤的数据也有;不仅人类,大鼠小鼠或者其他物种的测序数据也能搜到。
另一方面,这些数据库中一般都只有基因表达矩阵的数据,临床或预后数据缺少,一般能有个年龄、性别、疾病阶段就算数据量比较多的数据集了,也因为这样,很多临床相关性、预后分析就做不了。
其实说到底,非肿瘤生信分析文章之所以不如肿瘤领域的两点原因,一个是没数据,一个是临床信息不够。自己没数据,公共数据集也没有,就发不了。
当然,如果你跟了个土豪老板,即使非肿瘤疾病,临床数据全,自己的测序样本够,甚至还有点多组学数据,用肿瘤领域的套路来做也是没有问题的。
非肿瘤领域发生信有优势吗?
当然有!相同的研究套路在肿瘤领域迁移到非肿瘤领域,可以实现降维打击,可以发到更好的分数。
因为数据量比较少,先批研究这个小众疾病领域的人属于开拓者呀。我还见过最简单的差异表达/富集分析/互作网络,样本量也不多,在猪来源的生信研究中轻轻松松3分加。
非肿瘤研究中有哪些研究套路和分析方法?
生信分析中有四大类分析,表达差异,聚类分析,交互网络,临床意义这四步分来拆解。简称挑圈联靠。
我们从最简单的套路讲起。
挑:在表达差异这步。首先,可以对芯片或者测序分析的对照组和疾病组做差异表达分析,筛选出几十、几百或者上千的差异表达基因。可视化形式以火山图为主。
圈:在聚类分析这里。可以对对筛选出来的差异表达基因进行GO和KEGG的富集分析,也可以基于整个基因表达矩阵进行GSEA的富集分析,筛选得到相关的生物学功能和通路。
联:然后到了分子互作网络这里。最常见的是通过STRING数据库构建蛋白互作网络,再通过Cytoscape这个软件进行美化,用CytoHubba或者Mcode这些插件找关键基因。有的文章中,还通过功能基因预测相应的miRNA构建可视化网络。
靠:最后的临床意义这块,一般非肿瘤疾病的临床信息是缺省的,相应也没有这部分内容的分析。
低分灌水有哪些加分策略
如果有余力多做一点工作,可以让文章看上去数据更饱满,发的影响因子更高一点的方法。其实俗称是凑数据。
第一呢,可以一上来加个流程图,让读者一目了然你的分析流程。
第二呢,每一步分析,紧跟一步解释性动作。
在差异基因筛选之前,可以放一下患者样本校正前后的小提琴图,PCA或者热图的聚类图,说明样本本身的质量如何,对照组与疾病组有没较好的区分度。
还可以把GO和KEGG富集分析完,把基因的通路描述,计算出来的P vaule, count, Category,Pathway ID,然后再列个表。
再比如通过互作网络筛选到10-20个关键基因,是不是也能列个表,把基因缩写、全名以及基因的功能列一列呢?
第三个,是增加研究的细节。
比如多个不同的数据集合并分析,既可以取交集差异基因,统一做GO/KEGG富集分析,也可以这些数据集的差异表达基因分别做功能富集分析,比较不同数据集所得结果的差别;
另外,差异表达分析这步,分别筛选出了上调/下调的差异表达基因,后续的富集分析和互作网络分析,既可以统一把上调和下调合并起来分析,也可以分上调下调分别进行分析。
或者一开始从一开始筛选差异基因的时候,与Immport免疫数据库或者Genecards数据库中获得的免疫基因列表取交集,获得差异的免疫相关基因,后续研究也都可以从免疫的角度入手。
也可以从Genecards中筛选一下表型相关基因,比如输入自噬呀,凋亡呀,可以获得这些表型相关的基因列表进行后续研究。
第四个,加样本表达的验证
如果想加一下目的基因在对照组与正常组的表达情况,可以根据芯片测序的结果做出统计分析图;
想要更直观点的实验验证,偷懒的办法是借用在线数据库Human protein atlas数据库,里面有很多关于蛋白的研究信息,有蛋白在人体不同组织脏器、细胞内定位、不同肿瘤中的表达情况。可以很方便的获得木的基因的免疫组化的结果。
如果还想加一步干湿结合的验证,可以把筛选出来的关键基因或者靶基因,进行PCR, WB或免疫组化、免疫荧光的相关验证。
干湿结合的生信套路
拆解题目
干实验
湿实验
零代码生信SCI
首先我们来看下题目:Bioinformatic Analysis Identifies Potential Key Genes in the Pathogenesis of Turner Syndrome一篇turner综合征的文章,疾病很小众吧?
一样先来看一下题目,疾病是turner综合征,问题则是找到寻找疾病发病机制中的关键基因(marker?)。文章比较简单,作者只用了一个数据集GSE46687一个数据集,我们不妨来换位思考一下,如果我们是作者,我们会做些什么内容呢?既然是非肿瘤,那临床意义部分就做不了吧(确实如此吗?)而“挑圈联”中,最好去扩展提升文章深度的内容是那一部分呢?没错,就是联!分子交互的内容是最容易上手去拓展文章深度的部分,最广为人知的例子就是多组学,多组学不就是多个层次的数据进行交互吗?你把多个层次的数据当成多个分子,那不就还是“联”?在科研领域里,举一反三很重要,数据挖掘中千万不要变成数据的奴隶,跳出来高屋建瓴结合医学背景知识才是我们医生打开数据挖掘的正确方式。好,话不多说,我们接着往下走。
研究背景
首先给大家介绍一下研究背景。Turner综合征(TS)是一种以女性X染色体完全缺失或部分丢失为特征的疾病(唯一已知的性染色体单体病),症状包括身材矮小、卵巢衰竭和骨骼异常等。目前TS的病因复杂,发病机制尚不清楚。有研究表明,女性TS(45,X单体型)常染色体基因和chrX基因在人成纤维细胞系、外周血单个核细胞以及诱导的多能人细胞系中的表达均发生改变,但结果不一致。因此作者使用GSE46687进行分析,试图找到TS发病过程中的关键基因。
疾病比较小众,所以简单介绍了下背景,接下来我们就来看看作者的分析吧<( ̄) ̄)↗[GO!]
挑
作者从GEO中找到了GSE46687,数据集包括36例样本,其中16例TS患者被证实具有母系遗传的X染色体(45,XM),10例TS患者被证实具有父系遗传的X染色体(45,XP),10例正常女性(46,XX),但是最大的限制是作者没有获取到临床数据(这是大部分GEO数据集的悲伤啊!)接着使用GEO2R来进行差异表达分析,比较X染色体单体型和正常组之间的表达谱,使用阈值为|log2 FC| >1 和 adj.p-value < 0.05。结果表示:在XM TS患者和正常人之间,总共鉴定出42个上调基因和91个下调基因。在XP TS患者和正常人之间发现了279个上调基因和234个下调基因,然后画一个Venn图展示下两份结果的交集,得到25个上调基因和60个下调基因:
▲ Figure 1
忍不住想再给大家展示一下文章作者对于表格的展示方式:
▲ Table 1
这篇文章作者的分析虽然简单,但是很多细节值得我们学习,比如这个Table 1,作者并没有把两份结果分成两个表格进行展示,而是直接合并在一起,分别展示一个基因在两份结果中的p值和logFC,不仅节省了表格数量,还丰富了表格内容,这样的排版风格,简单易上手又好用,还不存起来吗?(p≧w≦q)
挑
在进行表达差异之后,作者并没有直接使用DEGs进行富集分析,而是又展示了一个细节操作,寻找基因的组织特异性表达,作者使用BioGPS(http://biogps.org ) 来分析DEGS的组织特异性表达,筛选的标准为:(1)组织特异性表达水平>中位数的10倍,以及(2)第二高表达水平不到最高水平的三分之一。结果鉴定了23个在特定组织或器官系统中表达的基因。组织特异性最强的表达系统是血液/免疫系统(69.6%,16/23),其次是神经系统和皮肤/骨骼肌系统 (8.7%,2/23),而呼吸系统、消化系统和循环系统最低(4.3%,1/23):
▲ Table 2
作者为什么要进行这个操作呢?当然是为了弥补由于临床资料缺失而带来的缺陷啦!特纳综合征是一种全身性疾病,各个系统都会出现相应的症状,为了联系临床,作者探讨了各个组织特异性表达的基因,以此鉴定哪些基因可能与特定症状有关,从而展开讨论。你看,巧妙吧?没有临床数据,那就从症状入手,这是我们医生的强项嘛!
圈
接着作者富集分析部分比较常规,使用DAVIDs (https://david.ncifcrf.gov/tools.jsp)进行富集分析,然后显示11个功能最显著的富集分析结果进行展示,看图片应该是利用Excel画的柱状图:
▲ Figure 2
联
作者接着使用STRING数据库(https://string-db.org/)进行分子交互网络也就是PPI网络的构建,设置阈值为interaction score >0.4,得到交互信息之后使用Cytoscape进行网络构建和美化,那如果为了识别关键模块或者关键基因,你们会用什么插件呢?Mcode?cytohubba?作者用了另外一个插件——ClusterOne,对网络再进行聚类分析,识别出P<0.05的关键模块:
▲Figure 3
在网络中,红色代表上调基因,绿色代表下调基因,而ClusterOne识别出具有一个上调基因(UBE2O)和七个下调基因(CDC27、HECTD1、JAK1、ASMTL、CD99、SLC25A6和CSF2RA)的两个关键子模块,此外顺带把这8个基因可能参与的功能也进行了富集。
挑圈连有了,你以为这个文章就结束了吗?能发到2区杂志的作者怎么可能让我们轻易猜透呢?作者接着又鉴别了兴趣基因,怎么做呢?前面作者不是做了PPI网络识别出了关键基因吗?而组织特异性表达中也选择了一部分参与免疫的兴趣基因,最后再使用GeneCards数据库鉴定另外三个兴趣基因UBE2O、HECTD1和CSF2RA,最终展示这些基因的FC值和以及他们表达特异性较高的组织:
▲ Table 4
看吧,作者这样展示,一下子挑、圈、联三部分结果合并展示出来,整个表格的内容看起来比单纯展示基因名称丰富多了不是吗?
到此为止,这个文章就真的结束了,其实这个文章分析虽然简单,但是满满是细节,细节决定了它可以发在二区杂志,首先TS是一个罕见病,其次分析完整,挑圈联三个齐全,最后紧密结合疾病特征设计出了很多小细节。我个人认为这才是临床医生进行生信分析的正确打开方式,尤其非肿瘤方向。从这个文章我们可以看到,非肿瘤方向的分析策略要比肿瘤方向简单得多。相同的数据分析套路,找到合适的数据集,增加一些细节的处理,往往会发到比较理想的分数。
经常很多学员跟我抱怨说非肿瘤数据挖掘太难了,没有肿瘤方向的学员好发文章,其实不是的,只要切入点好,就算只有一个数据集,也能发出一个好文章,关键还不用像肿瘤方向一样来很多高大上的分析,如果肿瘤方向的学员和这个文章做一样的分析,没有其他东西,发都不一定发的出去对吧?
非肿瘤生信文献推荐
最近后台很多小伙伴留言,想要生信非肿瘤的文章推荐,为此,小编特意翻了翻存货,吐血整理了37篇,简直是要了我的老命了。文末查看这37篇文献的获取方式哦!
1. 题目:STAT1 and its related molecules as potential biomarkers in Mycobacterium tuberculosis infection
期刊名称:J Cell Mol Med
影响因子:4.658
发表年份:2020
2. 题目:Integrative analyses of genes associated with idiopathic pulmonary fibrosis
期刊名称:J Cell Biochem
影响因子:3.45
发表年份:2018
3. 题目:Bioinformatic Analysis Identifies Potential Key Genes in the Pathogenesis of Turner Syndrome
期刊名称:Frontiers in Endocrinology
影响因子:3.63
发表年份:2020
4. 题目:A comprehensive bioinformatics analysis on multiple Gene Expression Omnibus datasets of nonalcoholic fatty liver disease and nonalcoholic steatohepatitis
期刊名称:Scientific Reports
影响因子:4.01
发表年份:2018
5. 题目:Identification of diagnostic markers for major depressive disorder by cross-validation of data from whole blood samples
期刊名称:Peer J
影响因子:2.35
发表年份:2019
6. 题目:Immune cell infiltration characteristics and related core genes in lupus nephritis: results from bioinformatic analysis
期刊名称:BMC Immunology
影响因子:2.65
发表年份:2019
7. 题目:Identification ofPotential Biomarkers and Biological Pathways in Juvenile Dermatomyositis Based on miRNA-mRNA Network
期刊名称: Biomed Res Int
影响因子:2.197发表年份:2020
8. 题目:Potential protein biomarkers for systemic lupus erythematosus determined by bioinformatics analysis.
期刊名称:Comput Biol Chem
影响因子:1.581
发表年份:2019
9. 题目: Integrated Bioinformatics Analysis for the Identification of Key Molecules and Pathways in the Hippocampus of Rats After Traumatic Brain Injury
期刊名称:Neurochem Res
影响因子:2.782
发表年份:2020
10. 题目:Identification of Key Genes and the Pathophysiology Associated With Major Depressive Disorder Patients Based on Integrated Bioinformatics Analysis
期刊名称:Frontiers in Psychology
影响因子:2.4
发表年份:2019
11. 题目:a temporal transcriptome and methylome in human embryonic stem cell-derived cardiomyocytes identifies novel regulators of early cardiac development
期刊名称:epigenetics
影响因子:4.73
发表年份:2018
12. 题目:A Systems Biology Approach Uncovers Cell-Specific Gene Regulatory Effects of Genetic Associations in Multiple Sclerosis
期刊名称:Nat Commun
影响因子:11.878
发表年份:2019
13. 题目:Identification of Susceptibility Modules and Genes for Cardiovascular Disease in Diabetic Patients Using WGCNA Analysis.
期刊名称:J Diabetes Res
影响因子:3.04
发表年份:2020
14. 题目:LncRNAs related key pathways and genes in ischemic stroke by weighted gene co-expression network analysis (WGCNA).
期刊名称:Genomics
影响因子:3.5
发表年份:2020
15. 题目:Integrated bioinformatics analysis identifies microRNA-376a-3p as a new microRNA biomarker in patient with coronary artery disease
期刊名称:Am J Transl Re
影响因子:3.266
发表年份:2017
16. 题目:Genome-wide Analysis of Dental Caries and Periodontitis Combining Clinical and Self-Reported Data
期刊名称:Nat Commun
影响因子:11.878
发表年份:2019
17. 题目:Bioinformatic analysis reveals the importance of epithelial-mesenchymal transition in the development of endometriosis.
期刊名称:Sci Rep
影响因子:4.011
发表年份:2020
18. 题目:Whole blood vs PBMC: compartmental differences in gene expression profiling exemplified in asthma
期刊名称:0.644
影响因子:Allergy Asthma Clin Immunol
发表年份:2019
19. 题目:Elucidating the molecular pathways and immune system transcriptome during ischemia-reperfusion injury in renal transplantation
期刊名称:3.361
影响因子:Int. Immunopharmacol
发表年份:2020
20. 题目:Identification of Immune Cell Landscape and Construction of a Novel Diagnostic Nomogram for Crohn’s Disease.
期刊名称:Front Genet
影响因子:3.517
发表年份:2020
21. 题目:Identification of molecular correlations of RBM8A with autophagy in Alzheimer’s disease
期刊名称:5.551
影响因子:Aging
发表年份:2019
22. 题目:Clinical Evidence Supports a Protective Role for CXCL5 in Coronary Artery Disease
期刊名称:3.762
影响因子:Am. J. Pathol
发表年份:2020
23. 题目:Bioinformatics Analysis of Genetic Variants of Endoplasmic Reticulum Aminopeptidase 1 in Ankylosing Spondylitis
期刊名称:Mol Med Rep
影响因子:1.851
发表年份:2017
24. 题目:Assessment and diagnostic relevance of novel serum biomarkers for early decision of ST-elevation myocardial infarction
期刊名称:60359
影响因子:Oncotarget
发表年份:2015
25. 题目:Several critical genes and miRNA associated with the development of PCOS
期刊名称:Ann Endocrinology
影响因子:1.43.
发表年份:2020
26. 题目:Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective cohort study
期刊名称:Lancet
影响因子:59.102
发表年份:2019
27. 题目:Exploring the Active Compounds of Traditional Mongolian Medicine in Intervention of Novel Coronavirus (COVID-19) Based on Molecular Docking Method.
期刊名称:journal of functional foods
影响因子:3.197
发表年份:2020
28. 题目:Multiple-microarray Analysis for Identification of Hub Genes Involved in Tubulointerstial Injury in Diabetic Nephropathy
期刊名称:J Cell Physiol
影响因子:4.522
发表年份:2019
29. 题目:Polycystic Ovary Syndrome: Novel and Hub lncRNAs in the Insulin Resistance-Associated lncRNA-mRNA Network.
期刊名称:Frontiers in genetics
影响因子:3.57
发表年份:2019
30. 题目:Large-Scale Exome Sequencing Study Implicates Both Developmental and Functional Changes in the Neurobiology of Autism
期刊名称:cell
影响因子:32
发表年份:2020
31. 题目:Metformin Alters the Gut Microbiome of Individuals With Treatment-Naive Type 2 Diabetes, Contributing to the Therapeutic Effects of the Drug
期刊名称:Nat Med
影响因子:30.641
发表年份:2017
32. 题目:Genome-wide Association Analysis of Common Genetic Variants of Resistant Hypertension
期刊名称:Pharmacogenomics J
影响因子:3.503
发表年份:2019
33. 题目:Arginine Deficiency Is Involved in Thrombocytopenia and Immunosuppression in Severe Fever With Thrombocytopenia Syndrome
期刊名称:Sci Transl Med
影响因子:17.161
发表年份:2018
34. 题目:Modulation of Blood Inflammatory Markers by Benralizumab in Patients With Eosinophilic Airway Diseases
期刊名称:Respir Res
影响因子:3.829
发表年份:2019
35. 题目:Integrated Bioinformatics Analysis of the Osteoarthritis‑associated microRNA Expression Signature
期刊名称:Mol Med Rep
影响因子:1.851
发表年份:2018
36. 题目:A Meta-Analysis of Dysregulated miRNAs in Coronary Heart Disease
期刊名称:Mol Med Rep
影响因子:1.851
发表年份:2018
37. 题目:Bioinformatics Analysis of CYP1B1 Mutation Hotspots in Chinese Primary Congenital Glaucoma Patients
期刊名称:Biosci Rep
影响因子:2.535
发表年份:2018