单基因非肿瘤纯生信分析:STAT1与结核病的机制研究
前言
今天和大家分享的是2020年3月份发表在J. Cell. Mol. Med.杂志上的一篇文章(IF=4.658)“STAT1 and its related molecules as potential biomarkers in Mycobacterium tuberculosis infection”。文章中作者使用生物信息学方法比较和分析了肺结核患者和健康人全血的表达谱数据,研究在结核病中起关键作用的潜在miRNA和circRNA, 从而在分子水平上揭示结核病的发病机理并确定STAT1作为潜在的结核病生物标志物。
STAT1 and its related molecules as potential biomarkers in Mycobacterium tuberculosis infection
STAT1及其相关分子作为结核分枝杆菌感染的潜在生物标志物
一、研究背景
结核病(TB)是一种慢性传染病,其临床表现为长期低烧,咳痰和咯血。结核分枝杆菌(MTB)是结核的致病菌。MTB还可以感染肠管,淋巴腺,关节,脊柱,泌尿生殖系统和其他器官或组织,引起人体功能障碍和病理损害。同时MTB也是一种细胞内寄生细菌,人体的抗TB免疫力主要是细胞免疫力。细胞因子与各种免疫细胞亚型(包括CD4 +和CD8)的协同作用+和NK细胞在结核病的免疫防御中起着关键作用,其中最重要的是巨噬细胞,效应CD4 + T淋巴细胞和IFN-γ,它们由Th1细胞分泌并诱导巨噬细胞活化。但是,MTB可以阻碍氧化应激,细胞凋亡和自噬,并抑制组织相容性复合物分子的合成,从而影响抗原呈递。这些机制抑制并抵抗了巨噬细胞的天然免疫杀伤和特异性免疫反应,从而帮助MTB逃脱人体的免疫杀伤。因此,全面了解MTB感染的免疫反应机制对于临床诊断以及新型结核病疫苗和免疫疗法的研究具有重要的理论意义。血液中的免疫反应可以反映肺对病原体的局部反应,因此全血成分的变化可用作结核感染的敏感指标。
二、研究思路
三、结果解读
1样品信息处理和差异表达基因的筛选
根据样本信息和数据矩阵,从PTB样本中提取了192个差异表达基因,其中156个基因被上调,而36个基因被下调。差异表达基因的筛选标准如下:调整P值<.0.05,LogFC>1。根据样品的基因表达分析,绘制火山图:
图1.PTB和HC样品中差异表达的基因
2 PTB中差异表达基因主要在干扰素(INF)信号传导途径和免疫应答
DAVID和Fun Rich软件用于样品基因的富集分析。首先将PTB和HC样品中的所有基因表达信息上载到GSEA软件中,然后使用标记基因集数据库分析整个表达谱中的基因。显著富集的基因集被设置为默认值,即P值<.0.05和FDR <0.25。对基因集的富集分析表明,该基因集在干扰素-α/γ反应中显着富集,而与免疫相关的功能在PTB样品中显着富集。
图2差异表达基因的GSEA分析
使用DAVID和Funrich软件对PTB样品中的192个差异表达基因进行了GO通路富集分析。GO富集分析表明,PTB样品中差异表达的基因主要与生物过程中的干扰素信号传导和免疫反应有关。根据P值<.0.05筛选出显著性前9的生物学过程,并根据富集得分绘制条形图。图3A所示的结果表明,显著富集的生物学过程是I型干扰素信号传导途径。使用Cytoscape ClueGo插件可视化生物过程的相互作用网络:
图3.GO分析以及通路间的相互作用网络
然后将总共192个差异表达基因上载到Funrich,其中163个基因被鉴定用于进一步的富集分析。通过对PTB样品中差异表达基因的途径富集进行Funrich分析,表明差异表达基因主要富集于干扰素信号传导途径和免疫相关途径中。
图4.Funrich软件的途径分析
为了进一步验证结果并确定参与结核病感染进展的关键分子,总共将192个差异表达基因上传至IPA进行核心分析。规范的通路结果显示,共有8种通路,包括干扰素信号通路,模式识别受体在识别细菌和病毒中的作用,胞质模式识别受体激活IRF,抑瘤素M信号传导,TREM1信号传导,死亡受体信号传导,神经炎症信号传导途径和T细胞衰竭信号通路被高度激活。
图5.IPA的经典途径分析
在这些通路中,干扰素信号传导途径的活化分数最高(z评分= 3.07,P值= 4.27E-21),并且总共有14个基因与此途径相关,包括STAT1,MX1,OAS1,SOCS1,STAT2,TAP1,IFI6,IFI35,IFIT1,IFIT3,IFITM1,IFITM3,ISG15和JAK2。
生物学功能分析表明,差异表达的基因与总共10个主要功能模块相关,包括炎症,抗病毒应答,免疫应答,活化,抗微生物应答,吞噬作用,趋化性,细胞运动,先天免疫应答和应答。
图6.IPA的生物学功能分析
IPA显示,在这十个主要功能模块中,被高度激活的细分功能模块是细胞吞噬作用的免疫应答,巨噬细胞的免疫应答,抗病毒反应和先天免疫应答。明显的抑制功能是大脑的免疫反应和脑炎。上游分析显示,排名前五位的上游调节因子为STAT1,IRF7,IFNL1,IFNG和IFNA2 ,其中前两个是转录调节因子,后三个是细胞因子。此外,干扰素α还显示出5.839的高激活z评分和7.80E-47的P值。
3 PPI网络构建及免疫系统相关生物途径涉及基因簇挖掘
为从PTB样品中差异表达的基因中筛选出核心基因,将192个差异表达的基因上载到STRING进行进一步分析,获得了170个基因和1121种相互作用关系。局部聚类系数为0.503,PPI富集P值<1×10 -16,然后使用Cytoscape处理数据文件。
图7.蛋白质-蛋白质相互作用网络
使用MCODE处理网络数据识别的基因簇:
表2.MCODE挖掘基因簇的数据
选择第一个得分最高的基因簇中的基因进行BP富集分析,发现该基因簇中的基因主要参与防御反应和免疫系统相关功能:
表3.基因簇1中富集的前10个生物过程
通过STRING和Network Analyst对基因簇1中的38个基因进行分析,结果显示在STRING中表明,基因簇1主要参与了对病毒的防御反应,干扰素信号传导,干扰素α/β信号传导,免疫系统中的细胞因子信号传导。免疫系统相关途径,根据FDR值,所有这些途径均具有很高的统计学意义,然后在STRING中标记了相关基因。为进一步鉴定哪种细胞因子在结核病的防御中也起着重要作用感染后,我们在STRING中选择了与免疫系统中细胞因子信号传导相关的基因,然后通过Network Analyst验证了结果。将免疫系统中与细胞因子信号传导相关的基因与STRING中选定的26个基因相交,并获得了包括GBP2,ISG15和STAT1在内的总共23个基因用于进一步分析。
图8 STRING分析
4 进一步的miRNA挖掘和相互作用网络分析
筛选28个与免疫系统中细胞因子信号传导相关的基因,并使用miRWalk 2.0软件进行了基因miRNA分析。选择由TargetScan,miRanda,miRDB,miRWalk和RNA22数据库预测的miRNA结果的交集作为预测结果。选择条件设定为P<0.05,最小种子序列长度为7mer,靶基因结合区为3'端。用Cytoscape绘制交互网络如下:
图9.免疫系统中细胞因子传导基因与其靶向的miRNA相互作用网络
其中选择的具有大量基因交联(≥2)的miRNA:
表4. miRNA及其靶基因
5 通过qRT-PCR验证潜在的生物标志物表达
验证九个miRNA,发现miR‐223‐3p和miR‐448具有很高的可靠性,它们都靶向STAT1。然后使用qRT-PCR分析在结核病血浆样品中验证了选定的生物标志物,包括miR‐223‐3p和miR‐448。与预测结果一致,结果表明,结核病患者血浆中的miR-223-3p(P值= 0.016 )和miR-448(P值= 0.021)的表达水平明显低于健康人。
图10.qRT-PCR验证
6 circRNA预测
已使用StarBase 2.0预测了hsa‐miR‐223‐3p和hsa‐miR‐448对应的circRNA。这里选择阈值是最高的可靠性(高标准≥5)。交叉连接后发现了针对两个关键miRNA的两个circRNA,包括SAMD8_hsa_circRNA994和TWF1_hsa-circRNA9897。
四、小结
在这项研究中作者首先筛选了192个差异表达基因,使用GSEA,DAVID,Funrich和IPA等进行基因富集分析,结果表明这些基因主要参与免疫系统中的干扰素信号传导途径和细胞因子信号传导。IPA的富集评分表明,干扰素信号传导途径已被高度激活,因此确定STAT1与免疫系统中的干扰素信号传导途径以及细胞因子信号传导高度相关。