生信分析 国自然热点lncRNA经典分析

A lncRNA prognostic signature associated with immune infiltration and tumour mutation burden in breast cancer

与免疫浸润和肿瘤突变负荷相关的乳腺癌lncRNA预后特征

1.数据

(1)训练数据:TCGA中973例乳腺癌患者的表达数据和预后数据。

(2)外部验证数据:GSE96058中的表达数据和预后数据。

2.识别预后相关lncRNA

研究者首先基于edgeR识别出在TCGA数据三阴性乳腺癌(TNBC)和非三阴性乳腺癌(non-TNBC)中发生差异表达的lncRNA(|log2FC| > 1并且 FDR < 0.01),其中155个lncRNA表达和乳腺癌预后显著相关。为进一步筛选出可以区分TNBC和non-TNBC的lncRNA,研究者分别基于lasso(图1A,B)和SVM-RFE(图1C,D)方法对lncRNA进行特征选择,其中有53个lncRNA同时被两种方法识别为特征lncRNA,研究者将这53个lncRNA作为候选特征lncRNA(图1E)。

图1. 候选特征lncRNA的识别

3. 7-lncRNA乳腺癌预后预测特征的构建

基于多因素cox回归分析构建出由7个lncRNA组成的乳腺癌预测特征分数(图2A),并计算每个样本的风险分数。基于中位数将乳腺癌样本划分为高低风险组,两组样本预后存在显著差异(图2B)。ROC分析显示预后特征的10年AUC值可以达到0.771(图2C)。随着风险评分的增加,癌症相关死亡人数增加,存活人数减少,特征lncRNA的表达值如热图所示(图2D-F)。

图2. 7-lncRNA乳腺癌预测特征的构建

4.7-lncRNA乳腺癌预测特征与多个危险因素分层的OS显著相关

科学家进一步基于分层分析研究临床特征对7-lncRNA特征预后价值的影响。根据预后差异将整个队列分为TNBC组(图3A)和non-TNBC组(图3B),non-TNBC组进一步分为HR+/ERBB2-组(图3C)和ERBB2 +组(图3D)。根据AJCC系统将I、II期患者分为预后良好组(图3E),III、IV期患者分为预后不良组(图3F)。在具有不同临床特征的样本集合中,7-lncRNA特征都具有较好的分类效能。

图3. 根据临床病理危险因素分层样本的7-lncRNA特征的Kaplan-Meier生存分析

结合体细胞突变数据,研究者发现TP53和PI3KCA在TNBC和non-TNBC亚型中都具有较高的突变频率(图4A)。既往研究也表明TP53和PI3KCA的突变频率可能与患者预后不良显著相关。因此研究者还基于TP53或PI3KCA突变状态对样本进行分层分析,结果表明不论是在这两个基因的野生型还是突变型中,都是风险评分越高,死亡率越高(图4B-E)。在包含3409个乳腺癌样本的外部验证组GSE96058中也基于7个lncRNA特征计算每个样本的风险评分,研究结果表明高危组患者的预后明显低于低危组患者(图S4A-D),进一步表明7-lncRNA特征能够准确预测乳腺癌患者的生存。

图4. 基于TP53和PI3KCA突变状态分层样本的7-lncRNA特征的Kaplan-Meier生存分析

5. 构建预测性诺莫图

为开发一种临床适用的方法来预测患者的生存率,研究者在7-lncRNA基础上加入年龄,级别等临床特征,基于诺模图构建出生存预测模型(图5A)。与理想模型相比,该模型预测5年和10年生存率都有更高效能(图5B)。

图5. 构建预测性诺莫图

6.预后特征与免疫浸润程度相关

为探究这种预后特征影响的潜在机制,研究者基于edgeR识别出高、低危险组人群中发生差异表达的基因((|log2FC| > 1 and FDR < 0.01)并进行富集分析。此外,研究者还对高低危险组的通路活性(GSVA分析,图6A),24种免疫细胞浸润分数(ssGSEA分析,图6B)进行比较。在两组间存在富集程度差异的免疫细胞如图6C所示,结果表明两组间样本的免疫浸润程度存在显著差异,说明7-lncRNA特征和免疫微环境息息相关。

图6. 预后特征的功能特征

7. LINC01215与免疫功能相关

经ESTIMATE算法处理后,研究者发现免疫细胞和基质细胞的比例与低风险组相关(图7A)。为进一步阐明特征lncRNAs潜在的生物学机制,研究者计算各特征lncRNA和免疫/间质得分(ESTIMATE算法)之间的斯皮尔曼相关系数,其中LINC01215表达与免疫得分呈正相关,与风险得分呈负相关(图7B)。此外,研究者还基于Pearson相关性分析识别出与特征lncRNA表达相关的mRNA(r > 0.4),并对其进行GO富集分析。LINC01215与多个免疫相关通路相关(图7C)。因此,研究者认为LINC01215在预后特征中是一个免疫hub的lncRNA,构建出LINC01215的ceRNA网络,以预测其转录后调控关系(图7D)。另外,在验证数据集的高低风险组中,两组样本的TMB分数存在显著差异。

图7. LINC01215与免疫功能相关

让我们化繁为简,简单概况一下本文的套路就是特征筛选-特征构建-分层分析-诺模图预测模型构建-高低风险样本的比较。是不是超级经典呢?不知道同学们有没有发现,简单一点的生物信息学分析真的很像写作文,这里学一点,那里看一点,再经过自己的整合梳理,刻苦努力,辛苦耕耘,变成一篇华丽丽的好文章,好工作。因此同学们在日常学习中,千万不要忽略知识积累的重要性哦!

更多生信分析思路可私信小编~

(0)

相关推荐