数据库 | lnCAR: 基于肿瘤芯片数据重注释的lncRNA数据资源库

编者寄语:长非编码RNA(LncRNA)是一类长度大于 200 个核苷酸的非编码 RNA的总称。因其有着非常重要的调控功能,且几乎参与到了各种生物学过程和通路,一直是肿瘤等各类疾病研究中的“明星分子”。过去的十多年中,随着芯片和测序技术的发展和应用,领域内积累了一大批不同疾病个体组织的表达谱数据,这无疑为lncRNA的研究提供了宝贵的资源。作为生物信息相关的研究人员,很期待有一个在线的数据资源库可以将这些数据再利用起来,重新注释归纳、结构化并且开发相应的数据可视化分析框架,从而辅助“湿”实验科学家方便快捷的探索一些感兴趣的lncRNA的表达变化。

2019年4月15日,来自中山大学肿瘤防治中心的任间教授左志向副研究员合作,在Cancer Research (IF=9.13)杂志上发表了基于癌症芯片重新注释挖掘的lncRNAs数据库——lnCAR(https://lncar.renlab.org/)。该工作收集整理来自GEO数据库中的10大类癌症56,892个样本的芯片表达数据以及12,914个样本的临床资料,旨在帮助研究人员快速查阅感兴趣lncRNA在不同癌症、不同条件的差异表达情况以及生存预后信息。

图1. 数据库访问主界面

该数据库能为我们提供哪些帮助呢?首先,我们可以通过https://lncar.renlab.org/访问lnCAR,通过首页的简介我们了解到,该数据库整合了目前常用的基因注释文件,构建了一套严谨的探针重注释流程,实现了对10大类癌症超过57,000个芯片数据中蕴含的lncRNA信息的重新挖掘。在lnCAR数据库中,用户可以通过两种方式来查询和搜索:1)lncRNA-explore:通过输入基因信息实现对已知lncRNA的查询;2)My-lncRNA: 通过输入基因组区域对未知lncRNA或感兴趣基因组区域的查询。

lncRNA-explore

在该模块中,lnCAR提供了不同条件下的差异表达结果以及不同类型的预后信息,用户可以通过切换数据类型来选择分析模块。以差异表达分析为例,在每一个差异分析条件下,用户可以通过滚动条查看基因在不同癌症下整体的差异表达结果,其中红色代表表达水平上调,绿色代表表达水平下调,颜色越深说明差异变化越大。考虑到癌症类型以及基因数据较多,lnCAR加入了癌症类型选择框以及基因搜索框,实现感兴趣内容的快速定位。另一方面,对于热图上的每一列数值,点击排序功能按钮可以满足用户快速获取感兴趣癌症中的关键lncRNA。

图2. 浏览界面

我们以搜索胃癌中HOTAIR基因在Tumor vs Normal条件下的表达情况为例来介绍该模块的使用。通过在基因搜索框中输入“HOTAIR”基因,数据库可以快速找到热图中相关的记录行。利用癌症类型选择框则可以直接定位到该癌症。搜索结果显示该基因对应的格子为深红色,说明相比于正常组织,该基因在胃癌组织中表达量是上升的。点击该格子,我们可以查看详细信息页面:包括基因的基本信息,转录本信息,差异表达分析结果以及已知的低通量实验的验证结果。通过这些信息,用户可以对该lnCAR在感兴趣癌症中的表达情况有很好的了解。

图3. 搜索实例

在预后分析模式,用户也可以通过热图来浏览和搜索某些基因的预后效果,并在详细页面中查看生存曲线图获取该基因在不同研究中的情况。

图4. 生存分析展示

My-lncRNA:

该模块满足用户对新发现lncRNA的搜索。它根据感兴趣lncRNA在基因组上的位置搜索它们所在探针的表达水平及预后效果。为了减少数据库搜索的压力,每次搜索只能针对某种癌症,而且输入的基因组区域必须小于50,000个碱基。若感兴趣lncRNA跨越多个外显子,用户可以用分号连接后搜索。以搜索乳腺癌感兴趣区域“chr12:53962308-53974956”为例,通过选择乳腺癌及输入感兴趣区域后点击搜索按钮即可获得该区域对应的探针在不同研究中的表达情况以及预后效果。

图5. 生存分析检索实例

在“Statistics”页面,作者对每种癌症的基本信息、重注释结果、癌症样本、分析结果进行了详细统计,用户可以浏览并选择感兴趣的内容查看结果。

图6. 数据统计分布

基于lnCAR数据库,作者对差异表达分析的结果进行系统分析。发现除了宫颈癌,其他癌症中表达的lncRNAs数目都超过10,000个,这说明基于芯片探针重注释的方法可以获取丰富的lncRNAs表达资源(A图)。此外,相比于正常样本,有相当一部分lncRNAs在癌症样本中差异表达,其中结直肠癌、胃癌和肺癌的差异基因最多。B图说明超过60%的差异lncRNAs在多种癌症中都有出现,其中有2,871个lncRNAs在6种以上癌症中差异表达,它们很可能是癌症发生的驱动基因。为了找到大部分癌症中的关键lncRNAs,作者进行Meta分析并列出在所有癌症中表达水平总体上调、下调的前10个lncRNAs,其中大部分基因在以往研究中已经被指出与癌症相关。例如, lncRNA SNHG17在结直肠癌、乳腺癌中被报道表达量上升;相关研究也指出HANF2-AS1是子宫内膜癌、肝癌的关键肿瘤抑制因子。

图7. 数据库应用

综上,lnCAR收集了丰富的lnCAR表达及预后信息,成功实现了从芯片数据中挖掘丰富的癌症lncRNAs资源,有助于后续lncRNAs的癌症研究。欢迎大家使用和帮助改进。

参考文献:

1. Zheng, Y., et al., lnCAR: A Comprehensive Resource for lncRNAs from Cancer Arrays. Cancer Res, 2019. 79(8): p. 2076-2083.

2.    Ma, Z., et al., Long non-coding RNA SNHG17 is an unfavourable prognostic factor and promotes cell proliferation by epigenetically silencing P57 in colorectal cancer. Mol Biosyst, 2017. 13(11): p. 2350-2361.

3.    Yang, Y., et al., Recurrently deregulated lncRNAs in hepatocellular carcinoma. Nat Commun, 2017. 8: p. 14421.

4.    Zhao, L.P., et al., Independent prognostic Factor of low-expressed LncRNA ZNF667-AS1 for cervical cancer and inhibitory function on the proliferation of cervical cancer. Eur Rev Med Pharmacol Sci, 2017. 21(23): p. 5353-5360.

5.    Zhao, W., J. Luo, and S. Jiao, Comprehensive characterization of cancer subtype associated long non-coding RNAs and their clinical implications. Sci Rep, 2014. 4: p. 6591.

作者/郑悦媛  审核/左志向   编辑/Zinky

关注我们:

(0)

相关推荐