科研 | Genome Biology:非编码RNA是乳腺癌遗传易感性的基础

编译:澜粒粒,编辑:十九、江舜尧。

原创微文,欢迎转发转载。

导读

全基因组关联研究(GWAS)鉴定的遗传变异通常归功于调控元件的改变,例如非编码的增强子和启动子。但是非编码RNA对表型的复杂性的贡献尚不清楚。长链非编码RNA(LncRNA)是一种能够广泛表达,长度超过200个核苷酸的转录本。迄今为止,只有少量的lncRNA具有指定的功能,并且有功能的非编码转录本的确切比例仍是不断争论的主题。目前全基因组关联研究(GWAS)与精细定位(fine-mapping)相结合,已经确定了196个与乳腺癌风险相关的独立基因信号。由于复杂的连锁不平衡(LD),信号中的遗传变异通常被共同继承,这使得很难查明驱动关联的变异。最近的一项研究定义可靠因果变量(CCV)为每个信号内p值与先导变量(7394 CCVs / 196)相差两个数量级的变量。在28个信号中鉴定出一个CCV,在96个信号中CCV的数目≤10。类似GWAS鉴定出的其他与性状相关的变异,大多数CCV位于非编码基因序列内。因此,全基因组关联研究(GWAS)鉴定的遗传变异主要是非编码的,并且通常归因于增强子和启动子等调控元件的改变。然而,非编码RNA对复杂性状的贡献尚不清楚。本文利用转录组测序技术,在一系列乳腺组织和细胞中注释了从围绕乳腺癌危险信号的基因组间隔区转录的多外显子非编码RNA(mencRNA)。证明了非编码RNA是CCV改变乳腺癌风险的另一种机制。这可能超出了乳腺癌的范畴,可能代表了GWAS变异在其他复杂性状和疾病中发挥作用的共同机制。

论文ID

原名:Non-coding RNAs underlie geneticpredisposition to breast cancer

译名:非编码RNA是乳腺癌遗传易感性的基础

期刊:Genome Biology

IF:14.028

发表时间:2020.01

通讯作者:Juliet D. French

通讯作者单位:Cancer Division,QIMR Berghofer Medical Research Institute

DOI号:10.1186/s13059-019-1876-z

实验设计

使用靶向RNA测序,研究者系统地注释了围绕139个乳腺癌GWAS信号的1.5 Mb间隔转录的多外显子非编码RNA(mencRNA)基因,并评估了它们对乳腺癌风险的贡献。共鉴定出4000多种mencRNA基因,并显示它们的表达将正常的乳腺组织与肿瘤和不同的乳腺癌亚型区分开。重要的是,通过遗传精细映射确定的乳腺癌风险变异体中,mencRNA外显子明显富集,而启动子或内含子却没有。 eQTL分析可鉴定其mencRNA的表达与风险变异有关的分子。此外,染色质相互作用数据可鉴定数百个mencRNA启动子,这些启动子环向包含乳腺癌风险变异的区域。

结果

1 鉴定乳腺癌GWAS危险区域的mencRNA

为了从乳腺癌风险信号中鉴定转录出来的非编码RNA(ncRNA),研究者对21种源自乳腺的样品(图1a,1b)进行了RNA Capture-Seq。为了捕获已知乳腺癌GWAS信号(139/196信号,图1a)的1.5 Mb间隔以内内含子和基因之间序列产生的转录RNA,本研究首先设计寡核苷酸探针。总共覆盖了138 Mb(4.3%)的人类基因组,然后通过与捕获探针杂交、测序,产生RNA文库。为了发现新的ncRNA基因,研究者从21个捕获文库中组装了的测序读物,重新定位回基因组并进行了定量。最后鉴定出4020个mencRNA基因(FPKM≥0.5),其中2766个是新基因。 mencRNA的转录长度介于143至35,678 bp之间,中位长度为1550 bp(图1c)。在计算机上对mencRNA转录本进行的评估显示,绝大多数剪接点均包含典型的双核苷酸(99.0%),通过独特的定位读段识别(81.3%),并且与重复序列不重叠(96.1%)。另外mencRNA表达谱的分层聚类是根据样品的雌激素受体(ER)状态将其聚类,无论它们是来自正常样品还是肿瘤样品,还是来源于原发组织或细胞系(图1d)。

研究者使用来自TCGA的标准RNA-seq数据集对捕获的转录本在111例正常乳腺样本和1092例乳腺肿瘤中的表达进行了定量。与GENCODE蛋白质编码基因相比,检测到的mencRNA的表达平均低140倍(图1e)。基于mencRNA表达的主成分分析(PCA)将正常的乳腺组织与匹配的乳腺肿瘤,PAM50乳腺癌亚型以及ER阳性和ER阴性的乳腺肿瘤区分开来(图1f,1g)。研究者还分析了mencRNA在其他六种肿瘤类型中的表达,并表明与蛋白编码基因相比,mencRNA具有较高的组织特异性(图1h)。

图1 鉴定乳腺癌GWAS危险区域的mencRNA。a. RNA Capture-Seq实验设计示意图。b. 每个RNA Capture-Seq文库捕获的转录本数量。该文库包括九种源自乳腺的细胞系,四个乳腺肿瘤(BT)样本和四个乳腺正常(NB)样本。c. mencRNA转录长度的分布。d. 基于mencRNA表达谱的RNA Capture-Seq库的分层聚类。 ER阳性乳腺癌细胞系和肿瘤显示为红色,ER阴性乳腺癌细胞系显示为蓝色,正常乳腺癌细胞系和组织显示为黑色。 NC未捕获,NB正常乳房,BT乳腺癌。e. 捕获的mencRNA转录本相对于蛋白质编码转录本的表达分布。f. 在TCGA数据库中正常的乳腺样品和相对应的肿瘤样品中进行捕获的转录本的主要成分分析(PCA)。g.在不同PAM50乳腺癌亚型中捕获的转录本的PCA。 h.捕获的mencRNA与蛋白质转录本的组织特异性表达的比较。

mencRNA外显子中富集乳腺癌风险的CCVs

由于非编码RNA对复杂性状的贡献尚不清楚,研究者进一步评估了CCV和mencRNA的潜在机制,并显示了CCV只在mencRNA的外显子中的富集(图2a)。相反在编码蛋白质的基因中,CCV在外显子中几乎耗竭,而在内含子中富集。例如在2q14.2风险区域,4个独立风险信号中有3个的CCV落在mencRNA的外显子上(图2b,c),并且信号2和信号3中的CCV落在同一个mencRNA (XLOC-130206)的不同外显子上(图2c)。

图2mencRNA外显子中富集CCVs。a. 非编码RNA与编码蛋白质的转录本的CCVs的数量。b. WashU基因组浏览器显示2q14.2风险区内的含有注释的GENCODE基因(蓝色)和mencRNA(黑色)。c. 放大的CCVs信号(3个),XLOC-130152和XLOC-130206.

鉴于此,研究者利用TCGA数据库进行了乳腺癌定量表达的基因座关联分析(eQTL),确定了800个关联的mencRNA(FDR <0.05),其中9个关联信号与乳腺癌信号重叠(基于定义CCV的p值)。进一步的分析表明,9个eQTL中的7个信号与乳腺癌信号共定位。例如,在2q31.1(FDR == 0.002)处的eQTL变异落入一个称为XLOC-142280的mencRNA的外显子内,其风险等位基因与表达降低有关(图3a–c)。另外研究者通过分析发现此信号的CCV与任何带注释的蛋白编码基因之间不存在关联(p <5×10-4),表明mencRNA (XLOC-142280)可能是该CCV的靶基因。使用TCGA 的RNA-seq数据库,显示XLOC-142280主要在ER阳性乳腺癌中表达(图3d)。鉴于该区域的CCV仅与ER阳性乳腺癌相关,因此这种关联可以通过限制XLOC-142280的表达来解释。

图3外显子中mencRNA包含eQTL变异。a. 局部的XLOC-142280 eQTL关联图。红点表示该区域内的CCVs。b. WashU基因组阅读框显示2q31.1风险区域内含有注释的GENCODE基因(蓝色)和mencRNA(黑色)。c. 放大显示的CCVs信号和XLOC-142280。 d. 箱形图显示TCGA RNA-seq数据库中ER阴性和ER阳性乳腺肿瘤样品中XLOC-142280的表达。

证据:末端CCVs可以调控mencRNAs

研究者利用来自乳腺细胞的捕获 Hi-C数据鉴定了770个mencRNA启动子(从转录起始位点开始定义为±500 bp),该启动子环回了包含CCV的区域。例如,在16q12.2上,CCV(rs11642015)是mencRNA (XLOC-093918)的eQTL变异(p <5×10-4),其单倍体的风险与XLOC-093918水平升高相关(图4a)。 CCV (rs11642015)落入以H3K27ac和H3K4me1标记的开放染色质区域内,表明CCVs也可能通过与mencRNA启动子相互作用的调控元件向远侧起作用。并与B80T5乳腺细胞、ER阴性和ER阳性乳腺癌细胞系中的XLOC-093918接触(图4b,4c,S5c)。

图4 定义与性状相关的lncRNA的体内分子水平的功能。 a. 局部的XLOC-93918 的eQTL关联图。红点表示CCVs。 b. WashU基因组阅读框显示16q12.2风险区内的含有注释的GENCODE基因(蓝色)和mencRNA(黑色)。 XLOC-93918以红色突出显示,红色垂直线指CCVs,蓝色直方图指ATAC-seq数据,黑色直方图指组蛋白修饰ChIP-seq数据,CHi-C染色质相互作用显示为B80T5乳腺癌细胞系的弧。红色弧线指CCVs和XLOC-93918启动子区域之间的染色质成环。 c放大展示了CHi-C和XLOC-93918的互作。

此外,研究者分析了位于6q25 / ESR1风险区域的三个mencRNA(XLOC-214919,XLOC-222497和XLOC-222554)的启动子与含CCVs区域的染色质之间的成环(looping)(图5a)。有趣的是,研究者发现ESR1启动子与XLOC-222497和XLOC-222554都存在成环(图5a),并且两种mencRNA的表达与ESR1高度相关(图5b),表明这些基因是共调控的或本身是介导ESR1顺式调节的调节性mencRNA。鉴于6q25上mencRNA-mRNA之间的高度相关性(通过染色质成环),研究者在捕获区域中发现通过染色质成环的mencRNA-mRNA配对的表达比一组随机的mencRNA-mRNA配对的相关性更高(图5c)。

图5 在染色体6q25上mencRNA与末端CCVs相连。 a. WashU基因组阅读框显示6q25风险区域内含有注释的GENCODE基因(蓝色)和mencRNA(黑色)。b. 在TCGA中,三个捕获的转录本的表达与ESR1之间的相关性。 c.箱线图显示了在环状和非环状的mencRNAs对与附近的编码蛋白质的基因(±1 Mb之内)之间的对比。

4 mencRNAs是多种靶基因的信号

最后,研究者鉴定了靶向mencRNA的多个风险信号,发现有222个mencRNA基因存在两个及其以上的独立配对的CCVs落在mencRNA外显子内、mencRNA启动子区域内、以及长染色质与含有mencRNA的启动子相互作用的区域内。在染色质18q11.2上,研究者确定了XLOC-112072的eQTL变异与3个CCVs信号重叠(图6a–c),其中两个落入在mencRNA外显子上。此外,第一个、第二个CCV信号在T47D乳腺癌细胞中环化到XLOC-112072的启动子上(图6b)。有趣的是,在正常乳腺细胞B80T5中,只有第一个CCV信号与XLOC-112072启动子相互作用,表明在某种程度的细胞类型特异性(图6b)。

图6 mencRNA靶向多种风险信号。 a. 局部的XLOC-112072 eQTL关联图。红点表示3个 CCVs信号。 b.WashU基因组阅读框显示在18q11风险区域内含有注释的GENCODE基因(蓝色)和mencRNA(黑色)。c. 放大显示了CCVs、CHi-C 与XLOC-9112072相互作用。

讨论

使用靶向RNA测序和从头组装的转录本的组合,研究者从139个乳腺癌GWAS信号的基因组间隔附近注释了超过4000 mencRNA基因。基于落在mencRNA外显子内、mencRNA启动子区域内、以及长染色质与含有mencRNA的启动子相互作用的区域内的CCVs,研究者确定了844个mencRNAs为候选乳腺癌风险基因。研究者总结了mencRNA参与乳腺癌风险信号的相关证据,这有助于基础科学中mencRNA在功能方面的研究。总之, mencRNA的相关调节可能代表CCVs引发风险的另一种机制。

进一步的,研究者利用eQTL分析确定了9个与乳腺癌风险信号共定位的mencRNA eQTLs信号。这些mencRNAs至少存在一种可能的候选靶基因,其中有五个信号中检测到的eQTL。此外七个mencRNA信号中有三个在mencRNA外显子内有一个eQTL的变异。但是,复杂的连锁不平衡(LD)中还有其他远端的遗传变异(CCV在同一信号中),这使得很难确定外显子eVariant是否正在影响mencRNA的稳定性并推动这种关联。例如,研究者发现末端调控的改变是更可能的机制。在11q13乳腺癌风险区域,研究者发现增强子和CUPID1 / 2双向启动子之间的等位基因特异性染色质环化,表明CCVs通过抑制染色质环化降低了它们的表达。这也证明了末端CCVs可以调控mencRNAs。

研究者表明CCVs大量存在于mencRNA的外显子,而不是内含子或启动子上,这表明遗传变异可能会改变mencRNA的结构或功能。lncRNA可以充当蛋白质支架。因此,遗传变异可能会改变蛋白质与mencRNA的结合。此前有研究表明,与风险相关的变异体通过改变称为Lnc13的lncRNA的二级结构并最终改变hnRNPD与Lnc13的结合而抑制了炎症基因的表达。在一些没有发现eQTL关联的乳腺癌风险信号中,研究者推测CCVs可能在不影响基因表达的情况下起作用。CCVs还富含与顺式调控DNA元件相关的基因组特征,包括开放的染色质位点,与启动子和增强子活性相关的染色质标记以及转录因子结合位点。鉴于lncRNA通常来自增强子元件,某些含CCV的增强子可能落在mencRNA内。值得注意的是,研究者并未在mencRNA的内含子或启动子区域中观察到CCVs富集,这表明来自增强子转录的lncRNA可能对增强子活性具有功能性影响。lncRNA内的遗传变异可能会参与这一过程。未来需要进一步地深入的研究来确定——与mencRNA和增强子重叠的CCV是否通过DNA元件起作用,例如通过改变转录因子结合,或该变异是否影响RNA转录本身。

结论

本研究发现,在一系列源自乳腺的细胞系中,包含调节活性相关的基因组特征中(开放染色质,与启动子和增强子活性相关的染色质标记(H3K4Me3,H3K4Me1和H3K27Ac)以及转录因子结合位点)含有丰富的CCVs信号。研究者通过编辑了与乳腺癌相关的最大目录的mencRNA,并且GWAS的变异对mencRNA的调节可能提供了另一种潜在的复杂性状的相关的机制。这些发现对于解释GWAS的相关发现具有广泛的意义,并建议在相关细胞类型中表达的ncRNA(GWAS信号周围的ncRNA)的全面注释对于相关功能后续研究非常重要。在这项研究中鉴定出的mencRNA即使具有功能的只占很小的比例,该资源也可能包含数百个新基因,这些新基因应该是阐述乳腺癌病因的关键。此外LncRNA具有细胞和组织特异性表达,使其成为治疗乳腺癌的极其重要的候选靶点。因此,了解这些lncRNA的功能对于开发新的乳腺癌疗法具有巨大的潜力。


更多推荐

科研 | PNAS:转录组学揭示急性和慢性饮酒对肝脏昼夜新陈代谢有不同的影响

重磅综述 | Cell:非编码RNAs在肿瘤学中的作用(IF=36.216)

(0)

相关推荐