LncRNA的表达调控功能研究综述
希望所有学员都可以站在生信技能树的舞台上发光发热!
前些日子(个把月前),合作伙伴发给我他翻译整理了eLife杂志的综述:《Beyond the RNA-dependent function of LncRNA genes》,很用工,希望对大家有帮助
Beyond the RNA-dependent function of LncRNAgenes
钱塘生科--吴向伟--投稿
近十年lncRNA吸引了越来越多的人关注,以往关于lncRNA作用机制的研究主要集中在lncRNA本身(RNA层面)。最近关于一些lncRNA的研究发现,不仅仅lncRNA(RNA),lncRNA转录过程本身也具有多样性的调控作用。作者归纳了一些例子,并概括性的整理lncRNA功能研究的方法学。
基因组中的lncRNA
复杂的真核生物基因组被广泛的转录,在一个细胞中大约有1/2的基因组序列被转录成RNA。产生RNA的基因大致可以分为两类,蛋白编码基因(PCGs)、非蛋白编码基因(NCGs)。NCG是高度异质性的,有可以分为小的ncRNA和长的lncRNA基因(200nt为标准)。NCG的数目在研究之初,像PCG一样也被高估了,目前在最新的人类基因组版本GENCODE公布了17,957个lncRNAgenes。所以lncRNAgenes数目和PCGs(19,954)处于同一水平(Fig1A)。
目前,lncRNA基因机制研究有三个主要的功能性原则(Fig1B)。(1)lncRNA作为功能性生物分子和其他DNA、RNA、蛋白质相互作用,(2)lncRNA基因的转录本序列中嵌有其他基因的调控元件,lncRNA的基因活性决定调控元件的活性或者
(3)转录过程影响基因组结构,从而影响基因活性。lncRNA基因可以具有这些功能中的一个或多个。在本文中,作者重点关注了后面两个lncRNA的功能特性。
基因的转录
转录活动取决于功能元件(Fig2)。RNA转录核心元件启动子,由于其具有可及性的GC富含区(开放染色质),可以吸引聚合酶和通用转录因子(TF),能够独立启动转录。RNA的转录始于转录起始位点(TSS),该位点位于核心启动子内。与PCG一样,大多数lncRNA由POLII(RNA聚合酶2,一种多蛋白复合物)转录,但与PCG相比更具组织特异性。PCG和lncRNA都具有保守的核心启动子序列,lncRNA启动子中的重叠TF结合区较少(Fig2),导致与PCG相比整体表达水平较低。因此,核心启动子区域的结构能够作为判断lncRNA及PCG的一个重要指标。影响基因转录的第二个重要因素是顺式调节元件增强子,增强子能够对目标基因产生积极或消极(通常称为阻遏子)的影响。增强子是指特异型或抑制型转录因子的结合位点。这些元件通常赋予基因转录的时空特异性。许多lncRNA也可以从这些增强子元件中产生,和PCG相比它们整体上更具组织特异性的表达。
可变性剪切能够带来转录的多样性,虽然lncRNA的剪接效率低于PCG,PCG和lncRNA的剪接机制相似(Fig2)。此外lncRNA显示出共转录切割和过早终止的迹象,同时发现在大量lncRNA中存在Thr4p启动子。转录机器最终都会在遇到了由AATAAA 和下游富含GU(或U)序列构成的广泛存在的终止信号而终止。在人类基因组中找到569,005 个符合pA终止信号标准的元件序列。大量的转录终止信号能够确保转录的成功。
对基因和基因组活动起重要作用的另一类遗传元件是转座元件(TE)。这些可移动的元件占人类基因组的 44%以上。TE也是lncRNA生物学的重要组成部分(Fig2A)。大约75%的lncRNA转录本包含TE的序列,其中一些具有典型的定位功能。此外,发现25%的TE与lncRNA基因的TSS和pA信号重叠。因此,这些转座子是驱动lncRNA表达的重要动力。经典的例子是灵长类动物特异性lncRNA XACT(表1),它已被证明可以保护活跃的X染色体不被沉默(对抗XISTlncRNA效应),并且其序列包含源自TE的元件。XACT lncRNA也受TE衍生的增强子元件的调控,该增强子包含先锋多能性转录因子结合位点。这说明了当启动子元件旁边包含了嵌入转录因子结合位点的TE时,可以调控组织特异性lncRNA基因表达。
总之,基因组存储了细胞所需的一切RNA信息(mRNA/lncRNA),通过复杂的激活或者抑制基因的表达建立了一个精巧节能的机制。
基因的多层次调控
基因和整个基因组区域的表达受多层调控控制。除了上述基因组调控元件外,DNA还与组蛋白一起构成紧密的染色质,这些蛋白质成分可以被修饰成转录机制的信号中心。此外,细胞核的蛋白质还调节基因组DNA的3D排列,从而使基因调节的功能元件空间聚集。简而言之,每条染色体都由称为拓扑相关域(TAD)的亚兆碱基单元组成,它是染色体的结构和功能单元。这种基因组排列可以允许启动子-增强子接触并将功能依赖的调控元件组织在一起。调节该组织的主要元件是CTCF(CCCTC结合TF)和cohesin复合物。CTCF结合经常与TAD边界的cohesin复合物共定位并相互作用。事实上,即使在CTCF存在的情况下,cohesin的消除也会溶解掉所有染色质TAD。有趣的是,通过去除CTCF或cohesin破坏TADs会对基因表达产生意想不到的温和影响。虽然现在普遍认为基因表达和3D 折叠是相关的,但它们的功能相关性仍有待阐明。
所有这些增强子和基因组组织区域都必须在功能上进行调节,以准确控制基因和基因组活动。由于许多此类调控位点与lncRNA相关,这些lncRNA基因可能是重要的功能参与元件。lncRNA基因可能通过转录过程中参与重组染色质标记,允许或禁止其他元件接近基因组区域序列来发挥功能。
正在进行注释的数据
当前基因组数据库的注释根据各种标准对基因进行分类。从表面上看,一个非常简单的方法是分离蛋白质编码基因(PCG) 和非蛋白质编码基因(NCG),不久前已经发现NCG的RNA也能和核糖体相关联,这种关联其实并不奇怪因为核糖体的功能是结合胞质溶胶中的RNA并试图将其翻译成肽或蛋白质。仅仅RNA与核糖体结合并不意味着它被翻译,即使翻译成肽也不能证明该肽有功能。在最近的研究中发现一些lncRNA确实产生肽,其中一些肽甚至是有功能的,mRNA 的 5'和 3'非翻译区也存在这种情况。因此,在数据库更新了翻译多肽的信息之前,在研究lncRNA功能时必须始终考虑肽编码概率。同样需要考虑的是,由于大量剪接变体可能PCG和NCG中的剪切体中有一些可能编码肽,而另一些则不编码。
高通量测序革命揭示了基因组表达的复杂性,尤其是对低表达转录本的富集分析发现了更复杂的剪接变异模式。然而这些分析依赖于片段化cDNA的测序文库和随后将转录本重构。最新一代的长读长测序仪,如PacBio或Nanopore系统允许直接分析RNA,并消除了片段化cDNA文库的中间步骤,能够捕获特异性lncRNA,目前通过这种Long-read平台重新测序确定了哺乳动物转录组的各种剪接变体。该技术的优势在于能够精确确定转录本的5'和3'末端,理想情况下可以确定所有剪接变体。例如,估计每个lncRNA 的外显子平均数使用CLS为4.27,而通过短读长RNA-seq方法测得的值为3.59。当目标基因或目标组织无法获得CLS数据时,应通过其他手段获取了目标lncRNA 的完整转录本长度、剪接位点和调控元件。只有这样才能启动研究lncRNA 的成功策略。
lncRNA调控基因---调控元件在转录单元内
对染色质的修饰研究导致对整个基因组的潜在调控区域的注释,有时甚至对特定组织和细胞类型进行注释。启动子区、转录单元内部以及其他物理距离远的区域,都能发现一些和转录单元相关的调控元件(DNA序列)。在转录单元(例如lncRNA基因)内部出现这样的调控元件可以表明该调控元件的功能可能也受到转录单元活性的影响。
一个有趣的lncRNA例子是Haunt,它是lncRNA,同时也是增强子。HauntlncRNA(RNA序列)是HoxA基因的负向调节因子,但Haunt(DNA序列)同时包含多能干细胞体外分化过程中激活HoxA基因的调节元件。虽然结果来看这些增强子可以直接与HoxA相互作用,但并不知道Haunt的功能如何和它的转录活性之间的关系。
在lncRNA中内包含调节元件的的较早的类似例子是Lockd lncRNA 基因,它调节其顺式基因Cdkn1b。Lockd lncRNA包括TSS上游元件整个基因的删除,导致Cdkn1b 表达的减少。虽然 Lockd 的5' 区域在基因组上与Cdkn1b 的启动子相互作用,但如果Lockd 的转录被插入Lockd 第一个外显子的pA 信号给终止掉,则这种相互作用不会改变。可见是基因组位点本身作为调节元件而不是其转录活性。
即便找不到具体的调控元件,但对lncRNA 的分析推理也可以指向这样的调控原理。Meteor lncRNA 基因的TSS对顺式调控Eomes基因在中内胚层中激活很重要。Meteor lncRNA基因的TSS删除导致Meteor表达的缺乏导致小鼠ESC中内胚层分化过程中Eomes活化的丧失,但是仅仅降低MeteorRNA的表达水平并不会改变下游基因的表达,这说明Meteor并不是依靠表达而发挥功能的。Meteor的内源性顺式激活不仅激活Eomes基因,还许可其他心脏中胚层基因激活。此外,使用MeteorTSS下游的聚腺苷酸化元件插入,对Meteor的转录抑制不会导致Eomes基因在中内胚层分化过程中沉默。这表明Meteor基因区域含有重要的调控元件,使顺式基因Eomes能够在分化过程中被激活。
在转录单元内具有明确调控元件的lncRNA的一个很好的例子是ThymoDlncRNA 基因。它的转录防止位于其转录单元内的CTCF结合位点的甲基化。CTCF能够被结合就会激活Bcl11b的转录。当ThymoD的外显子2和CTCF结合位点之间插入pA 信号时,转录就被阻断了,所以CTCF结合位点会被甲基化,这种激活就会消失(图3A)。因此,转录活性对Bcl11b 的调节具有间接的结构影响,而ThymoDRNA是可有可无的。
反义转录物调节其顺式基因的更复杂情况是原钙粘蛋白簇(Pcdha)。几个可变的随机表达的原钙粘蛋白簇为神经元系统中的细胞身份识别提供了细胞表面蛋白,以允许树突和轴突之间以及和其他神经元区分开来。这种随机表达部分受远端增强子区域的调节。Pcdha簇从三个不同的TSS产生三个不同的变体,以实现来自该簇的剪接变体的随机表达。每一个剪切体的第一个外显子都包含反义lncRNA 转录本(Pcdha-as)。lncRNAs 的表达先于PCGs 的表达,并正向调节最近的PCG 表达。从机制上讲,PcdhalncRNA 的作用类似于ThymoD lncRNA(上图)(图3A)。Pcdha-as 变体的表达导致Pcdha PCG 上游区域中CTCF 结合位点的去甲基化,从而允许与远端增强子区域形成稳定的环,并对PCG 表达产生积极影响。
还有一些 lncRNA基因位于与顺式靶基因内部不同的转录实体中。可以想象它们的活动会对它们嵌入其中的基因产生影响。一个例子是酿酒酵母中GAL10 基因簇内的ncRNA。在0%半乳糖下,TFReb1与GAL10-ncRNA(位于GAL10的反义链)的启动子区域结合并完全激活其表达。GAL10-ncRNA的转录单元与GAL10 和GAL1 的 TSS重叠,通过促进 GAL10和 GAL1启动子处的高水平H3K36me3甲基化和低乙酰化导致GAL10 和GAL1 基因的抑制。向培养基中添加半乳糖会阻止GAL10-ncRNA的表达以及GAL10 和GAL1 启动子的过度乙酰化,导致编码半乳糖发酵蛋白的基因的表达(图3B)。
在高等真核生物中有类似的现象,AIRN(antisenseIgf2r RNA non-coding)。lncRNA AIRN的TSS位于Igf2r PCG的第二个内含子中,AIRN转录为Ifg2r 的反义RNA。AIRN 的转录负向调节Igfr2(Santoro等人,2013年)。当AIRN 的转录被Igf2r 启动子之前的polyA 插入阻断时,这种负向调节就消失了(图3B)。然而,如果在Igf2r 的启动子之后插入相同的pA,则不会观察到这种对Igf2r 的负调节作用(Latos等,2012)。这些发现支持了AIRN 的转录行为,而不是RNA 产物本身,对Igfr2 的转录调控很重要的假设。
一个影响增强子的lncRNA例子是Upperhand,它与Hand2在不同位置表达。Upperhand转录的丧失导致Hand2上游(包括心脏增强子)组蛋白乙酰化的丧失。导致GATA4与增强子的结合减少,并且降低了心脏中Hand2的转录。因此,Upperhand功能丧失有和Hand2缺失类似的的心脏损伤表型(图3A)。Upperhand的其他突变体勾勒出了Upperhand在激活Hand2中的作用的更复杂的图。删除Upperhand中目前已知的和Hand2相关的调控区也导致Hand25'UTR 表达的丧失。这些发现表明,在其TSS 的直接上游存在重要的Hand2激活元件,与源自该区域的RNA无关。然而,通过删除Upperhand的启动子,保留该区域中所有其他区域完整的同时使其不能转录,这种情况下并未观察到对Hand2表达的影响。此外,删除了Upperhand的最后两个外显子对Hand2表达有轻微影响。到目前为止并未发现这两个外显子的基因组区域中可能存在未表征的增强子元件,它们的缺失可能会影响Hand2 的表达。尽管UpperhandRNA不是其体内功能所必需的,但该非编码RNA会产生可能具有功能的肽。
这些在某种程度上相互矛盾的结果强调了Hand2基因调控的复杂性。这些例子强调了深入研究整个lncRNA 基因产生RNA过程的重要性。转录单元内注释调控元件或基因组调控因子(如CTCF)的结合位点可能是一个重要的指标寻找lncRNA的基因组功能。
lncRNA调控基因--有活性的lncRNA转录行为
转录单元内缺少调节元件可能是由于注释不完整或存在未知因子,或者转录起始或转录延伸的行为对lncRNA基因的功能很重要。这种调节原理的一个例子来自对XIST lncRNA 的研究,它是已被广泛研究的原始lncRNA 之一。虽然XIST 通过产生的RNA起作用,但并非全是如此。XISTlncRNA 基因的两侧是许多lncRNA,其中之一是在Xist上游140kb处发现的Ftx基因座。最初提出FtxRNA的功能是调节XIST(Chureau等,2011)。然而,详细分析发现是Ftx的转录行为,而不是产生的RNA,对调节Xist 很重要。FtxRNA 的敲低不会导致Xist 表达的丧失,但Ftx 启动子的缺失以及Ftx 转录的相应丧失会导致Xist 表达的丧失,Ftx的CRISPRi类似地导致Xist 表达的丧失,表明Ftx 的转录是Xist 表达的正调节因子。一种可能性是3D 基因组结构可以由于基因组位点的转录活动而改变(图4)。引人注目的是,Xist和Ftx 的启动子两侧是CTCF 占据的位点。然而,单独删除 Ftx 启动子处的CTCF 结合位点对Xist 的表达水平没有影响,认为Ftx 活性诱导的基因组折叠不涉及CTCF 结合。
另一个很好的例子是Chaserr lncRNA 基因,它位于Chd2 蛋白编码基因上游16 kb(Rom等,2019)。尽管敲除Chaserr RNA 确实会导致Chd2 表达略有增加,但其他证据表明lncRNA 基因的转录行为可能是Chaserr 在调节Chd2 中最重要的功能(图4)。此外,在染色体构象捕获分析中,Chaserr的启动子与Chd2 启动子相互作用。删除Chaserr 启动子区域后,Chd2启动子越来越多地与上游的其他增强子元件相互作用。相反,如果删除了Chaserr的基因体,而使启动子保持完整,则不会观察到增强子/Chd2-启动子接触的这些变化。一个合理的解释是Chaserr的转录起始活性对Chd2的调节更重要。
同样,转录起始对于PVT1 lncRNA 基因很重要。Pvt-1 lncRNA 最初是作为导致Myc 癌基因激活的基因组易位发现的(Adams和Cory,1985)。最初,有人认为嵌入PVT1 lncRNA 转录本中的miRNA 对于靶基因的调控很重要(Wang等,2019)。事实证明,PVT1lncRNA的功能也是和转录行为具有相关性。PVT1 基因可以编码几个不同的转录起始位点,其TSS的主要活性充当边界元件,以保护MYC 启动子免受位于PVT1 转录单元内的增强子的过度激活(Fig4)。是转录活性,而不是延伸对于这种抑制功能很重要(Fig4)。但这并不意味着PVT1 产生的miRNA 没有功能,它似乎是PVT1 lncRNA 在对MYC由PVT1 lncRNA的转录激活传递传递中发挥重要作用。
除了Hand2上游的UpperhandlncRNA(见上文),Hand2下游还有Hand2调节lncRNA位点。由于其位于Hand2 的下游,我们最初对该基因进行了表征并将其命名为Handsdown。Handsdown基因在与Hand2相同的组织中表达,但在发育中的心脏中表达最为显著。我们已经证明Handsdown的转录对于负向调节Hand2 的表达很重要(图4)。另外,HAND2TF 结合发育中心脏(E9.5 )的HandsdownTSS 周围的两个不同位点。这表明HAND2在负反馈回路中激活其自身的抑制区以控制其剂量。然而,删除Handsdown的TSS区域,仅包括HAND2 的一个结合位点,不会导致Hand2 的预期上调(George等,2019)。Handsdown的5'区域存在多个潜在的TSS区域,删除一个TSS会导致替代转录本的出现(Lavalou等人,2019年)。因此,第二个HAND2 结合位点可能足以进行替代促使Handsdown 转录本的转录。因此,只要在Handsdown 区域中存在转录活性,Hand2就可以被负向调节并调整其表达水平。Hand2 的剂量尤其重要,因为丢失了一份Hand2基因以及获得额外拷贝的Hand2 基因会导致发育过程中出现畸形(Tamura等,2014)。除了这些位于Hand2 基因侧翼的lncRNA位点外,还预测了Hand2上游和下游的其他增强子的可能性,强调了这一重要基因在发育中的复杂调节组。
虽然lncRNA在转录水平上的功能越来越被理解,但这些基因座的功能基于转录水平的基因座如何表现出它们的影响(表1)仍处于起步阶段。这个列表还有很多不足,但至少部分lncRNA是通过这种机制发挥功能的。关于它们的作用机制一种非常有前景的预测模型是功能性微域。在实际情况中,这些微域促进了相互作用成分(如TF、辅因子、染色质调节因子、RNA聚合酶II 和非编码RNA)之间的协同作用,从而控制了基因调控的基本过程。这种微结构域有可能是围绕超级增强子形成的,超级增强子也经常产生具有调节功能的RNA,转录活性本身会影响染色质的可及性、DNA甲基化、组蛋白修饰和更高级的染色质结构。
展望
近期的一个需要解决的重要问题是确定哪些lncRNA 基因在转录(RNA)水平或转录(基因组)水平上起作用,哪些基因可能在这两种水平上起作用。
CRISPR 工具箱的广泛使用促使开发了定向基因编辑以解释lncRNA基因的作用模式。由于CRISPR/Cas9可以进行大片段敲除(MB级别),人们可以通过整个转录单位的敲除以判断lncRNA基因是否有功能。这种方法消除了来自基因的任何转录物的可能性。简单地说:如果删除一个完整的lncRNA基因不会对其他基因表达产生影响,那么这个lncRNA基因就是无功能的。随后,可以删除包含TSS的启动子以消除转录本的任何起始转录。需要注意的是删除TSS时有可能促发附近的类TSS位点,进而产生新的转录本。为了干扰转录延伸并研究基因体内调控元件的影响,可以使用强转录终止信号终止转录,如利用CRISPR工具箱敲入短而强大的pA信号。
反义寡核苷酸(ASO) 辅助敲除RNA的强大工具可以用于提供评估是转录组产物RNA还是转录过程发挥功能。到目前为止,如果通过反义寡核苷酸方法在RNA 水平上抑制lncRNA 转录,siRNA或锁核酸基于酸(LNA) 的ASO,假设RNA而不是其转录对于由此产生的表型。以前是使用内源性RNA酶进行ASO靶向RNA的降解,因为内源性RNA酶可以同时降解胞质及细胞核内RNA。但是最近的研究表明,使用技术时需要留意,如果靶向发生在5’端存在边转录边降解的可能性。这种过早的RNA降解导致XRN2的募集,并彻底驱逐了POL II转录机制,这会对研究lncRNA潜在机制造成混淆。所以利用这种方式应该首选靶向lncRNA3’端。这种机制开启了靶向lncRNA(或任何其他基因)的可能性,用于研究RNA本身是否具有功能。