科研 | 剑桥大学:造血细胞转录组图谱中细胞类型特异性新的LncRNA和circRNA

编译:Champion,编辑:夏甘草、江舜尧。

原创微文,欢迎转发转载。

导读

本研究使用来自脐带和成人外周血的27种成熟细胞的90个RNA样品以及来自11种成熟细胞的32个小RNA样品进行分析。通过使用贝叶斯差异表达分析方法来确定基因和转录水平的变化,并鉴定细胞类型特异性的转录特征。鉴定了数百个新的非编码RNA基因,并显示大多数具有细胞类型依赖性表达。此外,研究人员鉴定了55,187个circRNAs,也显示出非常高的细胞类型特异性,突出了非编码转录本在造血中的新作用。为了促进生物医学界对数据的探索和再利用,研究人员还提供了一个基于互联网的界面,允许绘制基因和转录本的表达模式,并下载标准化的表达数据(https://blueprint.haem.cam.ac.uk/bloodatlas/)。

论文ID

原名Cell type specific novel lncRNAs and circRNAs in the BLUEPRINT haematopoietic transcriptomes atlas

译名:造血细胞转录组图谱中细胞类型特异性新的LncRNA和circRNA

期刊:Haematologica

IF:7.116

发表时间:2019.09

通讯作者:Ernest Turro&Mattia Frontini.

通讯作者单位:剑桥大学

DOI号:10.3324/haematol.2019.238147

实验设计

本研究从外周血和脐带血中,通过磁珠分选和流式细胞仪分离27种成熟细胞的90个RNA样品以及11种成熟细胞的32个小RNA样品,采用RNA-seq分析每种细胞类型的样本数量,并对蛋白质编码的基因和小RNA的对数表达值进行主成分分析以及利用Spearman等级相关对样本进行分级聚类分析。之后对不同血细胞类型中的转录组进行分析,鉴定多外显子的转录本以及差异性circRNA的丰度。

结果

1 造血细胞转录组的复杂性。
从捐献的全血和脐带血中,通过磁珠和流式细胞仪分离了90个样品(图1A,1B)。总RNA数据来自27种细胞类型。小RNA数据来源于11种细胞类型。通过全RNA-seq和小RNA-seq分析每种细胞类型的样本数量。除了对血小板(PLT),嗜碱性粒细胞(BAS)和嗜酸性粒细胞(EOS)的去除核糖体RNA的RNA样品进行75 bp paired-end 测序以外,其余的样品平均产生了91 M的75 bp paired-end reads。蛋白质编码基因和小RNA的对数表达估计值的主成分分析(PCA)显示,细胞类型有明显的聚类,这解释了两种RNA物种表达大约40%的差异。利用Spearman等级相关对样本进行分级聚类,这种对应关系也很明显(图1)
GTEx项目表明,全血基因表达复杂性非常低。因此,研究者分析了不同血细胞类型中的转录组。由于线粒体基因在个体中的稳态表达差异很大,因此研究者排除了线粒体基因进行基因表达研究。在从分析中排除线粒体基因以解释其在个体间稳态表达的相当大的变异。本研究中,除PLT外的细胞类型中,占总表达量75%的基因GO富集在一般生物学过程相关的功能类别,例如翻译或转录。因此,即使在成熟细胞类型中,细胞的完整性和基本功能在转录水平也得到了支持。然而,在PLT中,GO富集主要与止血,伤口愈合,凝血,血小板脱颗粒相关。小RNA样品总体展示出较低的复杂性(图1)。
图1 总RNA和小RNA表达的数据集描述和主成分分析。
2 转录特征对应造血细胞的功能。
由于在给定的细胞类型中,转录水平最高的基因通常没有富集该种细胞类型的特定功能,因此推断这些功能主要由其他更低表达的基因编码。这些基因的表达水平应与细胞类型相关,以确保功能特化。为了确定哪些基因形成了细胞的转录特征,将细胞类型按功能类别分类,然后通过贝叶斯比较来确定这些类别中的异质性表达基因。由于给定细胞类型中转录最高的基因通常未富集,两个模型均包括血样来源(静脉或脐带)的二元协变量。使用这种方法,发现了19861个(占HGNC注释基因的59.5%)差异表达后验概率> 0.8的基因。表明造血中广泛表达的管家基因数量有几百个。然后将差异表达基因按表达量最大的细胞类型进行分类。
图2基因和miRNA转录本的复杂性。
3 MiRNAs的差异表达。
将上述差异表达模型应用于小RNA数据。结果表明2588个miRBase注释的miRNA中有603个差异表达,其后验概率> 0.8,其中573个被归类为细胞类型特异性。然而,利用现有的miRNA-mRNA相互作用数据库,研究人员并没有发现miRNA的表达与其靶标的表达有任何的相关性,这与miRNA只是造血细胞转录调控的分子参与者之一是一致的,表明miRNA可以诱导mRNA翻译抑制而不破坏mRNA的稳定。
图3细胞类型特定的转录特征。
4 转录组的从头组装鉴定新的lncRNA
将本文测序的112个转录组数据从头组装,利用BLUEPRINT consortium中的转录组数据作参考,鉴定了起源于400个基因间新基因的645个多外显子转录本,其中,有368个的在至少一个样品中的log expression >0,这些基因可以根据细胞类型聚类,表明这些新基因可以作为鉴定细胞类型的标志;通过 CPAT分数鉴定这些新基因大多数(545/645)是低编码能力,被鉴定为非编码RNA。由于ORF与转座子区域或重复序列或低复杂序列具有很少的重叠,所以根据这一特征,分析这些新基因中非编码(545/645)和具有潜在编码的序列中重复元件的分布,发现两者没有明显差异,表明在这些新基因中,即使具有较高的编码能力,它的特征也与非编码转录本的特征更接近,而不是与编码转录本的特征接近。因此,研究人员选择不将两组分开。
此外,新基因表达水平低于已知蛋白编码基因,并且与注释的lncRNA的表达水平相似。新基因还比注释的已知lncRNA和蛋白质编码基因具有更高的组织特异性。并且,新基因外显子序列的保守性较蛋白质编码基因差。这三个特性有助于解释它们的新颖性:新基因仅在非常有限的几种细胞类型中以低水平表达,尽管它们在生物学复制中始终保持一致。因此,仅在重建细胞类型特异性转录组时才使它们的鉴定成为可能。
图4已鉴定的新基因的特征
5 成熟造血细胞中的circRNA
使用5种方法确定了总RNA-seq数据集中的circlRNA丰度,并排除了其中少于3种方法检测到的反向剪接,以减轻方法学的偏倚。此外,排除了与已知片段重复、多个基因或Ensembl 75注释的读通转录本重叠的反向拼接。最后,获得了91,866个circRNA,总共保留了55,187个用于下游分析。这些circRNA中的大多数(81.64%)是外显子,并具有典型剪接位点(5A),与之前的报道一致,几乎一半(44%)的circRNA与circBase中的结构完全匹配,另外30%将其两个剪接位点中的一个与circBase中的结构共享。
与其他RNA物种相比,环状RNA的形成率较低,但可以在细胞内部积累,因为它们对核酸外切酶活性具有抗性。为了研究造血细胞中环状RNA的表达模式进行分层聚类。这些按细胞类型和谱系的分组,显示了circRNA丰度的组织特异性模式(图5B)。接下来,评估了circRNA丰度对每个基因转录的贡献差异。计算每个样本中基因的丰度比例(AP)。并对所有细胞类型之间的环状RNA进行了差异表达分析。我们鉴定了5993个环状RNA的表达具有显著差异,包括929个不同的反向拼接。这些环状RNA起源于698个基因,其中678个是蛋白编码,20个是非编码。差异表达环状RNA的表达模式按功能类别对样本进行聚类(图5C)。为了研究聚类是否部分归因于环状RNA与其线性对应物之间转录的共享机制,推断了环状RNA对应的基因差异表达。两种RNA的对数倍数变化的迹象之间有很强的对应关系(图5D)。目前已经发现了几种非编码RNA的作用机制,但只有少数环状RNA被实验验证为有功能。此外,它们的功能与其宿主基因的功能不同,消除了对宿主基因GO分析的功能推断。
图5血细胞中CircRNA的表达。

结论

本研究表明,每种细胞类型执行其功能的基因具有广泛的表达值,形成了一个独特的转录签名。即使在那些半衰期极短的细胞类型中,基本的细胞功能也保持不变。本研究发现几乎60%的已知基因在造血系统中有差异表达。一些lncRNA和CircRNA与在其他组织和器官中的发现一致,在决定造血中的细胞命运和功能方面发挥作用。最后,为了可视化基因和转录本水平的表达值,以及microRNAs、新基因和CircRNAs的表达值,还创建了一个基于Web的应用程序(https://blueprint.haem.cam.ac.uk/bloodatlas/)。

评论

本研究的分析完善了成熟造血细胞的活性转录景观,突出了每种血细胞类型丰富的基因和转录亚型,为血液发育和疾病的研究人员提供了宝贵的资源。

更多推荐

高分综述 | Trends in Biotechnology: 单细胞分辨率下利用空间转录组揭示器官分子结构(国人佳作)

重磅综述 | Cell:非编码RNAs在肿瘤学中的作用(IF=36.216)

(0)

相关推荐