科研 | 福建农林大学:对毛果杨的茎干分化木质部中的N6-甲基腺苷使用纳米孔RNA测序技术进行单碱基分辨率的定量分析(国人佳作)
编译:东方不赢,编辑:Tracy、江舜尧。
原创微文,欢迎转发转载。
目前尚没有全面方法以单碱基分辨率鉴定单个转录物N6-甲基腺苷(m6A),但这对于估算m6A丰度又很重要,因此本文中研究者开发了一个名为Nanom6A的新方法,用于基于XGBoost模型的Nanopore RNA直接测序技术以单碱基分辨率鉴定和定量m6A的蛋白质修饰。研究者使用甲基化的RNA免疫沉淀测序(MeRIP-Seq)和m6A敏感的RNA-内切核糖核酸酶促测序(m6A-REF-seq)验证了该方法,证实了其准确性。研究提供了在茎干分化木质部中m6A修饰的转录组范围内的定量分析,并揭示了不同的替代聚腺苷酸化(APA)用法显示了不同的m6A比值。
论文ID
实验设计
实验结果
本文开发了一种新的测序流水线Nanom6A,基于XGBoost(极端梯度增强)模型,通过直接使用m6A位点周围的原始信号,以单核苷酸分辨率鉴定和可视化meA位点(图1)。研究作者分析了来自修饰和未修饰的RRACH k-mers的已公开Nanopore原始信号,发现修饰或未修饰位点的信号均值,中位数,标准差和信号宽度均不同。因此提取了所有读段的上述特征,并将它们按4:1的比例分为训练和测试数据集,以训练XGBoost模型(图1)。然后,研究者执行了10倍交叉验证,以评估模型的性能,其中,曲线下面积(AUC)为97%。之后将XGboost与其他几种分类算法进行了比较,结果发现XGBoost表现出最好的性能,因此,在后续研究中使用了XGBoost模型。
为了验证Nanom6A是否可以从单个转录本中识别出m6A修饰,研究者使用已知的m6A与非m6A比率的合成mRNA已知样品评估了此方法。首先,研究者使用Nanom6A模型分别预测已知的修饰和未修饰读段,总共可以成功鉴定出单个转录本中91-96%的修饰和未修饰位点;其次,研究者将已知的修饰和未修饰读段混合在一起,以模拟m6A与非m6A比率不同的数据集,涵盖了从0(所有未修饰的DRS读段)到1(所有修饰的读段)修饰比率的整个区间。研究者使用Nanom6A分析了DRS模拟数据集,发现基于Nanom6A预测的m6A与非m6A比率,与已知的m6A与非m6A比率具有很强的相关性。研究者还模拟了不同的序列深度,通过将各10000次对应于不同m6A与非m6A比率的20、50和100个DRS读数进行混合来生成三种不同的水平。这些结果表明,较高的深度可以生成较高的相关性。
在毛果杨(P. trichocarpa)中使用此方法之前,研究者首先使用哺乳动物和植物中已发布的DRS数据来进一步验证Nanom6A的可靠性(图2a)。首先,研究者使用来自野生型和METTL3敲除突变体的原始信号文件(shMETTL3),通过Nanom6A识别m6A位点,并使用连接辅助提取的方法和薄层色谱法与ACTB位点(1216)中的已知位点进行比较(猩红色)。研究者使用Tombo的重新波形算法提取了信号分配后的平均值,标准差,中位数和停留时间(图2a)。对于两个从野生型和shMETTL3读取的DRS,研究者在ACTB位点(1216)的修改概率分别为0.974和0.003(图2a),结果与使用SCARLET报道的ACTB修饰位点(1216)一致。通过使用相同的策略,研究者为其他DRS读取计算了ACTB站点(1216)的修改概率,根据来自ACTB的m6A读数/总DRS读数的公式,ACTB站点的m6A比值(1216)分别为0.62和0.33。研究者还使用这种方法来计算所有其他基因的比率,这些比率已被DRS读取所覆盖,结果表明,在METTL3敲低样品中,修饰率(图2b)和m6A位点数量(图2c)均降低。
为了进一步评估这个方法的可靠性,研究者基于SCARLET计算了所有已知的m6A位点。总的来说,科研者们已经报道了两个人类lncRNA(MALAT1和TUG1)和三个人类mRNA(TPT1,ACTB和BSG)的m6A修饰,这些结果代表了从体内的转录本中可以得到可靠的已知修饰位点。研究者将基于DRS数据,通过Nanom6A识别的m6A位置与基于SCARLET方法的已知m6A修饰进行了比较。在两个lncRNA(MALAT1和TUG1)中,仅三个DRS读数支持MALAT1(NR_002819.2),而这些读段太少,无法覆盖已知的m6A位点。因此,研究者从下游分析中排除了MALAT1的比较。在TUG1 RNA中,Nanom6A鉴定了十个已知的修饰位点,与SCARLET方法一致(图2d)。特别之处在于,研究者发现位于3'末端区域附近的这些位点包含更多的DRS读数支持。对于TPT1 mRNA(NM_003295.1),基于Nanom6A的DRS读数在687、694和703个修饰位点也与SCARLET呈现一致的结果。基于SCARLET方法,ACTB mRNA(NM_001101.5)和BSG mRNA(NM_198591.1)具有三个已知的m6A修饰,该方法支持这些修饰位点并与SCARLET结果一致(图2e,f)。值得注意的是,基于Nanom6A,DRS数据显示了在ACTB的1216位点和BSG的1335位点为两个高修饰率位点的。因此,研究者选择了这些m6A修饰位点,以进行野生型和METTL3组合(shMETTL3)的定性比较,发现使用Nanom6A,野生型和shMETTL3中ACTB在1216位的修饰率分别为61.6%和33.1%(图2e);在野生型和shMETTL3中,BSG转录物在1335位点的修饰率分别为60%和47%(图2f)。已发布的MeRIP-Seq数据集也报告了类似的下降趋势,这进一步验证了基于Nanom6A的结果。
研究者进一步将本方法与拟南芥DRS数据的几种公开方法进行了比较,发现用Nanom6A方法鉴定的3770个m6A位点与使用EpiNano或miCLIP检测到的修饰重叠(图3a)。尤其是Nanom6A报告了用miCLIP检测到1667个m6A修饰位点,而EpiNano未检测到这些位点(图3a)。对于AGACT,GGACA,GGACC和GGACT基序,研究者用Nanom6A方法检测到的大约40%m6A位点与MINES或EpiNano重叠(图3b),而进一步比较前人文献中17,491个微分错误位点(DES),发现其中包括总共4936个具有RRACH基序的位点,约有66%(3289/6936)来自文献的RRACH基序,Nanom6A也结果也类似(图3c)。与VIR互补系相比,使用DRS数据基于Nanom6A的m6A位点数量表明VIRILIZER(vir-1)突变体中m6A位点明显减少(图3c)。有趣的是,研究者发现VIR的消耗减少了终止密码子和3'UTR附近m6A位点的富集(图3d)。该结果与先前报道的VIRMA功能一致,该功能介导终止密码子和3'UTR中的甲基化。
在vir-1中,基于Nanom6A预测的m6A位点修饰比例(图3e,f)也降低了,这与VIR(保守的m6A编写器复杂组件)的功能一致,进一步验证了研究者方法的可靠性。有趣的是,昼夜节律的调节剂CCA1在拟南芥中的mRNA中具有m6A修饰;Nanom6A也鉴定出该修饰位点,在vir-1突变体中m6A修饰位点的比例降低(图3g)。
图5 使用MeRIP-Seq和m6A-REF-seq / MAZTER-seq验证Nanom6A
a.概述MeRIP-Seq的流程图。b.MeRIP-Seq中的m6A分布跨转录本读段。c.箱形图显示了重叠的m6A位点和repeat2特异位点的读数覆盖率。d.通过MeRIP-Seq验证的m6A位点的百分比。e. m6A-REF-seq / MAZTER-seq的流程图。f.条形图显示了序列读取结束时ACA基序的百分比。g.跨转录本的ACA修饰位点的分布。h.通过m6A-REF-seq/ MAZTER-seq验证的m6A位点的百分比。
m6A-REF-seq或MAZTER-seq ACA基序中的m6A位点检测提供了单碱基分辨率,为了进一步验证Nanom6A的可靠性,研究者还进行了m6A-REF-seq验证基于直接RNA测序的方法。研究者首先按照先前的m6A-REF-seq文库构建方法在毛果杨中进行m6A-REF-seq;然后,使用IlluminaNova6000平台对m6A-REF-seq库进行测序(图5e)。研究者发现,在测序读段结束时,ACA基序的富集,以及来自Illumina末端修复模型的多于60%左右读段分别在ACA位点分别开始和终止(图5f)。研究者在测序读取末尾的ACA百分比结果与先前一致,表明m6A-REF-seq具有很高的可靠性,而从m6A-REF-seq结果得到的ACA基序中的m6A位点在终止密码子附近富集(图5g)。总体而言,m6A-REF-seq验证了基于Nanom6A80%的m6A位点(图5h)。
纳米孔DRS在检测poly(A)尾巴长度方面具有巨大优势,这在拟南芥体外转录的RNA 和GM12878细胞中已有报道。在这项研究中,研究者采用了用于天然RNA测序的标准文库制备方案,该方案保留了完整的poly(A)尾巴,以鉴定同工型特异性poly(A)尾巴长度。研究者在nanopolish 安装包(0.11.1)中用nanopolish-polya模块确定了poly(A)的尾长,他们发现P. trichocarpa mRNA的平均和中位数poly(A)长度分别为92 nt和82 nt(图6a)。基因表达与poly(A)尾巴长度在Populus中呈负相关(r=−0.26)(图6b)。总共有2421个备选的聚腺苷酸化基因,包括近端和远端poly(A)位点,这些位点显示poly(A)长度发生了两倍变化(图6c)。研究者的DRS数据表明,该次生壁生物合成基因包括两个具有不同poly(A)长度的聚腺苷酸化位点(图6d),具有远端聚腺苷酸化的转录物比近端转录物具有更长的poly(A)。这项分析提供了替代聚腺苷酸的初步poly(A)尾长,以表明poly(A)尾在降解和翻译中的潜在调控作用。
本文方法的优点是研究者可以从原始的纳米孔DRS数据中量化m6A,因此,研究者的方法根据修饰的和未修饰的转录本计算每个m6A位点的比率,可以在单碱基分辨率下检测每个转录物的m6A位点,纳米孔DRS可以识别远端和近端poly(A)位置,从DRS分析得到的Poly(A)位点相邻24 nt之内会被分为一个poly(A)群。先前的研究表明,受损的m6A甲基化酶复合物可以改变poly(A)位点的使用。在所有经过m6A修饰的基因中,研究者发现使用3152个替代性聚腺苷酸化(APA)的基因,而且,这项研究中的方法可以区分m6A和非m6A转录本。基于甲基化/非甲基化DRS转录本的甲基化比率的分布显示,转录本具有远端或近端poly(A),修饰百分比不同(图6e),例如,来自Potri.019G083300的具有远端poly(A)的转录本比邻近的poly(A)转录本具有更少的m6A位点(图6f)。这项研究提供了初步数据,以进一步研究m6A修饰的同工型与替代的聚腺苷酸化。
结论
最近,纳米孔直接RNA测序被用于检测RNA中的碱基修饰信号,这已由EpiNano和MINES 研究得到,然而,EpiNano无法将m6A与其他类型的RNA修饰区分开,例如m1A,因为该方法基于碱基质量和缺失频率来预测m6A位点。
MINES仅在某些序列上下文(AGACT,GGACA,GGACC和GGACT)中检测到m6A位点。在这项研究中,研究者开发了Nanom6A,这是一种用于以单碱基分辨率鉴定m6A修饰的新方法,以克服使用基于XGBoost模型的Nanopore直接RNA读数的现有局限性,与以前使用SVM 或随机森林的方法不同。重要的是,这与已发布的DRS数据方法不同,可以通过研究者的Nanom6A方法对m6A位点的数量进行量化,因为该方法可以在转录本分辨率下提供m6A修饰。为了验证基于Nanopore RNA直接测序的方法,研究者使用了MeRIP-Seq和m6A-REF-seq,这表明Nanom6A可以在检测m6A的定性和定量分析中实现高精度。使用此方法,研究者以基于转录物的分辨率提供了SDX中m6A修饰的转录组范围的鉴定和定量,并揭示了不同的APA用量显示了不同的m6A比例。研究者的方法大大扩展了纳米孔直接RNA测序在探索m6A调控机制中的应用。