Nature communications | 多样本同时分析法可提高转录本组装的准确性
编译:月中霜,编辑:十九、江舜尧。
原创微文,欢迎转发转载。
美国巴尔的摩的约翰·霍普金斯大学麦克库克-纳森基因医学研究所Liliana Florea团队于2019年11月1日在Nature子刊Nature communications上发表标题为《A multi-sample approach increases the accuracyof transcript assembly》的文章,该研究提出了一种PsiCLASS转录本组装方法,该组装方法十分高效且克服了现有方法的局限性,在少量到几百个样本的数据集上均显示出明显更高的准确性,尤其在精确度方面,从而为RNA-seq数据分析提供了一种有效的方法。
文章摘要
来自RNA-seq测序数据的转录本组装是研究基因表达和后续功能分析的关键步骤。本文所提出的PsiCLASS是一种基于同时分析多个RNA-seq测序数据样本的方法而开发出的一种精确有效的转录本组装方式。混合统计模型可用于跨多个样本的外显子特征选择,PsiCLASS将这种混合统计模型与基于剪接图的动态编程算法和用于转录本选择的加权投票方案相结合。PsiCLASS更好的实现了灵敏度与精确度的平衡,并且可以提供比目前存在的两种最佳方法——StringTie系统和Scallop plus TACO高2-3倍的精确度。PsiCLASS同时具备高效性和可扩展性,可以在9小时内组装667个GEUVADIS样本,并且在处理大量样本时具有稳定的准确性。
文中重要图片说明
图1 针对模拟数据和真实数据的不同方法性能评估:a 25个模拟的RNA-seq 数据集,所有基因;b 25个模拟数据集,按照丰度分组的基因;c 25个GEUVADIS样本(聚腺苷酸化RNA);d 73个肝脏RNA-seq样本(去除rRNA的总RNA);e 44个来源于健康小鼠和癫痫小鼠的大脑海马区样本;f 数量分别为1、2、3、5、10、20、40、80、160和320的子集,以及667个GEUVADIS样本的完整集合。在a,b–e中,以方框图的形式分别展示了单样本水平下PsiCLASS, StringTie和 Scallop三种组装方法下的敏感度(召回率)和精度值,以彩色的形状分别表示通过PsiCLASS,ST-合并和TACO聚集所产生的元注解。
表1 以少量模拟数据样本验证不同方法的性能
表2 以少量真实数据样本验证不同方法的性能