Nature通讯:基于先验知识的网络推断
导语
关联网络(correlation network)常常被用于提取生物组学中的相互作用,但其连边选择通常基于统计显著性,可能无法有效捕捉到生物学机制。
近日Nature communications上刊载了德国慕尼黑亥姆霍兹中心多位学者的论文“一种利用先验知识选择关系网络截断的策略”。文章指出,先验知识可以有效地辅助关联网络重构。甚至当先验知识粗糙、有缺失、有错误时,该方法仍然有效。
论文题目: A strategy to incorporate prior knowledge into correlation network cutoff selection 论文地址: https://www.nature.com/articles/s41467-020-18675-3
在网络推断(network inference)风潮下,利用大数据重构生物网络,已经成为生命科学领域的研究热点。例如从生物组学大数据中提取出生物分子之间的相互作用,进而预测未知的生物反应机制。
1.传统方法与先验知识辅助方法
典型的网络推断工作流程,首先是根据预处理的数据,估计变量之间的关系,形成相关矩阵。然后根据假设检验来判断哪些相关关系是显著的。最后把显著的相关关系构建成网络(network representation),其中节点是数据集中的变量,连边代表相关关系。
图1:网络推断工作流
传统方法需要利用假设检验来确定哪些相关系数在统计上是显著的,该检验会产生与每个相关系数相关的p值,并与给定的显著性水平阈值进行对比。只有当相关系数统计显著时,才认为其对应连边存在。这样的网络推断过程虽然简单,却有明显缺陷,以至于降低网络推断的鲁棒性和可重复性。首先,样本量的增大,会明显影响统计结果,例如样本量越大则网络越稠密。其次,不同的检验方法有不同的基本假设,可能会得到完全不同的网络。这些网络尽管在统计学上没问题,却未必能有效表示潜在的生物机制。
图2:基于先验知识的网络推断工作流
为了更好地判断相关系数的显著条件,即产生连边的阈值,从而提升网络推断质量,研究者引入了先验知识。研究者首先利用先验知识,将已知的一定存在关联的节点进行连接,构建了参考网络(reference network)。然后,在对比不同阈值下的(推断的)网络与利用先验知识构建的辅助(参考)网络之间的重叠程度后,选择重叠度最好的情况作为网络推断结果。重叠度由真阳性(同时出现在关联网络与参考网络)、假阳性(只在关联网络有)、真阴性、假阴性按 Fisher 精确检验方法计算。从关联网络中,搜索出与参考网络重叠程度最大的网络,并截取该网络,即为最优网络(optimal network)。
图3:两种重构方法工作流与效果对比
2.在具体网络中验证
为了验证这一方法的可靠性,研究者在多种生物数据集上进行了实验。由于IgG糖组学已经被很好地描述,便于检验,所以研究者首先用它来测试网络推断方法的有效性。
图4:免疫球蛋白G(IgG)聚糖结构的合成路径
以往研究已经较为清楚IgG糖基化的路径,如图4所示,节点代表聚糖结构,有向连边代表合成过程中的单个酶促反应。
图5:IgG重构网络与参考网络重叠度的Fisher检验
利用该网络作为先验知识对具体网络进行重构,结果如图5。纵轴表示不同阈值下的Fisher检验的p值,该指标反映了被重构网络与参考网络的重叠程度。关联网络与生物学参考网络产生最大重叠时,称为最优截断(optimal cutoff)。实线的颜色代表了不同的相关系数确定方法。本文使用了三种相关性分析的方法,Pearson相关性(粉色),精确的部分相关性(partial correlation,称为parcor,紫色)和基于GeneNet算法的部分相关性。图中的虚线则代表在原始数据矩阵上,利用GeneNet算法,以不同显著性衡量标准给出的截断(cutoff),即阈值。显然,Pearson与parcor方法的效果并不好,而使用参考网络最优截断得到的最优的GeneNet网络非常接近GeneNet网络最优的统计截断点(虚线FDR=0.05)。
图6:不同大小的样本下的最优截断
为了评估先验知识方法获得的最优网络,是否取决于样本大小,研究者对部分样本的网络进行优化。结果如图所示,即使样本量不足200,仍然可以获得跟大样本(669个)相同的最优网络。这意味着,无论样本数据集是大还是小,基于先验知识来得到的相关性的最优截断,都可以推断出相同的最优网络。该方法受样本量规模的影响远远小于传统统计方法。
3.先验知识质量不同,网络推断结果依旧
现实生活中很难获得准确且完备的先验知识——因为很难彻底了解许多生物调控系统的分子网络,所以仍要用有限的先验知识去解决问题。研究者假设,只要已知足够多正确的生物学知识,即使这些知识粗糙、不完整,或者有部分错误,该方法也能适用。研究者进一步分析了在不同程度的连边缺失、连边出错以及信息模糊情况下的该方法的重构效果。
图7 先验知识质量不佳时的重构结果
研究者从IgG糖基化途径中,选择一定比例(从10%到90%不等)的边,随机构建网络;还虚构了不同数量的错误连边,构建网络。但如图7a、7b所示,尽管先验知识不足,或有部分错误,但最优截断点却几乎不受影响。研究者还将参考网络进行不同程度的粗粒化,如图7c所示,发现最优截断点仍然很接近,截断的网络是相似的。可以发现,在先验知识质量较低时,该方法依然可以给出较为准确的截断。之后,研究者还进一步证明了该方法推广到代谢组学和转录组学数据中,均有较好的结果。
4.前景
以往的网络推断方法都需要定义一个关键参数阈值p,由它决定哪些分子间相互作用应该包含在网络中,哪些应该舍弃。关联网络的推断常常依赖于p的取值。这项研究则提出了一种利用先验知识辅助确定关联网络阈值的截断或取值的网络推断/网络重构方法,并且证明其在生物领域具有广泛的适用性。
图8:先验知识质量不佳,仍可以推断出最优网络该方法在先验知识不完整、错误或仅提供较模糊的节点分类的情况下都可以较好地推测最优网络结构,未来可能成为一个有价值的工具,在难以实验证实的情况下推断潜在的生物相互作用。