ENCODE数据库深入挖掘——发现增强子预测新方法
增强子是影响胚胎发育,癌症发生等重要的基因调控原件。相对于启动子固定位置,增强子在基因组的位置并不固定,相聚距离可以是几kb,也可以是几千kb。对样本进行histoneChIP-seq和DNase-seq/ATAC-seq测序,然后通过峰预测(Peakcalling)找到增强子的位置,这也是鉴定增强子的主要方法。而细胞系相对均一,组织的数据更为复杂。本工作就逐步探索如何通过ChIP-seq,DNase-seq数据更好预测样本中的增强子。
本文所用测序数据都是ENCODE公共数据。本工作选取了8种小鼠胚胎发育11.5天组织的5种histone ChIP-seq,DNase-seq和RNA-seq数据,其中包括了四种脑组织。增强子实验验证数据集是VISTA增强子数据库(https://enhancer.lbl.gov/)。
[ Q1 ] 用什么数据,什么算法可以更好预测增强子?
本工作中选择了10个算法对8个组织的5个ChIP-seq和DNase-seq进行峰预测。在此截取Figure1部分两个图,该图反应的是所有算法H3K27ac和DNase-seq数据会比其他类数据更好的预测性。以后肢(Limb)组织为例,在DNase-seq中DFilter算法和Hotspot2预测准确率更高,H3K27ac ChIP-seq中,有HOMER,MACS2等多个算法都表现较好。选择合适增强子的算法是是增强子准确预测的重要基础。
[ Q2 ] 是否要设定重复?如何处理重复数据?
ENCODE3数据库数据数据质量很高,所有数据均经过多重数据测试和后期人工校验,本工作所用的样本中设置了2组生物学重复Rep1、2。
上图是用不同算法处理DNase-seq数据后两个生物学重复结果的一致性,分别考虑了各个算法的top峰和所有峰的一致性。我们可以看到多个算法top1000生物学重复一致性不到50%,所有的峰一致性结果也很低,这意味着从两个生物学重复进行增强子预测,结果相差会很大。如果对结果取交集会使得峰结果很少,而并集后误差很大。
本工作采取了ENCODE3的uniform processing pipeline流程。该流程将两个生物学重复合并后(Rep0),然后随机分成两等份,称作伪重复(pseudo-replicates,pr)。最后选取的峰结果是合并数据集Rep0中同时和Rep1,Rep2有交集的峰或者同时和Rep0的两个人工伪重复有交集的峰预测数据集。理论上,该方法可以尽可能去除两个样本中无法重复的信息,也能通过伪重复保留尽量多一致的信息结果。该流程对峰预测和增强子预测结果影响有多大呢?
上图比较了经过峰预测统一流程前后峰的数量情况,生物学重复不稳定的算法在统一流程后(红色线)相对于两个生物学和合并重复样本(绿色,蓝色和紫色)得到的峰数量大幅减少,并且峰预测能力都有着有效的提升(未展示)。
[ Q3 ] 通过峰预测算法对两个生物学重复得到Enhancer candidates后,
如何准确对峰重新排序更好预测增强子?
过去的工作有研究组发现差异H3K27ac信号同增强子活性呈高度正相关。而本工作首先对不同小鼠组织的DNase-seq和H3K27ac ChIP-seq数据进行差异信号分析,然后以每个组织中测序信号的差异程度定义组织的差别,比如DNase-seq数据所有峰中信号差异越大,那么两个组织的差别也越大。
下来,对所有组织的数据,同其他组织分别进行差异分析,按每个峰的差别程度对峰重新排序。如上图,本工作通过PCA对多个样本数据降维进行可视化,如图,相似的脑组织距离较近,而同其他组织差别较大。同不同的组织作差异分析后预测增强子能力差别很大,并且同差别越大的组织进行差异分析结果预测增强子能力越强。线性拟合后组织的差异程度同增强子预测能力呈高度正相关。
PR-AUC曲线描述了每个峰结果排名从高到低的增强子预测的准确率。其中实线是差异分析重新排序后的峰增强子预测结果,虚线是峰预测算法本身的峰。从图中可以发现,差异分析后的峰PR曲线远远高于原始峰,尤其是排名较高的峰(横坐标Recall值)较小时,预测准确率(纵坐标Precision值)从约25%提升至50%-75%。在ENCODE更大的数据集上,对所有组织信号取权重差异能够进一步提升增强子预测,并且对其他技术得到的增强子也能有很好的预测提升。具体不在此展开。
欢迎ChIP-seq,DNase-seq/ATAC-seq和增强子研究的同行交流和引用。
Wechat ID: adamtongji
Shaliu Fu, Qin Wang,Jill E Moore, Michael J Purcaro, Henry E Pratt, Kaili Fan, Cuihua Gu, CizhongJiang, Ruixin Zhu, Anshul Kundaje, Aiping Lu, Zhiping Weng(2018); Differentialanalysis of chromatin accessibility and histone modifications for predicting mousedevelopmental enhancers, Nucleic Acids Research