富集算法那么多,用哪个好呢?
在之前进行富集分析介绍的时候,我们提到过关于富集分析是什么,以及富集分析的算法主要有哪些。在这么多的算法在进行富集分析的时候,就会让我们产生这样的疑问,那么多算法当中到底哪个更好呢?我在做完富集分析之后,应该信哪个算法的结果的?所以今天就给大家介绍一个可以同时对多个数据集进行多种算法同时分析的数据库: CPA(https://bioinformatics.cse.unr.edu/software/cpa/)
数据库内置数据/算法
对于富集分析的数据库而言。不同的富集分析数据库之间的区别主要还是富集分析的算法以及使用的背景富集数据库的区别。
在CPA当中的背景数据集当中,主要使用的是,KEGG以及GO数据库。同时也支持自定义: GMT文件。
而在分析的算法当中,这个数据库支持了GSEA, ORA, PADOG, FGSEA, GSA, KS-test, Wilcox-test以及Impact Anaylysis这几个算法。
数据库使用
在这个数据库当中,我们可以通过CONSENSUS PATHWAY ANALYSIS来进行富集分析。
1. 数据导入
在CPA当中,和固定的算法输入相同。主要支持三种输入方式:
基因表格的形式:里面包括基因名以及基因差异分析得到的fold change两个部分
基因名
原始的基因表达数据。
另外在这个数据库当中,还支持直接上传GEO的数据。我们ke y在DATA MANAGER当中数据GSE号来提取相关的表达数据。
在每一个新开始的分析当中,我们可以首先选择想要输入的数据。然后在选择对应的数据。这里我们选择多种算法进行共同分析的基因表达数据输入。
在这个里面,我们需要选择输入的表达数据以及选择表达数据的分组。
表达数据输入完之后,我们就可以看到具体的表达数据了。同时在下面还可以看到一个对于每个样本进行t-sne降唯分析的图形。
2. 富集分析
在数据导入进来之后,再往下就需要选择想要分析的背景数据库了。在这个,我们首先需要选择想要分析的物种,然后在选择是分析KEGG数据库还是GO数据库,
在选择了背景数据库之后,需要选择相对应的算法。这里提供了八种算法的比较。我们可以把这些算法全部选择。
选择好之后,点击Start analysis就可以进行分析了。
结果展示
对于富集分析的结果首先是通过表达的形式来进行展示的。在表格当中,可以看到每个算法分析的不同通路的P值。这样就知道了不同的算法的结果了。
进一步,点击Visualize pathways就可以看到差异结果的可视化网络图了。
总的来说
以上就是这个数据库的基本用法了。在这个数据库当中,主要是可以一次性的分析多种算法的结果。这样方便我们找到稳定有意义的通路。