航母级基因功能预测数据库
在基于高通量测序的进行基因功能预测的是时候,我们经常需要寻找符合我们研究疾病的数据集。拿肿瘤而言,最常见的的还是 TCGA 数据库。但是一个数据集进行基因功能预测的时候,有可能在后续的实验的时候就会产生数据分析得到的结果可能和我们实验验证的不一样。这个时候最直接的方法就可以使用多个数据集来进行预测,这样得到的结果就相对来说也就比较稳定了。那么如何要寻找其他数据集呢?所以进行就给大家介绍一个收录了巨多数据集用来分析基因功能分析数据库:R2: Genomics Analysis and Visualization Platform (https://hgserver1.amc.nl/cgi-bin/r2/main.cgi)
背景数据集介绍
在这个数据库当中,纳入了 1630 个在线数据集的数据。其中大多数来自于 GEO 数据库。另外也包括类似 CCLE 以及 TCGA 这样的数据集。
在收录的这些数据集当中,包括了多个物种以及不同组学的数据集。
至于这个数据库能干啥。那就特别多了,基于这个数据库的功能。有一个很长的介绍。具体可见:https://r2-tutorials.readthedocs.io/en/latest/
至于如何操作的话,基本上都差不多。这里就用两个基因相关分析来简单介绍一些数据库的使用。
基因相关分析
在 R2 当中首先需要选择是在一个数据集内进行分析还是在多个数据集内进行分析。
1. 单一数据集分析
在选择 单一数据集之后 就需要选择自己想要分析的数据集。例如。我们想要分析某一个胃的数据,可以进行关键词筛选。同时点击具体的数据集,
在选择好想要分析的数据集之后。就需要选择想要进行分析的功能。由于我们要分析两个基因之间的相关性。所以就选择Correlate 2 Genes 即可。
由图中也可以看出这个数据库我们进行好多的分析。
点击Next 之后 就可以输入想要分析的基因了。比如我们这里想要分析TP53和PDCD1的关系。就可以输入想要分析的基因即可。
另外每一个数据集相对应的临床数据。作者也整理到数据库了。比如我们选择的这个就有 STAGE, 年龄等相关的数据。如果想要进行亚组的分析,比如在STAGE 1当中进行观察,可以继续选择相对应的亚组即可。
最后选择想要绘图的参数即可。
在相关分析的结果部分,首先是通过一个散点图来可视化两个基因的相关性的
再往下的是,由于芯片数据的话,可能一个基因有多个探针,我们分析的其实是一个探针的相关。下面也会显示其他探针之间可能的相关性。
2. 多数据集分析
以上是单一数据集分析的过程。而在多数据集分析当中,则可以观察,两个基因在不同数据集当中的相关性。
虽然是多数据集分析,但是不同的芯片,对于基因探针的命名是不一样的,所以还是要首先选择芯片类型
然后选择想要分析的基因和数据集
最后点击下一步,就可以得到不同数据集内,两者的相关性情况了。
可以看到,在HCV感染的CD8+ T细胞当中,两者存在很强的负相关。那是否就可以在HCV当中研究这两者的关系呢?
总的来说
以上就是R2这个数据库的基本功能介绍了。只是简单的介绍了一下两个基因相关的基本操作。其实数据库能做的事情还是很多的。