基因预后预测数据库

在进行肿瘤相关研究的时候,如果有这个肿瘤的随访时间和随访的结局,往往都可以进行预后分析。通过预后分析来了解某一个分组(治疗方式,基因突变,基因表达高低)是否影响肿瘤患者的预后。那么如果在基因研究的时候,能够预测我们这个基因可以影响癌症的预后,那岂不是就说明我这个基因对于肿瘤而言很重要的嘛。由于随访数据很难获得,那有没有一个用来预测基因预后的数据库呢?

所以今天小编就来给大家介绍一个非常好用的在线分析生存预后的工具:Kaplan-Meier Plotter(https://kmplot.com/analysis/)。通过名字我们就可以知道,这个网站通过Kaplan-Meier来进行预后分析的。它可以对21种肿瘤(包括乳腺癌、卵巢癌、肺癌及胃癌)超过54000个基因(mRNA, miRNA, 蛋白,突变)进行生存分析。其数据主要来源于GEO、EGA和TCGA。在介绍网站的使用之前,我们先简单地介绍一下Kaplan Meier的分析过程以便大家更好地理解这个分析方法。

Kaplan-Meier

关于Kaplan-Meier具体的算法过程,具体的我们不做过多的介绍(小编其实也不清楚。。。)。主要还是想说的是这个算法的主要的分析过程的注意事项。

对于预后分析而言,目前常用的还是两种分析方法,一种是COX回归,另外一种也就是Kaplan-Meier。对于COX回归而言,这个我们可以分析连续性变量和分类变量和预后的关系。而对于Kaplan-Meier而言。这个变量只能分析分类变量和预后的关系。所以如果我们拿到的是一个连续性变量,例如基因的表达量,我们首先第一步要基于一个cut off值来把这个变量变成分类变量(高低表达),然后才能进行Kaplan-Meier分析。因此对于一个连续性变量怎么进行分组就比较重要了。有时候分组不好还是影响预后分析的结果的。目前来说的,主要还是有三种连续性变量的分组方式。

中位值

中位值的分组方式是最常见的分组方式了,我们基于某一个基因表达的中位值来平均的把基因表达数据分成高低表达来进行分析。

最佳区分

这种方式有一个专业性的词汇叫做:最大选择秩统计量。简单来说的话,由于连续性的变量是可以进行排序的,我们在排序之后,基于每一个现有的数值来进行高低表达划分。例如下图,我们有四个变量,分别为:1、1.5、2、2.5。如果按照每一个数值排序的值进行分组的话,那就可以获得三种分组。基于这三组我们分别做Kaplan-Meier分析,然后看哪个结果更好。然后就选择哪种分组。

PS:在上面我们可以看到,其实中位值的分组也在里面,其实通过这个方法也可以把中位值是否也是结果最好包括在里面的。对于最佳区分法而言,容易造成某一个分组样本特别少的时候结果有意义,这样的话,结果偏倚就比较大了。所以在进行最佳区分的时候,最好设置一个最小分组是多少。

三分法比较

以上两种方法,都是基于整个表达数据而言的。即使使用最佳区分,有时候分组之间的表达差异其实也没那么大,这个时候我们所谓的高低表达也不是很准确的。所以为了解决这种问题,就有了三分法的分组方法。这种分组方法把数据基于大小分成三分(低高中表达),然后取低表达和高表达组来进行预后分析。这样的分析方法,相当于去掉了中间的表达量,让表达有一个明显的区分,进而看表达是否影响基因的预后。

以上就是关于Kaplan-Meier分析的几个要点。下面来介绍一下这个网站的使用吧。

数据库使用

根据官网地址,打开后主页面如下:

根据上图我们可以发现,该网站的数据类型包括芯片数据、高通量测序数据,涉及mRNA、miRNA、蛋白和DNA,并且在不断丰富之中。

PS: 其中,在DNA方面这个数据库分析的是某一个基因的突变对于预后的影响。由于突变也就分成有没有这样的类型,所以不涉及到我们上面讲到的数据分组的问题。其他的由于都是连续性变量,所以都会涉及到数据分组的文章。

至于具体如何操作使用,很简单。首先我们要有目的基因,明确分析的癌症类型。比如这里我们想探讨基因TP53在胃癌患者中的生存情况。可以发现,在mRNA RNA-seq当中的pan是有胃癌预后数据库的(基于TCGA)。同时在mRNA 芯片当中也是有数据的。这里我们利用gene chip数据进行生存分析。我们可以直接点击下图中红色方框位置或在搜索栏内进行点击胃癌。

填写正确的基因名称(这里为TP53)或者提供芯片的探针ID(芯片数据、探针ID和基因对应关系可从网页Download中下载),选择生存分析类型(OS、FP、PPS等)、随访时间、具体的病人分组标准等。具体不清楚的地方可以将鼠标置于

处,会自动弹出该项目的具体含义。

点击"Draw"进行分析。

分析的结果主要包括两个方面,一个是数据集的信息。

另外一个则是这个基因预后分析的,生存曲线图。

上文提到亚组生存分析,其实主要是选择将要分析的数据类型,例如针对性别、分期、分型等进行分析。比如这里我们想要看一下男性胃癌患者中TP53的生存状况。输入目的基因后,性别选择男性,点击绘图按钮。

结果如下所示:

除了单基因的分析,如果我们有多个目的基因时,不可能一个个来输入,该网站可以一次分析多个基因的预后,且可以分析基因间的相关性。点击主页面的use multiple genes。

经过分析,就可以一下子得到多个基因各自的生存曲线图了。

数据库使用场景

以上就是Kaplan-Meier这个数据库的主要使用方法了。主要使用场景还是在在肿瘤方面基因相关研究的时候,如果想要查看基因的表达/突变是否影响预后,就可以使用这个数据库的。

(0)

相关推荐