核心基因筛选:基于EXCEL

昨天我们介绍了利用STRING数据库来进行蛋白相互作用预测(STRING:蛋白相互作用数据库的使用),但是我们只是获得了相互作用网络分析的数据以及可以使用的相关网络分析的图,对于核心基因的筛选还是没有涉及。今天就介绍一下如何来筛选核心基因吧!

对于核心基因筛选的方法有很多的,如果是使用专门的插件的工具的话,那cytoscape里面会有很多相关计算degree的软件可以使用。但是如果只是想要寻找核心基因的话,并不想对于网络进行优化和自定义的话,其实excel也是可以办到的。这次就给大家介绍一下如果使用excel来计算node的degree吧!如果不了解node和edge的可以点击这里→相互作用网络分析基础.

数据讲解

要进行数据统计之前,首先还是要对我们手头的数据进行一下了解。我们通过STRING数据库下载下来tsv的数据。打开是这样的。

如果只是来计算degree的话,我们需要的其实就只是前两列:

两列的数据代表其相互作用关系,同处于一行的代表这两个基因存在相互作用关系。例如IGF2-IGFBP2就存在相互作用关系。如果在网络图上反应的话就是这样的。

核心基因筛选

对于degree的理解之前也说过,是代表一个node和另外node的连接次数。所以我们需要做的就是,计算所有唯一的基因出现的次数即可。基本步骤就是准备两列数据,一列是所有的数据,另外一个是唯一基因的数据。

1. 合并两列的数据

由于对于基因的连接是两列,我们需要统计两列的基因的出现次数。所以需要提前把两列合并成一列。

2. 形成唯一基因的一列

形成唯一基因列的话,要么我们可以使用我们之前输入STRING的基因数据当作唯一基因列;要么把合并的列去掉重复值即可。这里我们就去掉重复值的方法。

1)复制合并的那一列粘贴到另外一列上。

2)选中C列,选择数据—去掉重复值。就可以去掉重复值了。注意一定要提前选择要去掉重复值的那一列,不然的话就默认的是整个工作目录。

统计基因出现的次数

通过以上操作,我们就有两列数据了,一列是所有基因出现的次数,另外一列是唯一的基因列表。我们需要做的就是使用countif函数来统计每一个基因出现的次数即可。

这个函数接受两个参数,一个是我们想要计数的区域,另外一个就是我们想要查找的基因。那么具体的操作就是:

这样,我们就得到基因的degree了。基于这个基因的degree我们来筛选核心基因即可了。

筛选标准

在得到基因的degree之后的筛选方面,其实没有一个明确的标准。这个都是基于自己的网络而言的,主要选择的两个方向还是

  1. 选择某一个cutoff值,把大于这个cutoff值的基因都当作核心基因。

  2. 按照degree排序,选择top n(5/10)的基因当作核心基因。

写在最后

通过以上的步骤我们就可以利用EXCEL来筛选核心基因了。关于cytoscape,如果只是来筛选核心基因完全没必要用的,但是如果是想要对网络进行美化的话,那倒是可以使用的。至于如何使用,等以后有时间了来专门介绍这个软件的使用吧!这个软件的功能还是很很很很很强大的哦~

看完如果觉得有所收获,点个“在看”再走~让大家一起学习哦~

(0)

相关推荐