核心基因筛选:基于EXCEL
对于核心基因筛选的方法有很多的,如果是使用专门的插件的工具的话,那cytoscape里面会有很多相关计算degree的软件可以使用。但是如果只是想要寻找核心基因的话,并不想对于网络进行优化和自定义的话,其实excel也是可以办到的。这次就给大家介绍一下如果使用excel来计算node的degree吧!如果不了解node和edge的可以点击这里→相互作用网络分析基础.
数据讲解
要进行数据统计之前,首先还是要对我们手头的数据进行一下了解。我们通过STRING数据库下载下来tsv的数据。打开是这样的。
如果只是来计算degree的话,我们需要的其实就只是前两列:
两列的数据代表其相互作用关系,同处于一行的代表这两个基因存在相互作用关系。例如IGF2-IGFBP2就存在相互作用关系。如果在网络图上反应的话就是这样的。
核心基因筛选
对于degree的理解之前也说过,是代表一个node和另外node的连接次数。所以我们需要做的就是,计算所有唯一的基因出现的次数即可。基本步骤就是准备两列数据,一列是所有的数据,另外一个是唯一基因的数据。
1. 合并两列的数据
由于对于基因的连接是两列,我们需要统计两列的基因的出现次数。所以需要提前把两列合并成一列。
2. 形成唯一基因的一列
形成唯一基因列的话,要么我们可以使用我们之前输入STRING的基因数据当作唯一基因列;要么把合并的列去掉重复值即可。这里我们就去掉重复值的方法。
1)复制合并的那一列粘贴到另外一列上。
2)选中C列,选择数据—去掉重复值。就可以去掉重复值了。注意一定要提前选择要去掉重复值的那一列,不然的话就默认的是整个工作目录。
统计基因出现的次数
通过以上操作,我们就有两列数据了,一列是所有基因出现的次数,另外一列是唯一的基因列表。我们需要做的就是使用countif
函数来统计每一个基因出现的次数即可。
这个函数接受两个参数,一个是我们想要计数的区域,另外一个就是我们想要查找的基因。那么具体的操作就是:
这样,我们就得到基因的degree了。基于这个基因的degree我们来筛选核心基因即可了。
筛选标准
在得到基因的degree之后的筛选方面,其实没有一个明确的标准。这个都是基于自己的网络而言的,主要选择的两个方向还是
选择某一个cutoff值,把大于这个cutoff值的基因都当作核心基因。
按照degree排序,选择top n(5/10)的基因当作核心基因。
通过以上的步骤我们就可以利用EXCEL来筛选核心基因了。关于cytoscape,如果只是来筛选核心基因完全没必要用的,但是如果是想要对网络进行美化的话,那倒是可以使用的。至于如何使用,等以后有时间了来专门介绍这个软件的使用吧!这个软件的功能还是很很很很很强大的哦~