小技巧 · 如何利用OMIM数据库获取肿瘤相关所有突变基因?
OMIM是人类孟德尔遗传数据库(线上版)(0nline Mendelian Inheritance in Man)的简称。这是一个持续更新的关于人类基因和遗传紊乱的数据库,主要着眼于遗传性的基因疾病,包括文本信息和相关参考信息、序列纪录、图谱和相关其他数据库(度娘有介绍,此处省略很多字)。
对于临床工作者,通过体现病人临床特征的关键词,可以从OMIM数据库中寻找最近的临床检测标准和发展趋势。在教学研究方面,OMIM可以迅速、简单地提供给学者们关于基因和遗传病方面最关键的信息和综评,并且实现表型到基因型的分析,而这些使联机医学检索系统(Medline)无法比拟的。当然,OMIM最具魅力之处是它能够提供给遗传学家关于基因序列、图谱、文献等其它数据库关于此类注释的详尽信息。下面就给大家示范下OMIM经常用到的搜索基因功能啦~~
Tips: 主要流程即是从OMIM数据库下载疾病数据,选择与肿瘤相关的疾病,并获取关联基因。
1 获取数据—从OMIM数据库下载疾病数据,获取关联基因
1.1.打开http://omim.org/,在上方工具栏“downloads”选项卡中选择“Register for Downloads”
1.2. 提交注册信息,数秒内内即可收到相关邮件。
1.3 在邮箱中打开FTP服务器地址,选择“morbidmap”文件,右键另存为保存.txt文件,原始数据获取完成。
打开后如下图(是不是不想看,我也不想看……):
2 处理数据
2.1.下载morbidmap数据集,使用excel打开(用Excel中Data菜单中的数据导入功能打开,注意分隔符是”|”,正确打开如下图所示(完美变身)),包括4列,可提供如下信息。
2.2. 过滤疾病名称(第一列),选择与肿瘤相关的疾病(可以使用excel的筛选功能),共有34条记录符合要求。
2.3.将筛选所得记录中的基因选中,拷贝到新的工作表中。利用“数据”选项卡中“分列”工具,分隔符号为“,”,将所有基因名称单独分散到单元格中。随后将其移动至A列中,再拷贝一列至B列,利用“数据”选项卡中“删除重复项”工具处理B列,即可观察与肿瘤疾病关联的致病基因共有78个。
2.4. 统计基因出现频率,在C1中输入函数COUNTIF,参数一为A列数据A1:A109,参数二为B1,相当于统计B1在A列出现的频率,随后填充B列即可统计全部。随后将BC两列拷贝到新工作表中,以B列为基准降序排序,观察各基因出现频率。其中出现两次的基因为:ADHR、HPDR2、PBT、PHPTC、FGF23、KIT,其余均只出现一次。
是不是超级简单,小伙伴们动手试起来呀,当然也可以搜索其它相关疾病,只要你需要,OMIM数据集都能搜得到!!