【生信笔记】如何避免基因名称被Excel自动转换?

在进行生信分析时我们会发现,将测序数据用Microsoft Excel打开后,部分基因名会自动转换为日期或浮点

例如,将下表中第一列的数据导入Excel后,将自动转换为第二列的内容:

一旦导入Excel后,这种转换是不可逆的,也就是说无法通过将单元格格式设置为文本格式修复。

2016年发表于Genome Biology上的一项研究显示,补充材料里包含Excel格式基因名的文献中,约有20%出现了这种错误的转换。

那应该如何避免这种错误呢?
这里,向大家介绍一款软件:Escape Excel,其可以支持Windows版本的Excel插件、Mac版本的软件以及命令行操作。为方便多数人操作,我们仅介绍插件/软件使用方法,如需学习命令行操作,请查看原文地址:https://github.com/pstew/escape_excel。
1. Windows
如果你使用的是Windows版本,可以直接在 Windows 上下载并运行 setupEscapeExcel.exe 以安装插件并使用。下载地址为:https://github.com/pstew/escape_excel/blob/master/release/2017-06-28/EscapeExcelAddin/setupEscapeExcel.exe。
1. Mac系统
下载压缩文件:https://github.com/pstew/escape_excel/blob/master/release/2017-06-28/OSX%20application/Escape%20Excel.zip。
使用方法非常简单,解压缩提供的 zip 文件,最好保存至应用程序文件夹。将要转义的文件直接拖放到应用程序图标上,等待转换完成。
需要注意的是这种方法适用于旧版本的参考基因组,随着科学家修改了人类基因命名规则,这种方法的应用场景相信会逐渐减少。
参考资料:知乎用户小枫安
(0)

相关推荐