GEO的数据注释文件没有基因名肿么破?

写在前面

我们在处理GEO芯片数据的时候,经常会碰到芯片的数据的注释文件没有提供基因名,只有基因的序列。替代的解决办法就是对所有的注释数据来进行批量的blast,利用注释文件提供的序列来通过blast获得具体的基因是什么。但是如果要进行大批量的blast的话,基本上就需要代码行来运行,而这样的操作就需要门槛了。所以今天给大家介绍一种简陋版的批量blast的方法,算是解决一些编程基础的同学的难题吧!

实例数据集介绍

这一次我们使用GSE114083来进行演示。这个数据集是一个关于胃癌的lncRNA的芯片数据。

我们点开这个数据库的注释文件,就会发现,这个注释文件只有基因序列是没有基因名的,这个我们在利用GEO2R进行差异表达分析的时候,得到的数据也就是没有基因名的。这个时候如果我又很想使用这个数据集的话。那就只能对这个表格当中的序列进行注释了。

基本操作

简陋版的基本原理还是主要还是利用NCBI里面的BLAST网站来进行分析的 (https://blast.ncbi.nlm.nih.gov/Blast.cgi)。由于做的是核酸的BLAST,所以我们在这里需要选择核酸比对。

在核酸比对的网页当中,有一个提供上传文件的选项。在这里上传的是一个fasta的格式的文件,所以我们需要利用数据集的序列来构建一个fasta的序列。

那怎么才能批量的构建这些序列的fasta的文件呢?这里我面提供一个excel函数操作的例子吧。当然大家有更好的方法同样可以使用。

1.我们需要把数据集的探针ID和序列提取处理放到excel当中。
2.由于fa的文件对于序列的注释是有通过>来进行,所以我们首先需要对芯片ID添加>。这里我们可以在两列之间添加一个空白列,然后输入:=">"&A1

3.fa的格式需要第一行是>的注释,下面一行是序列的文件。所以我们需要把注释信息和后面序列合并到一起。这个时候我们可以在后面的空白处输入:=OFFSET(B$1,INT((ROW(A1)-1)/2),MOD(ROW(A1)-1,2))

4.这样我们就得到了一列是符合fa数据格式的列了。我们复制这一列的数据,然后把它粘贴到txt文件里面。

5.最后把txt的文件改成fa后缀即可。

6.有了fasta文件就可欢快的去blast。
结果处理

以上就是基本的blast过程了。我面只需要等一会儿就可以得到所有blast的结果了。在结果当中,我面只需要在下载当中下载csv文件即可。

下载下来的结果是这个样子的,我们可以看到数据的第一列是探针的ID,第二列则是比对的选择的提geneid。

这个时候需要去除掉geneid小数点和后面的数字就可以进行ID转换了。具体ID转换的工具可以见我们的第二条推送。
写在后面

以上就是简单的批量blast的基本过程了。这种基本上也就是适用于少量的序列blast。比如差异表达分析完之后的那些可以试一下,网页版的还是如果序列过多可能会很慢,所以如果序列过多的话还是建议用代码哦。

(0)

相关推荐