GEO的数据注释文件没有基因名肿么破?
写在前面
我们在处理GEO芯片数据的时候,经常会碰到芯片的数据的注释文件没有提供基因名,只有基因的序列。替代的解决办法就是对所有的注释数据来进行批量的blast,利用注释文件提供的序列来通过blast获得具体的基因是什么。但是如果要进行大批量的blast的话,基本上就需要代码行来运行,而这样的操作就需要门槛了。所以今天给大家介绍一种简陋版的批量blast的方法,算是解决一些编程基础的同学的难题吧!
这一次我们使用GSE114083来进行演示。这个数据集是一个关于胃癌的lncRNA的芯片数据。
我们点开这个数据库的注释文件,就会发现,这个注释文件只有基因序列是没有基因名的,这个我们在利用GEO2R进行差异表达分析的时候,得到的数据也就是没有基因名的。这个时候如果我又很想使用这个数据集的话。那就只能对这个表格当中的序列进行注释了。
简陋版的基本原理还是主要还是利用NCBI里面的BLAST网站来进行分析的 (https://blast.ncbi.nlm.nih.gov/Blast.cgi)。由于做的是核酸的BLAST,所以我们在这里需要选择核酸比对。
在核酸比对的网页当中,有一个提供上传文件的选项。在这里上传的是一个fasta的格式的文件,所以我们需要利用数据集的序列来构建一个fasta的序列。
那怎么才能批量的构建这些序列的fasta的文件呢?这里我面提供一个excel函数操作的例子吧。当然大家有更好的方法同样可以使用。
4.这样我们就得到了一列是符合fa数据格式的列了。我们复制这一列的数据,然后把它粘贴到txt文件里面。
5.最后把txt的文件改成fa后缀即可。
以上就是基本的blast过程了。我面只需要等一会儿就可以得到所有blast的结果了。在结果当中,我面只需要在下载当中下载csv文件即可。
下载下来的结果是这个样子的,我们可以看到数据的第一列是探针的ID,第二列则是比对的选择的提geneid。
以上就是简单的批量blast的基本过程了。这种基本上也就是适用于少量的序列blast。比如差异表达分析完之后的那些可以试一下,网页版的还是如果序列过多可能会很慢,所以如果序列过多的话还是建议用代码哦。