生信软件系列 - NCBI使用
做生物研究的对NCBI都不陌生,网站资源、软件丰富,也在不停地迭代更新,越来越容易使用。本文是较早时用于内部培训的资料,最近翻出来看下,还是有一些有意思的点在里面,故分享出来,供大家评阅。
内容主要涉及Gene
版块 (基因的注释信息、基因组的位置、不同物种表达、基因相互作用、包含这个基因的文献等), Protein
版块 (蛋白功能域信息), Genome
版块 (基因组序列、注释文件的获取), GEO
版块(公共数据的下载), Map viewer
(目标基因在基因组的定位信息,基因序列、内含子、外显子排列,遗传图谱,EST,SNP等),BLAST
(BLAST序列查找使用,smartBlast
帮你在特别多的结果中选出最合适的).
NCBI有着最丰富的基因组信息,基因组序列、转录本序列、蛋白序列、GFF文件等都可以在此下载。从ENSEMBL下载对应信息见 NGS基础 - 参考基因组和基因注释文件
染色体的组装和注释介绍
NCBI核苷酸数据库展示的格式就是GeneBank里面数据的组织模式,各部分的注释如图中红色字体的标注。
NCBI页面右侧侧边栏提供了一些简单实用的工具,获取部分区域的序列。公众号傻瓜系列也有类似的介绍文章 生信宝典之傻瓜式 (一) 如何提取指定位置的基因组序列
NCBI Gene页可以做为整体了解一个基因的功能、表达、已有研究的初始页面。页面分为很多版块,从头到尾阅读完之后,对这个基因的研究可以认识到30%-50%。
全局搜索和分门别类的搜索为模糊查询和按组查询提供了很大的方便。如果您手上有数据,也想做出类似的查询网站,欢迎联系我们。
基因页概览
基因组浏览器可以加载很多Track,显示不同层面的基因信息包括表达、表观调控等。更多基因组浏览器的介绍见 本地安装UCSC基因组浏览器 测序数据可视化 (二)- IGV 测序数据可视化 (四)- Epigenomebrowser
所有包含这个基因的文献和文献中包含这个基因的句子,一目十行也就是十篇文献,对快速了解基因的研究很有帮助。
基因基因、蛋白蛋白之间的互作网络,数据主要来源于BioGrid,STRING,IntAct等,是一个很好的整合版块。
基因、mRNA和蛋白的互导。
蛋白功能域信息的展示和包含特定功能域的蛋白的搜索。根据功能域搜索,可以获得更多的不同进化层次的蛋白序列;比用蛋白全长搜索有可能获取更多新的目的基因。
GEO和SRA是NCBI上存储芯片和测序数据的2个中药版块,下面展示了如何在这些地方下载数据。
NCBI map viewer对于不编程获得基因的有用信息提供了较大便利。
BLAST已成了序列比对的代名词,蛋白-蛋白,核酸-核酸,蛋白-核酸之间互比。PSI-blast
和smartBlast
是两个有意义但关注不多的程序。PSI-blast
是迭代搜索,即搜索结果出来后会作为查询序列进行再次搜索,除了考虑序列信息还考虑到序列的保守性信息,适合查找远端同源序列。著名的CAS9
家族蛋白和NgAgo
家族蛋白 (虽然这个的功能还存在争议) 都是这个方式发现的。
BLAST输出结果多而乱是个头疼的问题,可以试试SmartBlast
,是不是一下就可以给出你想要的结果。