首个这种类型的单细胞数据库,你值得拥有
目前已有的单细胞数据库中,SCDevDB专注的是人不同发育通路的单细胞基因表达谱,JingleBells提供有关免疫相关数据集的scRNA-seq BAM文件,SCPortalen集成了单细胞宏数据,细胞图像和序列信息,但更侧重于scRNA-seq数据的技术特性,随着scRNA-seq在转录组分析中的广泛应用,虽然已经开发了多个与scRNA-seq相关的数据库,但是没有一个数据库完整收录病理病例与健康对照之间,病理病例中不同细胞类型之间以及病理程度不同的病例之间基因表达的差异。今天我们要介绍的SC2disease(http://easybioai.com/sc2disease/),就是这么一个手动管理的数据库,旨在为各种疾病的各种细胞类型提供全面而准确的基因表达谱资源。
SC2disease是基于scRNA-seq的与人类疾病相关的细胞类型特异性基因的第一个资源。
开发者重新分析了基因表达矩阵,以使特定疾病的细胞类型特异性基因具有可比性。
数据库还提供了GWAS和scRNA-seq的结果,方便研究人员探索基因发病机理。
该数据库手动收集了2020年3月之前各个publications中人类疾病中细胞类型特异性基因及其表达。这些publications通过搜索PubMed数据库“single cell sequencing”、“single cell sequencing disease”、“10×genomics”等关键词得到。随后提取其对应的人类疾病、实验组织、细胞类型、重要基因和表达情况,并进行复核。
在当前版本的SC2disease中收集了与25种疾病有关的341种细胞类型和29种组织中的基因表达。
SC2disease提供了一个tree浏览器和一个搜索引擎来查询不同疾病中细胞类型特异性基因的详细信息。
SC2disease中总共收录了946 481个条目。每个条目包含10个部分,用于描述基因与相关疾病之间的关系。这10个部分包括疾病名称,实验组织,细胞类型,基因名称,用于描述基因表达的变量名称(log2FC或均值),变量值,差异表达基因(DEG)比较,信息来源标识符,测序平台和详细信息。“details”部分包含有关细胞类型,疾病和基因的详细信息。“cell type”,描述了cell的功能。“disease”,给出了它的疾病本体(DO) ID、医学主题词(MeSH) ID和说明。“gene”,其详细信息包括基因符号、EntrezID、KEGG中涉及的通路、UniProt中相应编码蛋白的ID、在基因组中的位置、基因的全称。
“Disease”和“Cell Type”是SC2disease浏览器的根类别。“Disease”根类别中包括25种疾病,单击疾病名称可显示与感兴趣的疾病相关的细胞类型特异性基因的详细信息。研究人员还可以通过“search”功能来搜索他们感兴趣的疾病、基因或细胞类型。例如,如果单击感兴趣的疾病“ type 2 diabetes ”,则会检索到一系列细胞类型特异性基因,如图3B所示。如图3C所示,单击该基因的名称,将弹出该基因在NCBI中的链接。也可以点击“paper ID”,在原始文献中探索更详细的信息。
SC2diseases还为研究人员访问整个数据集提供了“download”功能。此外,开发了“submit”页面,为其他研究人员提供了一种方便的方式来上传未记录在SC2disease中的新数据。
除了上述功能之外,为了提高不同研究之间的可比性,开发者设计了统一的pipeline以重新分析每个研究的基因表达矩阵。用户可以在“analysis”界面中访问重新分析的数据。如图所示,用户可以在左侧对话框中通过疾病名称或基因符号搜索他们感兴趣的疾病或基因。
SC2disease还提供了从基于单细胞和GWAS的结果得出了疾病的易感基因。所有GWAS数据均从GWAS catalog中获得。下图显示了实现此功能的方法。以“type 2 diabetes ”为例,单击“Visualize’”将显示由scRNA-seq和GWAS检测到的易感基因列表。另外,可以通过单击“Visualize”以可视方式显示结果。在结果图中,x轴是GWAS结果中得到的该基因SNP的最小P值。y轴是从scRNA-seq结果中获得的一种疾病的重叠易感基因的细胞类型。条形图的颜色显示了基因表达对数的2倍变化。