Cell BLAST:scRNA序列数据查询和注释工具

作为细胞异质性研究的重要工具,单细胞转录组测序技术近年来蓬勃发展,积累了大量研究数据。Cell BLAST是一个自带高质量参考数据库的scRNA-seq数据检索/注释工具。这个网站由北京大学的研究团队研发,今年7月份相关论文发布在在《Nature Communications》:基于深度学习模型的scRNA-seq数据检索和注释的新方法Cell BLAST,以及具备高质量注释的scRNA-seq参考数据库ACA。这一数据库为有效利用现有数据进行细胞注释和跨数据集研究提供了新的工具和资源。

Cell BLAST使用的生成模型的结构

Cell BLAST

https://cblast.gao-lab.org/

Cell BLAST的优点:

克服批次效应:

Cell BLAST使用对抗自编码器进行转录组数据降维,利用对抗学习策略来消除数据集间的批次效应。

自带高质量注释参考库:ACA

Animal Cell Atlas (ACA) 是一个涵盖2,989,582个单细胞、8个物种、27个不同的组织器官的数据库对ACA中的细胞注释进行了详细的整理,并使用Cell Ontology构建了一套结构化的细胞类型标注,用于统一不同数据集中的标注以及支持细胞类型的推断。

Cell BLAST工作流程

Cell BLAST能做什么?

细胞类型鉴定、发现新细胞类型、注释连续细胞状态……全不在话下,Cell BLAST使用过程如下:

1.将基因ID或将单细胞表达矩阵文件拖放到输入栏中(本次以SGIP1为例),点击运行后会有进度条,根据需要选择cellby gene or gene by cell。

有进度条提示

2.呈现的结果:文件名为segerstolpe_disease_gc.tsv.gz,文件类型是application / gzip,档案大小是655.38 KB,单元数是50,基因数量是21882。

按照指示点击确认后,可看到按物种、器官等筛选ACA的参考面板如下(选择与查询数据匹配的物种),下面黄色框框是输入邮箱地址,用户可以自主选择留不留邮箱,对查询结果无影响。

点击BLAST后可以看到结果,在该参考文献要求的769个基因中,在查询数据中找不到11个基因,并将它们设置为全零。表格如下,点击可以下载。

网站还有ACA参考面板,展示了数据集名称、生物、器官、平台、细胞数量、出版物等信息。

最后,这个网站也是刚运行不久,比较新。但网站也提供了高级玩家所使用的的Python软件包Cell BLAST:https://github.com/gao-lab/Cell_ BLAST

用户可以使用软件包在自定义的参考数据集上进行模型训练、检索和定制化分析,设计得很周到。

(0)

相关推荐