PanglaoDB数据库:细胞分群注释marker数据库

# 背景介绍

单细胞相关的研究数据常常以原始数据的形式存储,由于需要使用复杂的计算流程进行数据处理,生物研究人员很难访问这种格式的数据。虽然目前已经有一些数据库收集、管理和整合scRNA-seq数据和生物信息工作流到易于访问的平台,例如scRNASeqDB和SCPortalen,但是没有一个数据库可提供预计算的生物信息分析和从用户角度进行高级可视化。而PanglaoDB数据库,可以通过基于web的接口来探索scRNA seq数据,就显得十分重要了。

PanglaoDB数据库和功能概述

PanglaoDB数据库,这是2019年年初发布的一个单细胞转录组数据库包含了超过1000个单细胞实验的预处理和预计算分析,涵盖了大多数主要的单细胞平台和分析流程,基于来自各种组织和器官的超过400万个细胞。它包含了6000多个marker基因,可用于细胞分群注释的marker数据库,数据主要源于已经公开发表的单细胞转录组数据。

PanglaoDB数据库收录一览

PanglaoDB可以让用户查询和探索细胞类型、遗传途径和调控网络。它是由瑞典和美国的研究人员共同开发的,致力于探索人类和小鼠的单细胞转录组数据,该数据库的优点是适合零基础的人使用、探索和挖掘,无论你是做人类研究还是小鼠研究,都能用的到。

PanglaoDB

https://panglaodb.se/index.html

PanglaoDB主页

一起来看看PanglaoDB能做什么吧。

01

Search

――查看某基因在细胞的表达情况

以输入CD4基因为例,并根据需要选择物种(人或小鼠)、是否包括肿瘤组织以及未成熟组织,(本次选择Mouse、Include non-adult and non-primary samples (embryo, fetal, post-natal development, cell lines)),点击“Search”,呈现结果如下:

基因在那些细胞亚群中的表达情况

可见,在“T memory cells”亚群中表达的次数最多,这个网站使用表达使用的定义是:如果在一个“cluster”(细胞类型)中基因的中位数>0,就认为这个基因在这个细胞类型中有表达,所以有表达并不一定说明在这个细胞亚群中表达量高。

这个表格详细说明了CD4基因有表达的”的组织来源和细胞亚群,”Rank”代表这个基因表达量在这个亚群中的排名。点击图标中的透视表小图标,会出现聚类图。采用的是单细胞测序最常用的展示方法:t-SNE。这个图是一个交互式的图片。点击图中的细胞群,就会出现相对于该群的介绍,包括特征标志基因,表达的转录因子等。

02

Datasets

--想看某个感兴趣的组织都有哪些细胞亚群

添加限制条件:物种、测序平台或表头顺序,得到搜索列表。

点击“view”可查看数据集的基本信息和该数据集的细胞聚类图,使用t-SNE/UMAP进行降维可视化,不同颜色代表不同的簇。

--查看某个细胞亚群的标志性marker

点击“Datasets”,选择“Cell type markers”,选择你感兴趣的细胞类型之后就可以获得一个标志基因列表,绿色的行就代表着该亚群最经典的标志基因,大家可以用这些基因对该亚群进行鉴定,具体如下:

数据也可以下载,用户可在Bulk data download页面批量下载数据。

03

Tools

用户还可以使用部署在数据库上的alona工具进行自有数据的分析。

单细胞测序技术是近几年来非常热门的话题。通过外部单细胞数据进行自身数据的验证也是今后单细胞数据分析的一个重要趋势。这一领域目前也是如火如荼的开展着针对各类疾病的研究,如果能够掌握PanglaoDB数据库,出结果写论文也会相对顺利,今天就介绍到这里啦。

(0)

相关推荐

  • 单细胞测序揭示皮肤伤口中成纤维细胞的异质性

    不知不觉在单细胞转录组领域做知识分析也快两年了,很幸运聚集了五个小伙伴携手共进,我们承诺不间断更新5个月,把我们这两年的学习成果全部掏出来给大家,包括5个栏目: 文献速递(简短介绍,扩充知识面) 文献 ...

  • 细胞亚群为什么一定要有清晰可见的界限

    太多小伙伴在各种交流群问到他自己的单细胞转录组数据在降维聚类分群的时候,发现很多生物学亚群会出现一定程度的交叉,导致结果并不是那么理想.可能是因为大家入门的时候都是跟着seurat的标准流程:http ...

  • 你以为纯粹的单细胞(系)至少也有3个亚群

    考虑到咱们生信技能树粉丝对单细胞数据挖掘的需求,我开通了一个专栏<100个单细胞转录组数据降维聚类分群图表复现>,也亲自示范了几个,不过自己带娃,读博,时间精力有限,所以把剩余的90多个任 ...

  • 大样本量多分组表达量矩阵分析你难道没想到单细胞吗

    前面我们演示了:泛癌分析时候的大样本量多分组建议选择tSNE而不是PCA,整合全部的33种癌症的仅仅是蛋白质编码基因的表达量矩阵,进行降维聚类分群可以看到并不是严格的各个癌症泾渭分明. 其中很明显乳腺 ...

  • ENCORE 单细胞聚类新算法

    文章信息 文献标题:Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq dat ...

  • 单细胞转录组数据处理之细胞亚群注释

    前面我们一起学习到了单细胞转录组数据的降维聚类分群,基本上跑的都是标准代码,里面很多细节参数是需要自己慢慢摸索的.保证单细胞转录组表达矩阵质量ok啦,而且需要去除了各种混杂因素. 因为参数需要自己摸索 ...

  • 疾病相关单细胞数据库

    对于对于测序而言,单细胞测序算是很火的一个测序技术了.简单来说单细胞测序技术的,就是对每一个细胞来进行测序.相较于之前的RNA-seq而言,我们其实是对某一块组织所有的RNA进行检测,由于一块组织里面 ...

  • 到底是批次效应还是真实生物学差异

    因为10X仪器的商业化成功,目前大家的单细胞转录组课题基本上都是10X数据,所以我在单细胞天地分享了一系列相关教程,希望可以接地气的帮助大家,如下: 我的课题只有一个10x样本肿么办? 两个样品的10 ...

  • 单细胞转录组数据处理之降维聚类分群

    前面我们一起学习了单细胞转录组数据的上游分析,而且了解了自己的项目的样本数量和测序量,还过滤了不合格的细胞和基因, 系列教程目录如下: 01. 上游分析流程 02.课题多少个样品,测序数据量如何 03 ...

  • ADAR1基因敲除前后肿瘤免疫微环境单细胞水平变化

    在单细胞大行其道的近两年,我也安排了学徒们做了几百个有表达量矩阵可以下载的单细胞转录组文献图表复现,挑选其中100个成功的案例,提供代码给大家,希望对大家有帮助! 100个单细胞转录组图表复现 今天要 ...

  • 单细胞工具箱|Seurat官网标准流程

    学习单细胞转录组肯定先来一遍Seurat官网的标准流程. 数据来源于Peripheral Blood Mononuclear Cells (PBMC),共2700个单细胞, Illumina Next ...

  • 细胞死亡新模式

    铁死亡是一种依赖铁的调节细胞死亡的新模式.细胞因内部脂质活性氧物质的有毒积累而死亡.它与多种人类疾病(例如癌症和退化性疾病)紧密相关.铁死亡过程很复杂,由多种代谢物和生物分子组成.尽管目前对铁死亡的研 ...

  • 单细胞转录组聚类后的细胞类群如何查找数据库来定义

    不知不觉在单细胞转录组领域做知识分析也快两年了,很幸运聚集了五个小伙伴携手共进,我们承诺不间断更新5个月,把我们这两年的学习成果全部掏出来给大家,包括5个栏目: 文献速递(简短介绍,扩充知识面) 文献 ...

  • 根据感兴趣基因看肝癌免疫微环境的T细胞亚群差异

    在单细胞水平探究肝癌免疫微环境研究最早而且出名的就是北大张泽明教授团队发表在Cell. 2017 Jun 的文章:Landscape of Infiltrating T Cells in Liver ...

  • 什么时候细胞周期的分类作用大于细胞类型呢

    众所周知,在肿瘤单细胞数据里面,对恶性细胞来说,病人的分类作用是远大于细胞类型的,不过其实肿瘤恶性细胞也说不出什么确切的细胞类型,目前仅仅是根据TCGA的bulk转录组数据进行分子分型.但是对免疫细胞 ...

  • 什么,基因只剩下了三分之一?

    上周的<单细胞图表复现100篇>栏目,我们分享了2个NSCLC的文献,这周六我们应该是要分享4个ccRCC的文献,PPT已经制作完毕!感兴趣的可以推荐下面的会议,准时参加!(会议密码是:1 ...

  • 肿瘤样品的单细胞需要提取上皮细胞继续细分

    单细胞图谱时代早就过去了,不再是随便选取一个物种,一种组织或者一种疾病,挑选几个样品做单细胞,简单的说明清楚其单细胞亚群组成比例和生物学意义就足够的时机了.但是图谱既然是被做烂了的思路,就应该是有系统 ...

  • 单细胞测序数据库

    转自医科研 我就是用这个神器来挖单细胞测序数据的!作者:白介素2关于单细胞测序这个热点我们已经有很多文章介绍过了,这里就不再赘述了.目前,单细胞测序相对来讲还是属于比较昂贵的技术,没钱做不起怎么办?此 ...