庚子鼠年春单细胞直播潮观后
男,
一个长大了才会遇到的帅哥,
稳健,潇洒,大方,靠谱。
一段生信缘,一棵技能树,
一枚大型测序工厂的螺丝钉,
一个随机森林中提灯觅食的津门旅客。
序言
庚子鼠年伊春,一场突如其来的新冠疫情牵动着全国人民的心。月末在2020年1月底,科技服务行业开始安排一些“停课不停学”的线上培训课程。一则,这个行业的培训本来是常态,一般是春秋各一季;一则,企业在疫情下复工,许多工作需要远程办理。所以线上课成为首选。
因为我从事的是单细胞数据分析的这个行业,这段时间也听了几家机构的单细胞直播课,同时自己在厂内也做过《单细胞转录组标准分析与个性化》的直播。既然是行业大规模的网络直播,这波直播之后应该会在某种程度上形成共识(common sense)。其实在这波直播过程中也反映出技术、科研、市场的规律。
单细胞 VS 显微镜
有情怀的机构一般会讲讲单细胞的历史。这段历史其实要比北大汤富酬2009年的那篇文章提到的技术长久的多,不过2009年之前的单细胞技术通量比较低,比如一次只能分析几个细胞。早期的单细胞分析一般借助显微镜来人工分选,后来有了流式细胞仪,通量一直在增加,直到现在借助Drop-seq的高通量技术(单个样本一般捕获3000-5000个细胞)。
高通量单细胞技术的成熟,其实给细胞生物学带来了新的视角,这一点就像显微镜或者望远镜一样,它让我们有机会在新的层次上来理解、揭示生命现象。
单细胞能做什么呢?单个细胞及其相互关系将在物理的、化学的、生物的规律将得以揭示。狭义的生命科学上基因组、转录组、蛋白组、代谢组也会因为新工具的引入而带来更多的可能。
单细胞测序(scRNA-seq)通关||数据处理必知必会(https://www.jianshu.com/p/8cee8bd4ad6f)
国内这方面的科技服务,其实聚集在两方面:转化与创新。转化方面主要是转化国外的技术,比如10X的技术(硬的和软的技术);创新主要是服务模式> 软件能力> 硬件能力。比如有的直播直接拿上游企业的产品宣传视频来播放,大部分都会讲到10X的技术,seurat的分析工具,只有极少的机构能做硬件的创新,一部分能够开发一些算法。
我家单细胞初长成
有一些对新技术追得比较紧的生命科学机构,手上基本有单细胞数据了。情怀牌打过之后就是比较骨感的现实了:手里拿着一个或多个单细胞数据,该如何挖掘呢?其实经过2019年广泛的商业化,单细胞技术的三座大山:
样本制备
建库测序
数据分析
前两座大山已经完成它的商业化了,至少在单细胞转录组是这样的。这当然使得单细胞的研究团队能够更加地专注于从现象到数据,从数据到知识的过程,也为专心科研的团队更轻松地获得单细胞数据。
在数据分析方面其实工具也已经有雏形了,包括空间转录组数据分析。所以我们看到不少将单细胞数据分析的课程,号称代码完全公开,其实公开的不过是Seurat、monocle、scanpy的官方文档。在2019年的时候,大部分单细胞数据分析的软件都进行了升级,但是大的套路没变。在2019年底的时候一篇综述,总结出单细胞转录组最佳实践,提出了几点注意事项也开放了最佳实践的代码。
单细胞RNA-seq数据分析最佳实践(上)
单细胞RNA-seq数据分析最佳实践(中)
单细胞RNA-seq数据分析最佳实践(下)
数据分析主要集中在细胞层面和基因层面:
所以,单细胞数据分析大套路这一块只要能沉下心来,跟着工具的文档,探索自己数据完全是没有问题的。得益于以生信技能树为主的线上社群的努力,生物信息不再是一个缺少代码的行业。比如:7个小时的单细胞转录组视频课程(限时免费),其实单细胞分析的框架已经十分清晰了:
step1: 创建对象
step2: 质量控制
step3: 表达量的标准化和归一化
step4: 去除干扰因素(多个样本整合)
step5: 判断重要的基因
step6: 多种降维算法
step7: 可视化降维结果
step8: 多种聚类算法
step9: 聚类后找每个细胞亚群的标志基因
step10: 继续分类
就我个人的体会来讲,单细胞应用方向主要的是在揭示异质性。但是目前用的主要是非监督聚类的方法,这一步尽管是数据分析的核心,同时也是最需要谨慎的地方。不同的算法导致不同的分群,然后再找亚群之间的差异基因也会不同,再基于差异基因去定义细胞类型。其实在没有生物学背景的情况下,这一套流程是很难走得通的。
虽然已经有很多软件和算法来解决单细胞数据分析中的难点,但是目前还是面临着两个主要的问题:
多样本整合
细胞类型鉴定
关于多样本分析我建议区分批次效应与样本整合这两个概念,前者的目的是为了去除数据噪音,后者基于的假设是:相同的细胞类型不应因不同来源而不同。
细胞类型鉴定的方法基本上是在2019年成熟起来的。主要有三种方法:
1.Marker gene:看某个亚群的差异基因(one to others)与数据库中哪种细胞类型的 marker gene比较一致,结合其表达量来鉴定细胞类型。常见marker gene数据库有:CellMarker、Mouse Cell Atlas、 cd_marker_handbook、PanglaoDB 等,也可以在文献中收集感兴趣细胞类型的marker gene。
2.表达谱相似性:用未知细胞类型的表达谱与已知细胞类型的表达谱做相关性分析,相关性高即鉴定为这类细胞。如R包:SingleR、celaref
3.统计模型构建分类器:我们用已知细胞类型的表达谱作为训练集来构建分类器,输入表达谱对我们的细胞来分类和鉴定。如R 语言程序包:Garnett
其实每个细胞都是独一无二的,在鉴定细胞类型的时候,除了结合聚类的结果还可以和拟时分析、富集分析以及生物背景综合来判断。
虽然以后单细胞除了DNA、RNA可能还会有蛋白质、表观,在分辨率上会有空间、细胞内(间)的数据技术出现,每一项技术出现都需要和具体的生物学问题结合起来。
不断壮大的单细胞天地
大部分的直播课都是经过微信公众号来宣传的,而运营这些公众号使我们明白:单细胞每天都有新闻。
在微信公众号、知乎、B站、简书上面关于单细胞的论文、教程也正反映这个领域在当下所处的生长阶段。直播过后,热闹是他们的,希望我们能有看直播之前的那种热情,去比学赶帮。
看到才能想到、想到才能做到,做到才能得到,得到才能失去,失去才能知道适不适合自己。