Network在单细胞转录组数据分析中的应用
男,
一个长大了才会遇到的帅哥,
稳健,潇洒,大方,靠谱。
一段生信缘,一棵技能树,
一枚大型测序工厂的螺丝钉,
一个随机森林中提灯觅食的津门旅客。
面向单细胞的技术革命,让我们得以进入新的研究层面,但也对传统的分析方法提出了一系列的挑战。单细胞技术正在弥补分子生物学和组织生物学之间的鸿沟,进入高通量时代以来,这项技术所揭示的不是单一元素的信息,而是在单细胞层面揭示某种系统关系:DNA,RNA,ATAC等。我们知道,在系统中,关键要素除了来自元素本身(基因,转录本等生物小分子)之外,还来自元素之间的关系。虽然作为领域起源的社会网络分析可以追溯到20世纪30年代,图论可以上溯几个世纪,但网络科学的迅速崛起与普及只是近几十年的事情。目前,基因调控网络,生物代谢与信号转导网络,蛋白质互作网络作为基本的生物分子网络(Biological molecular network )已经在生物信息分析中得到广泛的应用。
在一般的生物信息分析中,生物分子网络只是作为一个多元关系的可视化工具。随着生物模型的发展,网络已经作为一种数据结构,其可视化和特征化,对网络的拓扑采样、建模与推断以及网络上的静态和动态过程进行建模和预测等已经成为一个新的有力的生物信息挖掘工具。
那么,什么是网络?
网络
上来就是一个直观的fig, 如文章所言:
Single-cell transcriptional networks in SR, ECP, MCP, Gata1-ERT, and Pu.1-ERT compartments were inferred by combined use of OR and Spearman rank correlation
. Solid red lines, positive associations; dashed black lines, negative associations. Node size is proportional to the relative connectivity in each network.
当描述系统中元素及其相互连接的概念时,网(network)是一种自然的选择,然而在有的场合下人们却用图(graph)来表示。这里我们不去深究二者的区别,而是用网络图这样的概念糊弄过去。为了保持流畅性,我把Gephi网络图极简教程(https://www.jianshu.com/p/86145943695a)中的概念部分,如下:
图是一种数据结构
图结构:是研究数据元素之间的多对多的关系。在这种结构中,任意两个元素之间可能存在关系。即结点之间的关系可以是任意的,图中任意元素之间都可能相关。
基于图论(Graph theory)的网络科学认为,任何非连续事物之间的关系都可以用网络来表示,通过将互联网内的电脑、社会关系中的个人、生物的基因等不同属性的实体抽象为节点(Node),并用连接(Link)来展示实体之间的关系,通过量化以节点和连接为组件的网络结构指数(Index),从而能够在统一的框架下寻找复杂系统的共性。
网络关系图(network analysis)是一款比较火的分析,最近频繁出现在单细胞研究的各大论文里。其实单纯看网络关系的话,只是一种数据分析的手段,很早就应用在其他领域。到了2006年,Oliver Mason and Mark Verwoerd在文章Graph Theory and Networks in Biology 中将图论的基本概念联系到生物学的概念中,阶段性总结了生物分子网络在生物学中的应用。目前网络分析正在为我们揭示更多的生命科学机理:
在单细胞转录组数据分析中常见的有基因调控网络,生物代谢与信号转导网络,蛋白质互作网络,细胞相互作用网络,此类网络可以采用R中igraph包、Python 中的Networkx构建并实现出图。当然,除此之外,还有一些非命令行的软件,例如cytoscape,gephi,pajek,graphviz(dot),Ucinet等。
一个分析细胞信息的cytoscape插件:CerebralWeb: a Cytoscape.js plug-in to visualizenetworks stratified by subcellular localization
在开启生物分子网络之前我们有必要了解关于网络的基本概念:
图相关的概念和术语
节点与边
无向图和有向图
Co-occurrence网络图与 相关性网络图 (两个矩阵的相关性)
权:图中的边或弧上有附加的数量信息,这种可反映边或弧的某种特征的数据成为权。
网:图上的边或弧带权则称为网。可分为有向网和无向网。
度:在无向图中,与顶点v关联的边的条数成为顶点v的度。有向图中,则以顶点v为弧尾的弧的条数成为顶点v的出度,以顶点v为弧头的弧的条数成为顶点v的入度,而顶点v的度=出度+入度。图中各点度数之和是边(或弧)的条数的2倍。
图的度量
节点数(Nodes):节点的个数。
边数(Edges):边或连接的个数。
平均度(Average degree):表示每个节点连接边的平均数,如果络图是无向图,平均度的计算为 2*edges/nodes。
平均路径长度(Average network distance):任意两个节点之间的距离的平均值。反映网络中各个节点间的分离程度。值越小代表网络中节点的连接度越大。
模块化指数(Modularity index):衡量了网络图结构的模块化程度。一般>0.44 就说明该网络图达到了一定的模块化程度 。
聚类系数(Clustering coefficient):和平均路径长度一起,能够展示所谓的
小世界
效应,从而给出一些节点聚类或抱团的总体迹象。网络的小世界特性指网络节点的平均路径小。网络直径(Diameter):网络图直径最大测量长度,即任意两点都有 1 个最短距离,这些最短距离之中的最大值即为该网络图直径。
生物分子网络
上面这些都只是网络的描述性指标,我们总体上知道网络是由节点和连线构成的,而
节点有大小、形状,颜色 连线有粗细、长短、方向、颜色等属性
这些属性赋予生物学意义,也就是是构建网络的过程。有了网络我们可以基于网络结构分析其中的节点关系模块、标度连接性等。常见的生物分子网络有:
基因调控网络:
20世纪90年代开发的微阵列技术为检测基因表达提供了有力工具,其中最重要的染色质免疫共沉淀技术(ChIP)成为研究基因调控的手段。我们知道基因的表达不是孤立的,而是相互调节的。自那以后,人们为基因转录调控建立了数据库如:TRANSFAC/RegulonDB等,通过基因调控数据我们可以构建基因调控网络,调控网络中的边可以分为正调控和负调控。
Gene regulatory networks of NF- k B, p53, mir21 and mir34ac in the HNSCC metastatic tissues. A, a network of hypopharyngeal cancer. B, a network of oral cancer. Every node represents a common target gene of NF- k B, p53, mir21 or mir34ac, and was annotated to inflammatory and immune responses (green nodes), apoptosis (blue), angiogenesis (yellow), proliferation (red), adhesion (gold), proteolysis (light red) and other processes (light blue). The networks were presented by cytoscape. doi:10.1371/journal.pone.0073656.g004
蛋白质互作网络
在网络图中反映蛋白质相互作用,构建蛋白互作网络。比较有名的数据库要说String(https://string-db.org)线分析蛋白相互作用数据库,我们在STRINGdb分析单细胞亚群蛋白相互作用网络(https://www.jianshu.com/p/55401f5fd4f3)介绍过用单细胞数据构建蛋白互作网络。
代谢网络和信号转导
我们发现围绕中心法则都可以应用network。这得益于我们已经建设好的数据库,如这里的代谢数据库的KEGG,细胞间通讯的CellchatDB等。基于KEGG我们就某个通路构建代谢网络,也可以用测得的数据来重构。基于CellchatDB数据库我们可以构建细胞相互作用网络(配受体背后是信号转导信息):
生物分子网络的特点:
网络分析是一种数学上的分析方法,应用到生物学中,人们发现大部分生物网络呈现出模块化、无标度、局部高连通性以及层次化的性质。
单细胞转录组应用network
在单细胞转录组数据分析中我们知道主要有两条分析路径,可以说均可以利用network来反映信息,其实已在用了:
细胞层面
在细胞聚类的时候我们知道有Louvain 算法,用的就是在PC空间中构建网络结构后最大化模块度来实现细胞的聚类。在文章细胞异质性||Louvain 算法概述(https://www.jianshu.com/p/ea4140dc72a3)我们简要介绍这个算法以及聚类与细胞异质性的联系。
另一个就是上文提到的细胞间相互作用。借助配受体数据库来推断细胞群之间的相互作用,构建细胞通讯网络。这一块我们介绍过cellchat,cellphonedb。
基因层面
基于表达量数据主要是共表达网络,这方面我们知道WGCNA几乎做到了极致,如我们在文章单细胞转录组WGCNA到底应该怎么做?(https://www.jianshu.com/p/d2991fa79a3e)中做了一些探讨,并用单细胞数据跑了WGCNA的一般流程。
借助数据库可以构建的网络就很多了,比如赫赫有名的单细胞高级分析必备良品:SCENIC,在2017和2020两次登上:
SCENIC借助的基因调控信息有:
Auxiliary datasetsTo successfully use this pipeline you also need auxilliary datasets:
Databases ranking the whole genome of your species of interest based on regulatory features (i.e. transcription factors). Ranking databases are typically stored in the feather(https://github.com/wesm/feather) format and can be downloaded from cisTargetDBs(https://resources.aertslab.org/cistarget/). Motif annotation database providing the missing link between an enriched motif and the transcription factor that binds this motif. This pipeline needs a TSV text file where every line represents a particular annotation.
目前也有单细胞调控网路在线版的分析数据库GRNdb:(http://www.grndb.com/)是一个免费的人类和小鼠数据库,旨在方便搜索和分析转录因子(TFs)和下游靶基因(称为调控子)在各种组织/条件下形成的调控网络。是华东师范大学生命科学学院生物信息学与计算生物学中心构建的,其内部也用到SCENIC。
在我们拿到基因集之后,也可以通过和KEGG或者GO这样的数据来构建基因与相应通路的network。这里我们可以看到,有了表达量数据我们可以从不同数据库中挖掘信息,如单细胞数据挖掘||DOSE:疾病本体论语义相似分析(https://www.jianshu.com/p/4dc5585d2f83)讲基因集与疾病信息联系在一起。基因集富集分析结果用network来展示也是比较常见的:
Gene set enrichment analysis delineates gene ontology (GO) that differentiates between B- and T-ALL with respect to biological processes. Gene set enrichment analysis (GSEA) comparing B-ALL (red) and T-ALL (blue) in ALL dataset, illustrating differentiation of gene ontology (biological processes) between two subgroups (5% FDR, p = 0.05). Cytoscape and enrichment map were used for visualization of the GSEA results; only gene sets from MSigDB C5 (gene ontology) were used. Nodes represent enriched GO gene sets, whose size reflects the total number of genes in that gene set. Edge thickness (green line) represents the number of overlapping genes between gene sets calculated using Jaccard coefficient. Single nodes and 2-node interactions for both B- and T-ALL, a 5 node-interaction for B-ALL, and interaction between a large number of nodes for T-ALL are shown.
高通量的生物学检测技术产生了大量的信息资源,充实了各种生物学数据库。单细胞转录组作为一种表达谱数据,可以应用表达量和基因信息构建基因调控网络、基因共表达网络、代谢网络(pathway)已经细胞间通讯网络。目前在单细胞转录组数据分析中,network不仅作为一种可视化展示多元关系,也作为一种数学模型来指导细胞分群。图是一种数据结构,我们相信数据可以启发新知,network在以后的多元数据分析中也会得到广泛的应用。
本文是在读李霞老师《生物信息学》教材(https://www.jianshu.com/p/d6ad29f4bafd)之后想到的,其实本文不过是赶个单细胞的时髦。在李老师的教材中,生物分子网络作为单独的一章介绍的很详细。当然,十年来生物数据库和网络算法都有所发展,为我们挖掘数据提供了数据和算法(资源与手段)。
除了正文的链接,本文还参考了:
http://www.grndb.com/
https://academic.oup.com/nar/article/47/11/e62/5377474
https://www.nature.com/articles/s41467-020-16019-9
https://www.cell.com/cell-reports/fulltext/S2211-1247(19)30525-X
https://www.sciencedirect.com/science/article/pii/S2211124715005288
聊聊中药网络药理学的发文思路(https://zhuanlan.zhihu.com/p/166001283)
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5575496/
常用生物学网络有哪些(https://www.zhihu.com/question/358022655)
Network biology: understanding the cell's functional organization(https://www.nature.com/articles/nrg1272)
https://www.innatedb.ca/redirect.do?go=aboutIDB
网络数据的统计分析:R语言实践
生物信息学,李霞等
CerebralWeb: a Cytoscape.js plug-in to visualizenetworks stratified by subcellular localization
基因调控网络 (Gene Regulatory Network) 01(https://www.cnblogs.com/pear-linzhu/p/12313951.html)
蛋白质互作网络分析总结(https://zhuanlan.zhihu.com/p/148789132)
https://pyscenic.readthedocs.io/en/latest/
Dose and Time Dependencies in Stress Pathway Responses during Chemical Exposure: Novel Insights from Gene Regulatory Networks
Integrated Analysis of Gene Network in Childhood Leukemia from Microarray and Pathway Databases(https://www.researchgate.net/publication/262267687_Integrated_Analysis_of_Gene_Network_in_Childhood_Leukemia_from_Microarray_and_Pathway_Databases)