​cytoscape的十大插件之七CytoCluster

五一劳动节,连续五天,在钉钉群直播互动授课带领大家系统性掌握cytoscape软件的使用方法和技巧,课程已经结束啦。

下面是cytoscape讲师的笔记
  • 如今,生物网络的聚类分析已成为识别功能模块以及预测蛋白质复合物和网络生物标志物的最重要方法之一。CytoCluster这个插件功能十分强大,总共包含了六种算法:
    • HC-PIN (Hierarchical Clustering algorithm in Protein Interaction Networks)
    • OH-PIN (identifying Overlapping and Hierarchical modules in Protein Interaction Networks)
    • IPCA (Identifying Protein Complex Algorithm)
    • ClusterONE (Clustering with Overlapping Neighborhood Expansion)
    • DCU (Detecting Complexes based on Uncertain graph model)
    • IPC-MCE (Identifying Protein Complexes based on Maximal Complex Extension)
    • BinGO (the Biological networks Gene Ontology)
  • 用户可以根据其需求选择不同的聚类算法。这六种聚类算法的主要功能是检测蛋白质复合物或功能模块的。其中,BinGO 插件在前面推送也已介绍过了,是个专门做富集分析的。

今天,我们来介绍下 ClusterONE

一、基本原理

ClusterONE是由TamásNepusz,Haiyuan Yu和Alberto Paccanaro开发聚类算法,本质通过greedy strategy寻找high cohesiveness的模块。ClusterONE 算法一共有三步:

  • 第一步,该算法从特定的种子蛋白中建立高内聚力的组。最初,它选择高degree 的蛋白质作为第一种子,并使用greedy procedure来建立聚类模块。每当程序结束时,算法通过考虑之前没有被选择的蛋白质中高degree的作为下一种子,不断重复组成新的复合物。当没有蛋白质需要考虑时,整个程序终止。
  • 第二步,插件根据分数 pre-defined overlapping score,组成高度重叠的聚类模块
  • 第三步,输出不少于三种蛋白质或者密度大于阈值threshold ∂ (默认为0.8)的聚类模块

基本概念

  • 图中阴影部分为模块G。其中,阴影里的节点为 internal vertices,外面的为external vertices
  • 连接internal vertices边为internal edge(加粗线),连接external vertices边为external edge(虚线),连接internal vertices与external vertices的边为boundary edge(细黑线)

二、操作演示

1. 安装插件

  • 方法见前面推送

2. 载入数据

  • 以PPI网络为例

3. 分析过程

  • 参数调整
  • Basic parameters

    • Minimum size:最小节点数。所以过程中会筛选掉小于此阈值节点的模块
    • Minimum density:最小聚类模块密度。换句话来说是边的平均权重值
    • Edge weights:用于赋值边权重的属性。若没有具体属性,会默认每条边的权重为1
  • Advanced parameters

    当形成模块后,插件会尝试计算一个相似度,看是否能合并高度重叠的模块。如果数值大于阈值 Overlap threshold,证明两模块可合并。具体有四种方法能计算相似度Similarity,合并有两种方式 Merging method

    插件大概的工作原理是从“种子”开始逐渐形成模块,选取种子有三种方法

    在实际案例中,From unused nodes 和 From every node methods 相差不大,但前者会前者产生较少的冗余集群

    • From every node:每个节点代表种子
    • From unused nodes(默认) :节点通过权重由大到小排序(节点权重为其连接边的权重和)。每当发现模块时,模块里面的节点就不再是种子。下一个种子只能是那些还没用过,聚类成模块的节点
    • From every edge:每条边代表种子
    • Seeding method:
    • Keep initial seeds:不勾选(意味着一直保持原来种子)
    • Merging method:single-pass(高于Overlap threshold,两模块直接合并);multi-pass(合并Similarity最高的两个模块后,重新计算模块间Similarity)
    • Similarity:match coefficient(默认);Simpson coefficient;Jaccard similarity;Dice similarity
    • Overlap threshold:合并阈值
    • Node penalty:对应每个节点的惩罚项。它用来每个节点连接的可能性。若x大于节点的连接度,证明连接性弱,无法聚类成模块。默认值为2
    • Haircut threshold:默认0

一般Basic parameter 会根据实际情况调整,Advanced parameters没有特殊需求,一般按照默认设置。

4. 结果

  • 模块信息有两个窗口。左下方是被选中的单独模块。右方是全部生成的模块(p值排序)

放大可查看详细信息

  • Nodes:模块节点数
  • Density:密度。模块内权重和除以理论上边数
  • In-weight:模块内边权重和(internal edge)
  • Out-weight:模块外边权重和(boundary edge)
  • Quality:模块质量。In-weight除以(In-weight与Out-weight总和)
  • P-value:方法Mann-Whitney U test 求得显著性p值

提取模块

  • 之后可改变 layout 布局

保存

  • 注意:这里文件的后缀名需要写上
  • 保存的csv文件会有详细信息,不过Quality都是NA,可直接在excel中用weight求出

四、文献

来介绍使用插件的两篇文献

  • PPI网络
  • 可知作者选择模块的主要参数为 nodes和 density
  • 有向网络ceRNA
  • 选择参数为 nodes 和 p values
  • 参考
  • http://www.cs.rhul.ac.uk/home/tamas/assets/files/cl1/cl1-cytoscape-0.92.html#basic-parameters
  • https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3543700/
  • https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5618529/
  • https://link.springer.com/article/10.1186/s12879-020-05214-0
  • 文献
  • https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7351724/
  • https://www.sciencedirect.com/science/article/pii/S2162253119300721
  • https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7247857/
(0)

相关推荐