MATH值量化肿瘤异质性有一定的临床意义

MATH值代表的肿瘤异质性在乳腺癌与生存关系不显著

但是作者后续的分析,只挑选了more functional (MF) mutations, 就是那些被PolyPhen-2软件认定为是“probably damaging” or “possibly damaging” 的 469,553 位点。

每个样本计算3个指标:

  • maximum value for probability density function of VAF distribution of MF mutations (m_Peak),

  • log2the total number of MF mutations

  • MATH score for MF (m_MATH)

然后跨癌症的比较六千多病人的这3个指标,使用PCA分析,然后用k-mean对前2个主成分进行聚类, 得到5类:

  • clusters 1 and 2 harbored more MF mutations than the other three clusters

  • Samples in clusters 3, 4, and 5 had fewer MF mutations than clusters 1 and 2

既然病人成功分组,接下来就可以多种分析啦,比如分组的突变特征,分组的临床信息。

使用CART算法, 分类回归树, 决策树,可以根据3个指标把病人分组为这5个cluster

决策树属于经典的十大数据挖掘算法之一,是一种类似于流程图的树结构,其规则就是IF…THEN…的思想,可以用于数值型因变量的预测和离散型因变量的分类。该算法简单直观、通俗易懂,不需要研究者掌握任何领域知识或复杂的数学推理,而且算法的结果输出具有很强的解释性。

使用决策树过程中,有两个非常重要的核心问题需要解决,一个是决策树中节点字段的选择,另一个是决策树的剪枝(在实际应用中,我们是不期望决策树盲目生长的,因为这会导致模型的过拟合)。

文献俱乐部2019年笔记分享第一弹,目录如下:

(0)

相关推荐