想要AUC值高啊!做分类模型啊!放弃预后!

最近在整理表观相关技术文献,包括各种甲基化芯片技术,27k,450k,850k,以及甲基化测序的 WGBS和RRBS其实它们应用,最后也是构建各种模型,比如分子分型啊,细胞比例他推断啊,分类模型或者预后模型。而且这个分类模型的AUC高到令人瞠目结舌,比如2018的的文章,标题是:《A novel discriminating colorectal cancer model for differentiating normal and tumor tissues》链接是:https://pubmed.ncbi.nlm.nih.gov/30324808/

在TCGA数据库的CRC队列里面,做了一个简单的分类模型数据挖掘:

  • 仅仅是关心  average methylation levels in gene promoter regions and the first exons
  • 甲基化差异阈值:≥4 or ≤0.25-fold changes in CpG methylation
  • an inverse correlation between mRNA expression and methylation levels of CpG sites (FDR <0.05);
  • 剩下 78 differentially methylated CpG sites from 18 genes
  • 然后走 LASSO logistic regression 得到最终的5个甲基化位点分类模型

最后构建的模型效果还不错:

  • Five new differentially methylated CpG sites were identified and further validated in 94 Chinese CRC patients.
  • A five-CpG-based panel was constructed, with the area under the curve values of 0.999 in The Cancer Genome Atlas data and 0.943 in Chinese patients, respectively.

这个模型所涉及到的五个甲基化位点如下所示:

五个甲基化位点构成分类模型

看起来蛮简单的,就是两次差异分析,取交集,但是它取的并不是常规意义的交集,因为甲基化其实是反向调控表达量。

甲基化背景知识

甲基化测序的 WGBS和RRBS,还有 芯片是最高频的甲基化技术,其中甲基化芯片数据处理我是有视频课程的,首先需要阅读我在生信技能树的甲基化系列教程,目录如下

然后就可以看我在B站免费分享的视频课程《甲基化芯片(450K或者850K)数据处理 》

  • 教学视频免费在:https://www.bilibili.com/video/BV177411U7oj
  • 课程配套思维导图:https://mubu.com/doc/1cwlFgcXMg

类似的分类模型案例分享:

发表在 Diagnostics (Basel). 2020 Mar;  的文章:《GRB10 and E2F3 as Diagnostic Markers of Osteoarthritis and Their Correlation with Immune Infiltration》

研究者们通过GSE55235,GSE55457数据集寻找差异基因,得到458个差异基因,然后:

  • LASSO 回归算法, 识别出14个基因作为OA的诊断标志物
  • SVM-RFE算法,识别出7个基因作为诊断标志物

两个算法的交集就是GRB10 and E2F3 这两个基因,用GSE51588数据集进行验证,结果显示两个基因的诊断效能具有较高水平(AUC=0.962)

An external file that holds a picture, illustration, etc. Object name is diagnostics-10-00171-g005.jpg

但是,如果你去独立的分析GSE55235,GSE55457数据集,就会发现它们的分组并不是泾渭分明的。

作为学徒作业

完成GSE55235,GSE55457数据集的标准分析,如果你还没有这方面经验,可能是需要自己先看看全网最系统的表达芯片数据处理教程:

表达芯片数据处理教程,早在2016年我就系统性整理了发布在生信菜鸟团博客:http://www.bio-info-trainee.com/2087.html

配套教学视频在B站:https://www.bilibili.com/video/av26731585/

代码都在:https://github.com/jmzeng1314/GEO

早期目录如下:

  • 第一讲:GEO,表达芯片与R
  • 第二讲:从GEO下载数据得到表达量矩阵
  • 第三讲:对表达量矩阵用GSEA软件做分析
  • 第四讲:根据分组信息做差异分析
  • 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
  • 第六讲:指定基因分组boxplot指定基因list画热图
  • 第七讲:根据差异基因list获取string数据库的PPI网络数据
  • 第八讲:PPI网络数据用R或者cytoscape画网络图
  • 第九讲:网络图的子网络获取
  • 第十讲:hug genes如何找

公众号推文在:

(0)

相关推荐