想要AUC值高啊!做分类模型啊!放弃预后!
最近在整理表观相关技术文献,包括各种甲基化芯片技术,27k,450k,850k,以及甲基化测序的 WGBS和RRBS其实它们应用,最后也是构建各种模型,比如分子分型啊,细胞比例他推断啊,分类模型或者预后模型。而且这个分类模型的AUC高到令人瞠目结舌,比如2018的的文章,标题是:《A novel discriminating colorectal cancer model for differentiating normal and tumor tissues》链接是:https://pubmed.ncbi.nlm.nih.gov/30324808/
在TCGA数据库的CRC队列里面,做了一个简单的分类模型数据挖掘:
仅仅是关心 average methylation levels in gene promoter regions and the first exons 甲基化差异阈值:≥4 or ≤0.25-fold changes in CpG methylation an inverse correlation between mRNA expression and methylation levels of CpG sites (FDR <0.05); 剩下 78 differentially methylated CpG sites from 18 genes 然后走 LASSO logistic regression 得到最终的5个甲基化位点分类模型
最后构建的模型效果还不错:
Five new differentially methylated CpG sites were identified and further validated in 94 Chinese CRC patients. A five-CpG-based panel was constructed, with the area under the curve values of 0.999 in The Cancer Genome Atlas data and 0.943 in Chinese patients, respectively.
这个模型所涉及到的五个甲基化位点如下所示:
看起来蛮简单的,就是两次差异分析,取交集,但是它取的并不是常规意义的交集,因为甲基化其实是反向调控表达量。
甲基化背景知识
甲基化测序的 WGBS和RRBS,还有 芯片是最高频的甲基化技术,其中甲基化芯片数据处理我是有视频课程的,首先需要阅读我在生信技能树的甲基化系列教程,目录如下:
01-甲基化的一些基础知识.pdf 02-甲基化芯片的一般分析流程.pdf 03-甲基化芯片数据下载的多种技巧.pdf 04-甲基化芯片数据下载如何读入到R里面.pdf 05-甲基化芯片数据的一些质控指标.pdf 06-甲基化信号值矩阵差异分析哪家强.pdf 07-甲基化芯片信号值矩阵差异分析的标准代码.pdf 08-TCGA数据库的各个癌症甲基化芯片数据重新分析.pdf 09-TCGA数据库的癌症甲基化芯片数据重分析.pdf 10-TCGA数据辅助甲基化区域的功能研究.pdf 11-按基因在染色体上的顺序画差异甲基化热图.pdf 850K甲基化芯片数据的分析.pdf 使用DSS包多种方式检验差异甲基化信号区域.pdf
然后就可以看我在B站免费分享的视频课程《甲基化芯片(450K或者850K)数据处理 》
教学视频免费在:https://www.bilibili.com/video/BV177411U7oj 课程配套思维导图:https://mubu.com/doc/1cwlFgcXMg
类似的分类模型案例分享:
发表在 Diagnostics (Basel). 2020 Mar; 的文章:《GRB10 and E2F3 as Diagnostic Markers of Osteoarthritis and Their Correlation with Immune Infiltration》
研究者们通过GSE55235,GSE55457数据集寻找差异基因,得到458个差异基因,然后:
LASSO 回归算法, 识别出14个基因作为OA的诊断标志物 SVM-RFE算法,识别出7个基因作为诊断标志物
两个算法的交集就是GRB10 and E2F3 这两个基因,用GSE51588数据集进行验证,结果显示两个基因的诊断效能具有较高水平(AUC=0.962)
但是,如果你去独立的分析GSE55235,GSE55457数据集,就会发现它们的分组并不是泾渭分明的。
作为学徒作业
完成GSE55235,GSE55457数据集的标准分析,如果你还没有这方面经验,可能是需要自己先看看全网最系统的表达芯片数据处理教程:
表达芯片数据处理教程,早在2016年我就系统性整理了发布在生信菜鸟团博客:http://www.bio-info-trainee.com/2087.html
配套教学视频在B站:https://www.bilibili.com/video/av26731585/
代码都在:https://github.com/jmzeng1314/GEO
早期目录如下:
第一讲:GEO,表达芯片与R 第二讲:从GEO下载数据得到表达量矩阵 第三讲:对表达量矩阵用GSEA软件做分析 第四讲:根据分组信息做差异分析 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析 第六讲:指定基因分组boxplot指定基因list画热图 第七讲:根据差异基因list获取string数据库的PPI网络数据 第八讲:PPI网络数据用R或者cytoscape画网络图 第九讲:网络图的子网络获取 第十讲:hug genes如何找
公众号推文在: