这5个miRNA组成的肺鳞癌诊断基因集在tcga数据库能复现吗

最近看到某公司宣传他们的科研服务产品,是miRNA的芯片,而且文章居然是2011发表的,那个时候我还不知道生信是啥子。(我一直以为自己足够老了)
该研究使用的是 CapitalBio 平台 (CapitalBio 公司)  芯片,非常清晰的研究思路;
  • 60+88个肺鳞癌病人肿瘤组织和癌旁的miRNA芯片表达矩阵,数据集在:GSE15008
  • 芯片是 CapitalBio 平台 (CapitalBio Corp.)  ,包含 924 mature mam- malian microRNA probes (including 677 human micro- RNA sequences)(现在miRBase数据库收录了1917条pre-miRNA(前体),以及2656条成熟的miRNAs。见:http://www.mirbase.org/ )
  • 使用主成分分析和支持向量机建模,拿到 minimal 5- element classifier (hsa-miR-210, hsa-miR-182, hsa-miR- 486-5p, hsa-miR-30a, and hsa-miR-140-3p) 可以很好的区分normal和tumor。
  • 生存分析发现:high expression of hsa-miR-31 was associated with poor survival
  • 分析hsa-miR-31 的靶基因,并且实验验证其中3个:DICER1, PPP2R2A, and LATS2,最后定位到DICER1 30-UTR
我以前在在生信技能树分享了几个miRNA的靶向基因的查询工具,分别是:
大家可以尝试看看hsa-miR-31 的靶基因,是否有这3个基因,示意图如下:
miRNA靶向调控示意图
学徒作业
大家可以去tcga数据库下载肺鳞癌的miRNA芯片或者测序数据,走同样的诊断建模流程,看看得到的miRNA是否作者的5个miRNA有交叉。这里面变量很多:
  • 首先,两个队列的人群地域差异
  • 其次,miRNA芯片和miRNA测序技术差异
  • 还有,肿瘤组织和癌旁配对问题,两个组数据量问题
对大家来说,比较难的地方就是使用主成分分析和支持向量机建模。可以参考我的4个小时TCGA肿瘤数据库知识图谱视频教程,其中中共使用了四种算法构建模型:
不管用了那种算法,核心都只是几句代码而已。
(0)

相关推荐