表达量和拷贝数两个层面数据可以找到肺癌驱动基因吗?

最近微信群有小伙伴咨询表达量和拷贝数两个层面数据如何整合,正好分享一个2017年发表在plos one杂志的文章,标题是;《Integrated Analysis of Genome-Wide Copy Number Alterations and Gene Expression Profiling of Lung Cancer in Xuanwei, China》,链接 在:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0169098

该研究包括两个数据集 :

  • GSE89039  Gene expression profiling in 8 lung cancer in Xuanwei samples
  • GSE89046   Copy number alterations in 8 lung cancer in Xuanwei samples

分别都是芯片:

  • Agilent-039494 SurePrint G3 Human GE v2 8x60K Microarray 039381 (Probe Name version)
  • NimbleGen Human CGH 3x720K Whole-Genome Tiling v3.0 Array [100718_HG18_WG_CGH_v3.1_HX3_HX3]

表达量芯片差异分析阈值:a false discovery rate (Benjamini–Hochberg test) adjusted p value of ≤ 0.05 and absolute fold-change values ≥ 2 or ≤ 0.5. (其中 3,248 were upregulated while the other 1,881 genes were downregulated )

拷贝数芯片:Log2 ratio test/control thresholds of 0.25 and –0.25 were defined as copy number gains and losses, respectively.

文章介绍的表达量和拷贝数两个层面数据整合:

  • In step 1, 在至少3个样品出现拷贝数变化的定义为  recurrent CNAs  (从592 CNAs挑选到95 recurrent CNAs )
  • In step 2, 删除前面步骤部分 recurrent CNAs ,在不同样品出现冲突的,没有涉及到基因的,或者涉及基因的部分区域的。(最后剩下  34 gains and 4 losses,包括 246 genes )
  • In step3, DEGs 和 recurrent CNAs 做基因交集 ,得到   candidate driver genes   (交集是24 个 genes )
  • In step 4, 在PubMed 数据库搜索前面步骤得到的  candidate driver genes  ,最后判断得到:
    • 3 genes in the positively correlated set (CREB3L4, TRIP13, and CCNE2) as potential oncogenes
    • 4 genes in the negatively correlated set (AHRR, NKD2, MYC, and KLF10) as potential tumor suppressor genes.

最后使用 RT-qPCR 验证 这7个基因,因为是低通量实验,所以扩大了队列,包含76个病人看拷贝数以及50个病人看表达量。

有意思的是是这个 RT-qPCR 验证环节居然是过滤了 MYC 这个广为人知的 oncogenes :

  • the expression of MYC was significantly decreased in 52% (30/58) of the LCXW samples tested,
  • its copy number increased in 48% (40/84) of the LCXW samples tested,

本文的逻辑链是OK的吗?

学徒作业

去TCGA数据库下载LUAD和LUSC两个癌症的各自有配对(正常组织和肿瘤样品)信息的拷贝数信息(SNP6.0芯片)和表达量信息(转录组测序),进行同样的分析。

一步步过滤拿到最后的原癌基因和抑癌基因。

(0)

相关推荐