0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》

早在2015年,那个我进入生信领域还不满两年,就看到了新闻,说百度CEO李彦宏将个人捐赠3000万元,支持百度与北京协和医学院针对食管癌基因组研究的合作。
当时的我仅仅是把它当做了新闻看了看,具体的合作项目将于2016年初启动,在两年时间内完成1500例食管癌患者的组织样本收集,100个食管癌家系血液样本的收集,并将在2017年年前完成整个项目的测序和生物分析工作。
我国食管癌发病率高居世界首位。据估算,全球53.8%的食管癌患者都在中国。由于缺乏早期诊断的标志物,食管癌的临床治疗效果欠佳,大部分患者发现时已是晚期。而且,我国的食管癌患者95%以上是食管鳞癌,而欧美国家多为食管腺癌。
实际上那个时候的我既不知道癌症的医疗现状,也不知道癌症基因组研究花费几何,因为直播我的基因组活动都是在2016年下半年了:
当然,我私人测序耗费不到6000块钱,肯定不是1500例食管癌患者全基因组测序单价。既然百度CEO李彦宏是捐赠3000万元,平摊到1500例食管癌患者,全基因组测序花费应该是2万每个人。因为一个患者需要50X的血液测序加上150X的肿瘤样品测序,也就是说,一个肿瘤患者的全基因组测序相当于4个正常人的测序价格咯。如果不考虑大客户折扣,以及自己购置测序中心的成本优势的话。
初见508个食管癌病人全基因组数据
大约一年前,我看到一个文章,发表在NC杂志,时间是11 April 2019,标题是Multi-region sequencing unveils novel actionable targets and spatial heterogeneity in esophageal squamous cell carcinoma,该研究对33个食管癌病人进行了多位点取样,关键是其研究结论在一个508个食管癌病人队列全基因组数据里面验证了。
For the 508-WGS cohort, we performed deep WGS of microdissected tumor tissues and matched adjacent non-cancerous specimens from 508 ESCC patients with detailed medical records and survival data. All tumors were therapy naïve. Paired-end sequencing was performed using an Illumina HiSeq system following Illumina’s instructions in WuXi NextCODE at Shanghai, China. The mean coverage of sequencing of the tumor tissues was 98× and 44× in matched non-tumor samples.
当时我就无比惊讶,本来肿瘤研究领域,就很少采用全基因组这个策略,哪怕是TCGA林过万的病人,也不到2千是全基因组,其它都是全外显子组数据。而且这个队列居然是中国人的,那个时候大家都在热火朝天的挖掘TCGA数据库。
除了惊讶,让我费解的另外一点,就是这个508个食管癌病人全基因组数据我搜遍全网都找不到文章,而且很纳闷,这么大的队列不可能处于生物信息学中心的我居然从来没有听说过啊!不过,的确事务繁多,就放下了,因为食管癌也不是我的研究领域。
再次看到508个食管癌病人全基因组数据,朋友圈就被刷屏了
2020年5月12日,《细胞研究》(Cell Research)杂志在线刊载的一篇题为“Whole-genome sequencing of 508 patients identifies key molecular features associated with poor prognosis in esophageal squamous cell carcinoma”的文章中,署名单位为“Baidu”的作者“Yanhong Li”(李彦宏)为该文章的三位通讯作者之一。。论文末尾还特别致谢李彦宏(百度)对该研究的慷慨支持。
而且5月12日后面的一个星期热度不下,这个时候我想起来的是五年前的新闻:百度CEO李彦宏将个人捐赠3000万元,支持百度与北京协和医学院针对食管癌基因组研究的合作。
抽空把文章pdf下了,图不多,绝大部分都是生物信息学结果,包括mutation signature,病人的TMB and MSI 状态,SNVs和CNVs的突变全景图,非编码区域的突变意义,癌症相关通路的突变情况以及突变基因的靶向药情况讨论。最重要的是,作者几乎在附件给出来了该研究的全部分析结果:
figureS1-mutation-landscape.pdf
figureS2-mutation-signature.pdf
figureS3-validation-NFE2L2.pdf
figureS4-CNV-GISTICS2.0.pdf
figureS5-Potential actionable alterations.pdf

s1-patients.xlsx
s2-population.xlsx
s3-statistics-508-cohort.xlsx
s4-summary-of-SNVs.xlsx
s5-SNVs-in-each-patients.xlsx
s6-sanger-validation-coding.xlsx
s7-sanger-validation-noncoding.xlsx
s8-cosmic.xlsx
s9-SMGs.xlsx
s10-cox-NFE2L2.xlsx
s11-SMG-cohort.xlsx
s12-qPCR.xlsx
s13-GISTICS2.0.xlsx
s14-nonconding.xlsx
s15-nonconding.xlsx
s16-lasso-cox.xlsx
s17-primers.xlsx

对我们生物信息学工作者来说,最重要的就是那个接近600M的maf.csv文件,全部的508个病人的肿瘤SNVs信息。
有了它, 我们可以重复其文章的几乎全部的图表!所以我计划出一个10小时教学视频,从肿瘤基因组测序开始到文章的那个接近600M的maf.csv文件,从508个病人的肿瘤SNVs信息到文献的5个主图,以及部分附图的代码实践过程!
关于这个肿瘤基因组测序数据分析教学视频课程
我是不会去讲解Linux和R语言基础知识的,需要你自行学习,学习资料及学习内容在:2020学习主旋律,B站74小时免费教学视频为你领路,这个计算机背景我默认生信技能树绝大部分粉丝都已经是没有问题了哈,如果还有疑问,自行完成Linux和R的视频学习以及作业题。
从DNA测序的fastq数据开始,找变异流程我也没有时间去重复性讲解了,因为B站也有这个系列教学视频;
  • https://www.jianshu.com/p/49d035b121b8
也对应两个作业:
那么,讲解什么呢?看完下面的PPT你就知道了,课程报名方法也在文末!
(0)

相关推荐