沈西凌团队开发癌症大数据比较分析方法揭示癌症微生物组清晰图谱
长期以来,人们一直困惑着什么细菌驻留在内部器官中以及当不同的癌症发展时它们如何变化。该问题具有挑战性,因为在提取、处理和测序过程中组织总是被外部细菌污染。
2020年12月30日,杜克大学生物医学工程系沈西凌教授团队在Cell Host & Microbe杂志上发表了文章The cancer microbiome atlas: a pan-cancer comparative analysis to distinguish tissue-resident microbiota from equiprevalent contaminants,设计了一种新的数据算法,可以从癌症基因组图谱(TCGA)中删除受污染的微生物遗传信息, 从而首次得到健康和癌变状态下各个器官中生活的微生物群的清晰图片。研究人员现在将能够发现疾病的新生物标记,并更好地了解众多癌症如何影响人体。
TCGA是一项具有里程碑意义的癌症基因组数据库,它包括了超过20,000种原发癌的分子信息,并匹配了涵盖33种癌症类型的健康样本。至今TCGA已经产生了超过2.5 PB的“全基因组”数据,包括转录组数据,表观遗传组数据和蛋白质组数据,所有的数据都是免费供公众使用的。
先前的研究已经使用此数据进行了一些不可思议的发现。例如,一项研究表明,在结肠直肠癌中有大量的核梭形芽孢杆菌。研究表明这种核梭形芽孢杆菌象征了肿瘤发生发展, 转移甚至预示了对药物的反应。随后, 科学家尽管进行了很多的研究以寻找类似细菌生物标志物,但少有发现。造成这种情况的主要原因是污染微生物。当实验室不小心将细菌引入样品中时,将很难辨别样品中实际存在的物种。尽管使用富含微生物的物质(例如粪便)进行的类似微生物组研究可以区分少量污染,但从人体活体器官中获得的相对较小的样本中却无法区分污染微生物和实际存在的物种。并且,当检查TCGA测序数据的子集时,先前的分析报道也发现,从许多物种中读取的微生物是污染的结果。
正如杜克大学生物医学工程教授沈西凌所说“所有微生物群研究都受到这样一种观念的困扰:如果您发现了一种微生物,它是真的存在于组织中还是在处理过程中引入了污染?而我们发明了一种方法,可以提取每个样品中真正存在的微生物,并用它来构建我们所谓的癌症微生物组图集,这对于我们而言将是巨大的资源,并使我们能够了解癌症如何改变器官的微生物组。”
沈教授实验室的研究生Anders Dohlman发明了从TCGA数据中去除污染的分析方法。Dohlman首先比较了来自不同器官和血液的癌症组织之间的微生物组特征,并排除了不加区别并随机出现的污染物种类。然后,他比较了从哈佛研究院到贝尔实验室等不同地点处理的相同样品的微生物组特征。只在某一个研究所检测到的微生物无疑是污染微生物。
“在这一过程中,最大的挑战是这些细菌既是污染微生物又是组织的内源性细菌,” Dohlman说。“但是,由于TCGA有许多不同类型的数据,因此我们能够进行分析识别-大数据确实有帮助!”
这种创新又努力的研究已经以各种方式带来了回报。在使用Dohlman的去污算法后,研究人员仔细观察了从结直肠癌患者身上采集的样品的微生物群特征。他们发现了经常在一起共生的两组独特的细菌株,其中一组似乎与患者的生存有关。
研究人员还发现,某些癌症确实改变了其驻留器官的微生物组。沈西凌教授说,原因可能是,肿瘤改变了器官的微环境,使其或多或少地适合不同的微生物物种。
通过寻找患者血液样本中的微生物特征,他们还发现,尽管与传统看法相反,但某些细菌确实进入了血液,并且这些细菌信息可以帮助诊断癌症并预测患者预后。
沈教授说:“由于受到污染的挑战,有些高水平论文的结果也难被重复。例如,虽然一个研究中心可以重复自己的研究结果,却不能被另一个研究院重复。这就解释了为什么每个研究中心都有其自身非常一致的偏差。将来,新的科研项目可以使用我们的方法消除这种偏差, 并且使实验结果可以被重复,研究中心也可以利用我们发明的方法消除其污染微生物的偏差。”
原文链接:
https://doi.org/10.1016/j.chom.2020.12.001