当精准医疗遇上大数据 | 科技特训营干货 / 四六文摘

科技特训营第二期第一模块干货继续奉上：

讲师：瞿昆教授

青年千人、生命科学学院、医学中心、

中科院天然免疫和慢性疾病重点实验室

中国科学技术大学

课程主题：《生物大数据和精准医疗》

以下为课程精华部分节选：

2012 年 7 月份《纽约时报》刊登了这样一个故事。

有一个斯坦福大学的医生，他的医生告诉他，对不起，哥们，你得癌症了。这件事发生在任何一个人身上都是件难以接受的事，他患有白血病，那正常情况下就该用白血病的药物来治疗。他接受了治疗很久，放疗、化疗、靶向治疗，第一期还可以，但很快很多肿瘤复发，比第一次还严重。

后来，他接受同事的建议花钱测了自己的 DNA，发现一件很有趣的事情：有一个基因 FLT3 异常高表达，但是有一种药物可以正向靶向这个基因，这个药物治疗肾癌。因为他自己本身也是个医生，就跟他的医生说用治肾癌的药治疗，后果自己承担，看能不能缓解症状。最后发现是可以的，2016 年他依然活得很好。

这是一个个性化医疗的完美案例，这是正确的道路。

通常，我们会根据一个疾病的症状对应治疗，测一下血压，量一下心跳，而且通常情况下，大部分人也会用同样的药物。但很明显，这些人生病的原因是不一样的，各种各样的地方都不一样。

所以精准医疗的意思是说，我们需要搜集并实时监控病人各方面的信息，把数据整合在一起，在正确的时间给你正确的药物。跟传统医疗相比，这里有三个准确。

第一，我们已经不是在治疗一个疾病，而是在治疗一个病人，每一个病人患疾病的原因都是不一样的，精准到个人。

第二，之前很多治疗的方式，我们是根据经验和非常有限的数据来做判断的。而精准医疗需要有大数据的支持，我们需要非常多的数据来做出一个非常准确的判断。

第三是时间。传统医疗是生病之后去医院，感觉到肚子疼后才去医院，但精准医疗更多的是保持你的健康状态，是一个实时监控的状态，不希望等到你有症状之后才做治疗，而是希望把疾病扼杀在摇篮中。

所以这样来讲有三个方面，第一是人，第二是治疗的方法，第三，关键是时间问题。

我们在想，这样一个精准医疗能不能实现呢？如果可以，如何去实现？

我们与其它生物最本质的区别就是染色体、DNA，跟其它的患者不同也是来自于 DNA。我们测正常人的DNA，再测生病的人的DNA序列，总有一种方法来检测出在患者身上的基因变异，而且找到变异引起这些疾病的原因。我们确实也是这么干的。

第一，我们 DNA 可检测的序列，有四个 ATGC。但是基因测序需要很长时间才能研究出来，每一个一段一段的 DNA 分开，分散给不同的科学家自己去测，再把所有的测出来的 DNA 拼接起来。

在这个过程中发展新的技术，让这个过程变得更快。这个耗时挺久，花了30亿美金，最后把第一个 DNA 给做出来。做出这个 DNA 序列之后，这个问题变得相对简单一点。

我们开始的想法，如果 DNA 的拷贝相当于一个参考，跟参考基因组相比的话，我们知道哪一种疾病跟哪一种基因相关联。截至目前，有超过 200 万的单体突变和 1900 项疾病相关联，涉及到 15 个以上的国家和 36 个种族 1800 万人口。

大型的疾病，包括各种癌症、糖尿病还有心脏病，这种数据都是公开的。美国也做了癌症基因组计划，从 2005 年开始启动，到现在为止陆续完成了各个癌症基因组的基因测序。不仅仅测了 DNA 序列，还做了基因表达组，还有DNA、蛋白质和各种临床诊断的数据等等。

再把不同的数据整合起来，构建基因的调控网络。最终找到跟每一种与癌症相关联的基因。通过数据分析，可以预测患每一种疾病的概率是多少，这成为可能。

这是最开始听说关于精准医疗的方法，这样的工作，已经开始在临床上面已经被应用了。

这是我认为精准医疗的第一个版本。患者通过基因测序报告筛选出来，这个患者到底用什么样的药物，还有一个方法，就是把患病的部位拿到体外进行培养。还有做一些小鼠的移植，把患者的癌细胞放在小鼠上，对这些小鼠药物刺激，哪一个药物对患病的小鼠有用。如果这个药物对它有作为的话，把它筛选出来，可以用到人的身上。所以我们国家所讲的精准医疗，DNA基因测序就是第一个。

但是问题是什么？

基因测序仅仅是一个开始，我们很多事情其实并不是由 DNA 序列来决定的。我们得出的结论是幸福的家庭都一样，不幸的家庭各有各的不幸，有的患者是这个基因出问题了，有的是因为那个基因出问题的，不同的病人患病的机制不一样。

我们后来发现，这一波病人对药物有敏感性，那一波病人对药物不敏感，但从纯粹的DNA测序不能得到。我们研究发现，在表观遗传的程序里，我们可以预测这个病人到底有没有可能对这个药物有反应。对他们来讲，这是一个药物筛选的过程，如果一开始用对一个药物，会大大提高你的生存几率。也就是说，类似的研究有很多，而且非常复杂。

重申一点，我们所说的精准医疗，其实不仅仅是 DNA 的数据，我们需要了解全面的其他数据。这是我们认为第二版的精准医疗。

我们数据有多大呢？我估算了一下，它的原始数据，每一个人的数据在 10-100 TB，你所处的环境、表观遗传基因、微生物、代谢网络、转录的、蛋白的，你的基因组，甚至包括你的社交的图谱，你的医疗影像，生物的传感器等等，整个不同的维度的数据。他们之间互相的关系特别复杂。

因此在精准医疗这个领域，主要的挑战是对数据的解读，不是数据的产生。而数据分析这件事情，它的挑战在于，这个领域将会变得越来越大。

当精准医疗遇上大数据 | 科技特训营干货

相关推荐