大数据时代:从数据中挖掘药物不良反应风险

Nick Tatonetti仍记得9年前他所经历的质疑,而质疑者都是专家——流行病学专家,这似乎已经能令人确信,Nick Tatonetti的发现根本站不住脚。那是2010年,Nick Tatonetti当时作为研究生在一次生物学系会议上阐述了自己的发现:降脂药普伐他汀和抗抑郁药帕罗西汀这两种常用药物的联合使用很危险,会推高血糖,使其接近糖尿病的水平。而且,普伐他汀在现实中有时会被处方给已经有糖尿病风险的患者,对于这类患者而言,上述两种药物的联用就更为危险。Tatonetti当时在斯坦福大学学习遗传学和生物信息学,他设计了一种算法,用它对美国食品药品管理局(Food and Drug Administration,FDA)的药物不良反应数据库进行挖掘,检测任意两药联用所带来的副作用。在得到了联合用药相关的不良反应谱后,他决定对其中一种有近百万人使用的药物配伍进行深入研究,这就是普伐他汀和帕罗西汀的联合用药。为了看看真实世界中这两种药物的联合使用是否也有危害性的证据,Tatonetti还研究了电子健康记录(electronic health records,EHRs),发现联用这两种药物的患者同样经历了血糖的升高。相反,只用了这两种药物其中一种的患者要么血糖下降,要么仅略微升高。然而,这种计算机化的发现过程似乎并不能被当时听他讲解的专家们所接受,Tatonetti忆起当时仍感气愤,说自己快被专家们“撕了”,就好像自己凭台计算机就得出个结论是对科学的亵渎,专家们的口气、眼神仿佛在说“你都没亲自观察到这种现象怎么能算科学呢?”要知道,流行病学家们最善于到人群中进行调查研究,通过监测、观察、假设检验、分析研究及实验等方法,从而探讨病因、阐明流行规律及影响因素。

为了证明计算机所产生的结论是可信的,Tatonetti决定用传统生物学方法来证实自己的发现。他到斯坦福大学的一个心脏学实验室,报名参加了一项糖尿病前期方面的小鼠研究,几周后他就掌握了所有小鼠研究的基础。这时他就着手开展自己的实验——他在小鼠皮下安上了一种很小的泵,给其中一半的小鼠注射普伐他汀和帕罗西汀。一个多月过去了,没有小鼠出现异常。到第五周左右,一天,Tatonetti像往常一样对小鼠进行胰岛素耐量实验,结果发现57号箱子里有只小鼠的葡萄糖水平“爆表”,与正常水平相去甚远。这个箱子里的其他小鼠,以及另外几个箱子里的小鼠也出现了极高的血糖水平,有些小鼠的血糖已经达到正常的2倍。Tatonetti跑回另一间实验室,坐到自己的电脑前,赶快查看小鼠的分组情况。正如他所预料和期待的那样,血糖高的那些小鼠是被注射了联合用药的。他又检查了这些信息好几遍,终于确定了自己没看错。“当时我起了一身鸡皮疙瘩”,Tatonetti说。

在9年前那次会议上跟专家们闹得不欢而散后,Tatonetti开始从事用算法发现隐藏在大数据中的有意义关系这一职业,而且对遗传学和药物不良反应尤为感兴趣。他供职于2家公司的科学团队,一家是初创公司,开发软件用于将基因检测结果返回给检测者,另一家是健康分析公司,致力于药物安全性数据的评价。因为此前Tatonetti大学主修的是戏剧,而此后还曾肄业,因此他可以说是流行病学的门外汉,但他坚信这种身份能让自己从不同的角度看问题。Tatonetti说:“我不知道流行病学研究是怎样开展的”,这也让他在开展研究时在方法学上可以不那么拘束。Tatonetti目前在哥伦比亚大学,为了把自己的研究生工作向前推进,他开展了一个新项目——Tatonetti想要弄清楚的是:机体对药物产生不良反应的易感性是否可遗传。他计划对哥伦比亚大学附属纽约长老会医院的EHRs进行挖掘,先找到药物不良反应的标志,然后看看这些不良反应的背后是否有遗传因素。

近年来,EHRs在医院变得越来越普及,像Tatonetti这样的研究人员都开始把目光投向这些医疗记录。有了EHRs中的丰富数据,研究人员就可以开展类似于流行病学研究那样的大规模研究,探索医生在病人身上所观察到的一些医学现象背后的深层原因,比如是否可遗传。而以前,这样的遗传学研究只能通过仔细盘问参试者的家族史来完成。可以说,电子医疗记录让研究变得越来越容易了。

至于对药物不良反应的研究,以往只有在临床试验,或者在类似于FDA不良反应数据库中才能得到仔细研究。尽管科学界有人猜测像药物不良反应这样的性状背后有基因的成分,但鲜有研究证实这种性状是否可遗传。而Tatonetti的新项目将告诉我们某种药物不良反应是否可遗传,也为今后的研究指明了方向——找到是哪些基因或突变牵涉其中。提到Tatonetti的新项目,凯斯西储大学的人类遗传学家Dana Crawford颇为赞赏:“他能找到药物不良反应背后的遗传基础,这真是太棒了。利用这些遗传学信息,我们就能在第一次便为患者选对药物,选用合适的药物、恰当的剂量。他的这个项目让精准医学的实现成为可能。”

EHR与DNA交融

十年前,只有少数大医院有EHR系统,而且,当时的技术也只是将患者病历进行数字化呈现。而今天,EHR成了医疗机构的标配,IT与医疗卫生的结合比以往任何时候都要紧密。

另一方面,DNA检测不再高不可攀,随着可获得性的提高,将患者基因信息与其在EHRs中的记录关联起来已经成为常见操作。研究人员现在就在利用这一点来阐释DNA与健康之间的关联。

例如,美国12大卫生系统之一——Geisinger健康系统的研究人员将一组患者的EHRs与其全外显子组测序结果相结合,来计算家族性高胆固醇血症(familial hypercholesterolemia,FH)的患病率。这种疾病的患者携带以下三个基因突变中的一个或多个突变:低密度脂蛋白受体(low density lipoprotein receptor,LDLR)、载脂蛋白B(ApoB)或前蛋白转化酶枯草溶菌素/kexin9型(PCSK9),导致他们易于出现高胆固醇水平,主要沉积于动脉血管壁及瓣膜组织,进而引起动脉粥样硬化及瓣膜狭窄。这项研究发现:在整个Geisinger健康系统中,大约每250人就有1人携带这类基因突变,有罹患高胆固醇血症的风险。而且,研究人员发现:在携带FH致病基因突变的人群中,仅有约58%已经在用FH一线用药他汀类治疗,但只有不到一半的人LDL胆固醇降到了健康水平,这意味着他们需要接受更全面的抗FH治疗,比如胆固醇吸收抑制剂依折麦布、胆酸螯合剂、脂蛋白血浆置换,或者新型PCSK9抑制剂,而这一切的基础是他们的FH得到正确的诊断。这提示我们:对EHR进行分析有助于发现那些携带基因突变的人,让患者得到早期诊断、合理用药。

Tatonetti这个新项目要想明确一种药物不良反应是否有遗传风险,第一步就要从纽约长老会医院近千万份EHRs中挖掘出家族关系。为此,Tatonetti团队在通过伦理委员会审查批准后,采集了长老会医院及其毗邻的西奈山医院EHRs中的紧急联络资料。第二步,研究团队需要对EHRs进行梳理,找到能反映出药物不良反应的生物学特征。以前,对EHRs开展的研究往往只要找到某种检测或操作所对应的代码就行,前提是这种检测或操作能判断特定疾病或状况的存在,然而,这种做法到了Tatonetti这项研究就行不通了,因为药物不良反应没有这样的代码,对EHRs进行简单的搜索变得很困难。现实迫使Tatonetti团队必须写出“算法”(algorithms)来从EHRs中挖掘出药物不良反应。他们初步的计划是集中于一小部分药物反应(最少50种)来测试算法,最终他们希望能找出500~1000种药物反应的特征。

Tatonetti打算在研究早期关注的不良反应之一是药物诱导的肝损伤,很多药物都会在肝脏代谢,因此给了药物性肝损伤发生的机会。为了找到肝毒性的证据,Tatonetti团队必须得在医疗记录中寻找信号,比如胆红素水平异常,这是衰老红细胞被破坏后经过肝脏的结合、代谢后所产生的废物,经肾脏和肠道排出体外,一旦肝细胞受损、功能障碍,血中胆红素就升高。在找到这种信号后,研究人员还得思考这是否是其他因素导致的,比如患者是否有慢性肝损伤、接受过肝移植、抑或是罹患肝癌,如果有这样的因素,那么患者就会被排除“药物诱导的肝损伤”。对此,Tatonetti解释道:“患者必须是明确的药物诱导的肝损伤病人,如果有任何因素干扰了肝损伤是药物不良反应这个结论,我们都会把这个病人排除在外。”

挖掘宝藏

Tatonetti并不是唯一一个用EHRs开展遗传学研究的人。去年,范德比尔特大学医学中心的研究人员利用该中心的EHRs阐明了单基因突变所致疾病(如镰状细胞贫血、囊性纤维化)的相关特征,该中心是较早采用EHR技术的医院,文章发表于《Science》杂志。在这项研究中,作者根据疾病特征给每位患者计算了风险评分,并用这些评分来阐释罕见基因突变与疾病的关系。比如:根据哮喘和肺炎得出的风险评分可以被用来发现囊性纤维化的病人。尽管很多囊性纤维化病人是在很小的时候被发现的,但有些症状很罕见的病人却要很晚才能被发现。这项研究的第一作者,数据科学家Lisa Bastarache说:这项研究开启了用算法分析EHRs数据来诊断不典型病例的可能,以往这类病人由于疾病表现不典型,或者携带罕见突变而很难被发现。“临床医生要接收庞大而繁杂的信息,他们不可能清楚一种罕见疾病的每个表现”,Lisa Bastarache说。

在另一项研究中,科研人员梳理了凯撒永久医疗系统内的近50万份病人EHRs,发现了与血胆固醇水平有关的基因标记。这项研究发现,总体来说,携带这种基因突变的女性比男性胆固醇水平更高,但甘油三酯水平却恰恰相反,男性更高。这项研究的高级作者、遗传学家Neil Risch推测:诸如饮食、锻炼之类的环境因素可能是造成这种差别的原因,但这项研究并未对此进行专门的探究。

随后,Neil Risch及其同事又开展了后续的随访研究,这次他们还是利用EHRs,但研究的是用他汀类治疗后LDL胆固醇水平的改变是否会遗传,结果发现这种效果仅略微可遗传,程度大概在12%。这就意味着,机体对他汀类的反应80%以上是由不可遗传的因素决定的,比如饮食,至少LDL胆固醇水平是这样。LDL胆固醇水平是绝对可遗传的,但令人惊讶的是,这项研究发现我们对他汀类的反应几近不可遗传,这意味着还需要探究他汀类到底是怎么起作用的!

上述这几项研究无一例外都用到了EHRs,我们已经步入了用电子记录开展遗传学研究的轨道,尽管现在可能还处于初级阶段,但EHRs的强大已经崭露端倪。

曾经,药物不良反应给人类社会造成过深刻的灾难,比如沙利度胺,它曾被处方给孕妇来减轻晨吐,后被发现会致畸。从沙利度胺第一次被合成出来,到因为“海豹肢”婴儿的报道而被禁用于孕妇,用了将近7年的时间。这还是能被轻易发现的药物不良反应,而大多数药物不良事件不是那么容易被观察到的,发现问题要花很长时间,造成广泛的危害。

所幸,数据和计算的方式正在影响着科学研究的方方面面,包括药物不良反应的识别研究。

在中国,不止EHR

在中国,患者只有在身体出现状况时才会去医院就诊,产生EHR记录,而一旦离开医院就失去了与医生和医院的联系,这使得医院系统的EHRs呈现出“点状”,缺乏长期随访数据,无法得知患者拿药回家后的转归,造成“只有处方,不知疗效”的困境,只有在患者因病情加重或无改善而再次就诊,才能再产生EHR数据。

在移动信息、数据科学时代,这完全可以通过新的方式解决——用移动互联平台采集连续患者数据、警示及预测药物不良反应已经在数年前就开始实施,这个平台名为智能疾病管理系统(Smart System of Disease Management, SSDM),在中国风湿病领域从2015年至今已经应用了6年,目前20多万风湿病人在SSDM平台上进行疾病自我管理,有近3000位医生通过SSDM平台与自己主诊的病人建立长期联系。

SSDM是一款医患互动平台,患者在首次就诊时,在医生或护士指导下下载并学会使用,回家后就能自己把用药、检查信息录入进去,并在药物不良事件出现后及时在平台上记录。所有这些信息会上传到云端形成数据库,并同步到经患者授权的医生的手机端,授权医生能随时了解患者的情况,比如患者记录的药物不良事件、以及检查报告显示的肝转氨酶升高,这些异常情况在医生的手机端会显示为“警报”,相当于告诉医生:你的病人出问题啦!医生就有机会及时干预。而且,大数据可以描绘出各种药物的不良反应谱,用数据说话,规避高风险联合用药,辅助医生做出最佳临床决策,提高用药安全性、改善合理用药。

“大数据+AI”赋能药物不良反应警戒的时代已经来临!

(SSDM风湿中心功能操作使用说明)

参考文献:Nautre Medicine

(0)

相关推荐

  • 癌症遗传是真的吗?教授:遗传占比不大,5个“防癌处方”更重要

    前几天,小九科普了国内的一种新抗癌疗法,有读者在评论中分享了自己的经历,引起许多人的共鸣. @跳跳熊7217: 我妈胰腺癌去世,我大舅食道癌去世,三姨尿毒症去世,舅爷爷食道癌去世,好害怕啊. @善良暖 ...

  • AI正在重构药物临床试验流程,苹果正在打通数据重构临床试验【CBinsight最新报告】

    技术带给医药行业无尽的财富,造就了医药行业的高度繁荣. 以人工智能.机器学习.大数据.移动医疗等为代表的数字化技术正在重塑医药行业,为行业带来崭新面貌. 动脉网近期推出"医药数字化转型&qu ...

  • 【AACR2020】65%肿瘤缩小!波齐替尼治疗肺癌新数据!

    EGFR与HER2(也称ERBB2)基因同属于表皮生长因子家族,且EGFR和HER2基因的20外显子突变发生在相似的位置,其分子.生物学特征和药物响应均具有相似的性质,因此EGFR和HER2基因的20 ...

  • 小鼠临床实验(MCTs)是什么?

    临床前肿瘤药物开发需要新的工具与方法.目前的方法在临床实验中因为效果不佳,而造成癌症药物有95%的耗损率,即使有潜力的药物在临床前测试中看似前途光明也一样. 很显然这是一个需要克服的问题.精准医疗虽然 ...

  • 大数据时代,数据湖并不能完全取代数据仓库

    数据仓库为组织了解其历史业务表现和推动持续运营提供了一个接入窗口,为数据分析师和业务用户提供了诸如客户行为.业务趋势.运营效率和销售等方面的信息.尽管出现了基于Hadoop和其他一些大数据技术的数据湖 ...

  • 在药物开发中挖掘数据价值,ReviveMed获150万美元融资

    [数据猿导读]ReviveMed公司宣布,已获得150万美元种子轮融资推进其人工智能(AI)平台的发展,为药物开发挖掘代谢物组学(metabolomics)数据的价值.本轮融资由Rivas Capit ...

  • 大数据时代!AI识别技术在数字档案资源建设中的实践探析

    档案资源建设与档案价值挖掘 档案数字化是档案信息化建设中的重要环节,但由于在实际操作过程中存在人力耗费大.信息完整度低.信息处理效率低等问题,使其成为档案信息化发展的瓶颈.基于AI识别技术的国土和规划 ...

  • 大数据时代大数据技术的应用和面临的挑战

    大数据时代,大数据已经成为了我们生活中一个重要的角色,他在每一个领域都发挥着重要的作用,给我们的生活生产都带来了非常多的便利,那么大数据在我们生活中到底有哪些应用呢?又面临这哪些挑战呢? 一.大数据技 ...

  • 纳米光栅——大数据时代光存储的下一个风口?

    文/姚倩.戴晔,上海大学物理系超快光子学实验室 您的存储空间告急- 人类文明发展至今离不开信息的记录.从绘画.雕刻.印刷到如今的数字化信息存储,存储容量呈指数增长.根据软件公司Domo的报告,2018 ...

  • 【学府点拨】概率——随机世界与大数据时代

    概率的意义 一骰子有6个面,一掷之下,会得到偶数之概率为何?骰子看起来没有异样,就假设每个面出现的概率皆相同,即均为1/6.而偶数面有2,4,及6等3个.因此所求之概率为3/6.这就是所谓古典的概率, ...

  • 【学术观点】大数据时代的网络舆情管理

    随着移动互联网.物联网等新技术的迅速发展,人类进入数据时代.大数据带来的信息风暴正深刻改变我们的生活.工作和思维方式,对网络舆情管理也带来深刻影响. 一.大数据时代网络舆情管理面临的新形势 大数据意味 ...

  • 大数据时代的网络舆情研究现状及治理模式!

    随着互联网技术的发展,中国进入大数据时代.以数据量大.类型多.价值密度低.速度快为本质特征的大数据,带动网络舆情形成新变化.新发展.网络舆情的参与主体日益多元,参与途径更为多样,网络舆情监管技术不断提 ...

  • 行业丨大数据时代,园区招商引资的七大关键

    经济发展离不开产业园区的合理规划,如何才能打造一个园区,使之规模化.产业化,从而带动当地产业联动.经济发展,是各个地方都在探讨的问题. 01 把握产业规划 每个地方都有其独特的产业,都需要适合其产业发 ...