郑明月:AI制药热潮中的冷思考
01
翻越新药研发三座大山,AI制药带来曙光
新药研发长期面临的三大难题:周期长(10-15年)、投入高(数十亿美元)、成功率低(不到10%,阿尔茨海默症等疾病治疗药物上市成功率甚至不到1%)。如何翻过这三座大山,AI给“制药人”带来了机会。
据郑明月研究员介绍,AI制药的兴起有几个相对标志性的事件。
2012年
Merck公司在Kaggle平台发起了一场“分子活性预测”算法挑战赛。比赛中,绝大部分队伍使用的是传统机器学习方法(如随机森林模型),而Hinton团队使用了当时新发展的深度神经网络,并最终赢得了这一赛事的冠军。在这场比拼中,多任务深度神经网络明显超过其它一些传统机器学习方法,显示出了这类技术在新药研发方面的应用前景。
2016年
Deepmind开发的人工智能围棋软件AlphaGo以5:0击败欧洲围棋冠军引发轰动;此外,Google翻译推出了使用AI技术的最新版本,极大改善了翻译能力,取得了令人震撼的结果,也是从这一年开始,越来越多的AI制药初创公司相继成立。
2018年
Nature报道了利用深度学习的逆向合成路线设计药物的研究论文,这一突破曾被誉为化学届诞生了AlphaGo。
2019年
AI制药的概念逐渐得到验证,最早一批成立的AI制药初创公司取得了阶段性成果,获得了具有动物药效的候选化合物;Insilico Medicine及其合作伙伴在Nature子刊发文宣称利用其开发的深度生成模型GENTRL,21天内就发现了靶向一种激酶靶点DDR1的有效抑制剂,从靶点确定到获得潜在的新药候选分子仅用了3周。
2020年
DeepMind的新一代AlphaFold人工智能系统在国际蛋白质结构预测竞赛(CASP)中的惊人成绩为AI制药行业点了一把火,新一代AlphaFold解决了生物学领域几十年来的重大挑战,实现了基于氨基酸序列精确预测蛋白质的3D结构;也是在这一年,二级市场AI制药概念股登场,Schrodinger和Relay Therapeutics两家公司分别于2月和7月在纳斯达克上市,AI制药热潮在国内外愈加显著。
02
优势是数据,挑战也是数据
AI制药如此受追捧,究竟优势在哪?郑明月研究员说:“传统的药物研发主要是靠人、靠经验,但知识和经验总是有限的。相比之下,AI可以更好地、以前所未有的方式利用多学科的数据。即便是利用数据库,人一般只能对数据进行简单的、浅层的分析,而AI可以进行数据之间复杂的关联关系的挖掘。我认为这是AI最大的优势。”
对于借助AI进行新药研发目前面临的最大挑战,他指出了两点:1)目前来说,AI在边界清晰、规则明确的领域已经有比较好的应用,比如围棋、医疗影像识别,但药物研发涉及的很多方面还没有清晰明确的界定,这是AI制药领域一个比较大的挑战。以药物毒性研究为例,基于现有评估指标(Toxicity endpoints)下的毒性数据,我们可以利用AI构建一个毒性预测模型,但是利用这个模型并不能有效去判断一个候选分子的毒性,我们还需要综合考虑种属差异、剂量、体内暴露情况等多种因素的影响。生物体系的复杂性使得我们很难对影响毒性的因素进行清晰明确的定义。2)AI制药领域面临的另一个难题是药物研发数据缺乏积累,数据“孤岛”现象普遍存在。药物研发在很多情况下面对的是小数据问题,而且数据的清洗整合经常比AI建模更费时费力。为了解决数据问题,近年来面向AI的数据标注和一些分布式机器学习技术也在药物研发中得到越来越多的关注。
03
AI药物迈向临床,监管如何迎接?
不过,尽管AI制药领域还有很多亟待克服的障碍,也已经有一些公司取得了鼓舞人心的成果。在2020这一AI制药领域的爆发年,英国AI 药物发现公司Exscientia在1月宣布,公司与Sumitomo Dainippon Pharma合作开发的首个利用AI开发的候选化合物(DSP-1181,治疗强迫症)进入临床开发阶段。而根据上个月Exscientia公布的最新消息,该公司目前已启动第3款AI药物(DSP-0038)的临床研究,适应症是阿尔茨海默症精神错乱(第二款AI候选药物是一款癌症免疫疗法,在今年4月进入I期临床)。Exscientia在新药研发方面的突出进展一方面吸引了大量投资机构的注资和制药巨头抛出的合作/授权“橄榄枝”,同时也引发了一些讨论,这其中就包括,与传统药物相比,AI药物的审评审批流程和规则是否可以完全照搬?
对于监管机构会如何“管”AI药物,郑明月研究员认为,就药物审评审批来说,不管化合物是怎么来的(AI设计or人设计),都应该遵照“安全有效“的评价标准,审批和监管体系至少短时间内不会变。当然,事实上,监管机构已经在以开放的态度来迎接AI制药的发展。举例来说,2019年,美国FDA已经批准了一项临床试验方案,其中使用人工合成臂(syntheticcontrol arm)做对照组来减少入组患者的数量;中国的知识产权局也曾调研是否可以把AI预测数据作为衡量药物活性和化学反应专利中技术效果的支撑内容。这些例子都是监管给“AI制药人”释放的积极信号,对AI制药行业的发展也是莫大的鼓舞。
04
质疑不断,原因在哪?
当然,像任何新技术的发展初期一样,AI制药领域目前也有多种质疑声,举例来说,有声音指出,一些初创公司只是在打着AI的噱头圈钱,一些公司几乎没有真正的AI制药团队。为什么会出现这些质疑?郑明月研究员主要分析了以下三点原因:
第一,缺人。近几年企业对数据科学家或算法工程师的需求比较大,很多高校都开设了AI相关的专业和课程,但同时精通AI和制药的复合型人才缺口仍不小。很多AI制药公司的团队成员要么懂AI不懂药,要么懂药不懂AI,而多学科知识的交融又面临着很多障碍。这也是影响AI制药行业发展的一个关键因素。
第二,缺技术。尽管AI制药领域目前处于快速发展阶段,但事实上,该领域目前整体表现出期望高于技术成熟度的现状。除了人不够,技术未达到很多人期望的水平也是一个现实。目前的AI技术主要在药物研发最开始的环节——药物发现阶段有相对成熟的应用,受限于数据等方面的难题,更能适用于药物研发各个环节的AI技术的开发仍在起步和发展中。
第三,缺证据。目前大部分公司还在“建平台、升级平台”的阶段,并没有比较直接的验证性成果公布。即便一些候选分子在较短的时间内被筛出来,证明AI制药“强”的说服性也不是非常高。一方面,样本量非常小,另一方面,缺乏和传统药化专家的正面PK(类似围棋、医疗影像识别)。此外药物开发的试炼也包括临床开发阶段,筛出来的候选分子能不能成药非常关键。如果利用AI研发新药能被确切地证实,从靶点确定到药物获批上市的时间确实短于传统途径,且研发成功率与传统途径相当或者更高,那么,AI制药的价值才能真正体现。
05
深耕AI制药20年,攻克多维难题
郑明月研究员师从药物科学学家、中国科学院院士蒋华良,从最早利用机器学习来预测药物的成药性,到后来基于数据驱动药物设计,再到近几年结合深度神经网络开展基于大数据和AI的药物研发,在AI制药领域已扎根近20年,取得了令人瞩目的成果。
在6月初刚刚落下帷幕的由制药巨头BMS发起的Kaggle“分子翻译”大赛中(Kaggle是国际上最著名的数据科学竞赛平台之一,被视为是机器学习算法检验的试金石),由蒋华良院士和郑明月研究员指导的“SIMMDDDC”队伍从874支参赛队伍中脱颖而出,斩获第一名。
“分子翻译”本质是化学结构式图像识别,尽管这一方向距今已经有30多年的研究历史,但现有的一些化学结构图片识别工具仍存在明显的局限性。与常规化学结构式图像识别任务相比,Kaggle分子翻译挑战赛要求更高:参赛模型不仅要识别分子图像,而且要输出正确有效且符合国际化合物标识(InChI)语法的分子结构。SIMMDDDC团队开发的分子翻译算法能从带有噪声的图像中准确地提取化合物结构信息,可以用于真实世界的化学和药学文献以及专利数据的自动挖掘和分析。这种图像到文本的分子翻译技术有助于生物医药研发的数字化和智能化转型,也为解决药物研发数据匮乏困境提供了可行的解决方案,具有广泛的应用前景。
除了这张最新的“成绩单”,郑明月与团队在“药物分子表示学习和性质预测”、“基于深度学习的多靶点活性筛选”以及“基于AI和机器学习的药物分子化学合成和成药性优化”等方面也取得了一系列代表性成果。
他说:“我们希望能够攻克AI辅助新药研发所面临的多维难题,从而让AI能够真正加速、优化,甚至颠覆新药研发。”
06
未来5年,三大突破值得期待
对于AI制药领域未来3-5年会取得哪些突破,郑明月研究员预计:1)首先,在应用方面,可能会有AI设计的药物走到临床开发后期,甚至上市;2)其次,在技术方面,基于结构的药物设计(SBDD),从头药物设计技术可能有突破 ;3)此外,在与人类专家对比方面,AI在化学合成路线和化合物设计方面也许能够达到与专家相当的水平。
他还补充说:“目前来说,AI制药领域存在泡沫不可否认,但从长远看,最终行业发展会回归理性,优胜劣汰。当真正优秀的AI制药公司从'泡沫’中走出来,当AI真正成功赋能新药研发的每个环节,将会大大提升制药行业的整体创新能力,也可能会带来不可估量的医学进步,包括真正开启个体化医疗时代。”
采访尾声,谈及未来几年的规划,郑明月表示:“尽管AI制药的产业化热度持续攀升,但科研还是要脚踏实地、刻苦钻研,希望团队能够日拱一卒,坚持点滴的积累和不断的进步。在应用层面,团队将探索AI在新药研发不同环节的应用;在AI技术层面,一方面会更加关注模型的准确性和可解释性,同时,也会加强AI技术与其他药物研发技术的整合,如DNA编码化合物库、冷冻电镜等。
团队的一个长期目标是,围绕药物研发中的难点问题开发更实用的AI方法,与药物所'出新药,出好药’的目标始终保持一致,为加速中国创新药的开发及推动医疗进步贡献应有之力。”