陈根:算法新进展——可“预测”癌症语言?
文/陈根
当打开Netflix的时候,它会不会给你推荐一些剧,“恰好”是你感兴趣的;当在Facebook上聊天时,它会不会给你推荐一些朋友,“恰好”是你欣赏的;当逛亚马逊的时候,会不会推荐一些物品,“恰好”是你需要的。
其实并没有那么多“恰好”,这些推荐都是平台基于机器学习算法整合出的数据。而且,最新的研究显示,这些平台的算法已经强大到可以帮助研究癌症和阿尔茨海默氏症等神经退行性疾病的生物学语言。
蛋白质是大而复杂的分子,它们在细胞内发挥着重要作用,是构成人体组织和调节器官功能的必需,比如抗体就是一种蛋白质,其功能是保护身体。
在影响全球5000万人的阿尔茨海默病中,蛋白质会变质,形成团块,杀死健康的神经细胞。健康的大脑有一个质量控制系统,可以有效地处理这些潜在危险的大量蛋白质,即所谓的聚合体。
但是一些无序的蛋白质形成液体状的蛋白液滴,它们没有膜,相互之间自由融合。蛋白质凝结物控制着细胞中的关键事件,如基因表达,任何与这些蛋白滴相关的缺陷结合都可能导致癌症等疾病的发生,而疾病的大脑无法控制这些结合。
为此,研究人员使用类似的平台机器学习技术训练了一个大规模的语言模型,以观察体内蛋白质出现问题时会发生什么。
研究人员特别要求该程序学习形变生物分子凝结物的语言,即在细胞中发现的蛋白质液滴,因为只有真正了解了这些语言,才能破解导致癌症和阿尔茨海默氏症等神经退行性疾病的生物功能障碍密码。
科学家向算法提供了已知蛋白质的所有数据,结果发现,这些平台的机器学习技术可以解读癌症、阿尔茨海默氏症和其他神经退行性疾病的生物语言。可以说,将机器学习技术引入到神经退行性疾病和癌症的研究中,绝对是一个游戏规则的改变。
这一发现将有助于纠正细胞内部导致疾病的语法错误,以及帮助相关靶向药物的开发,以极大地缓解症状或根本防止痴呆症的发生。该突破性研究已于2021年4月8日发表在科学杂志《PNAS》上。