AI+医学 | 数据不够的情况下,“迁移学习”可以带来惊喜!
生命科学家们现在都成了利用深度学习软件以及人工智能来建立预测模型的高手,这些模型像魔法师手中的水晶球,能指引我们找到答案,比如到哪儿去找基因调节元素的结合域。而且我们的期望越来越高,现在我们渴望开发出能挖掘到更深层答案的模型,比如基因调节的细节、为什么有些遗传特征很重要。
今年我们可以期待的是计算方法变得更强大,强大到足以被用来处理海量的基因数据,而要想做到这点需要一种技术——迁移学习(transfer learning)。利用这种方法,可以先用与问题没什么相关性的数据集来学习问题特征,然后把算法所学到的用于分析你所关心的数据集。
在去年的一篇研究论文中,美国宾夕法尼亚大学佩雷尔曼医学院的助理教授Casey Greene等介绍了他们用迁移学习训练模型的经验。他们想要用抗中性粒细胞胞浆抗体相关性血管炎的数据训练模型,但由于这种病较为罕见,因此数据不够。所以,他们从其他1400多个研究中获取了RNA测序数据,用来训练模型,随后把训练好的模型用到了想要研究的这种罕见病中,由此揭示出了与该病免疫和代谢功能有关的基因网络。由此可见,迁移模型是可以挖掘出科学新知的。
Casey Greene希望,所有这些计算方法不要仅仅只是提供某个情境下的预测模型、或者某个问题的答案,而是要进一步去揭示生物学上正在发生的事情。
再过5年,那时的生命科学领域在AI和深度学习的渗透下将大变样。
Nature 2019;565:521-523
赞 (0)