北京大学高歌:21世纪的生命科学属于数据科学丨独家专访 2024-06-25 13:17:31 “21 世纪常常被视为生命科学的世纪,而我相信,21 世纪的生命科学将会是数据科学。” 高歌研究员告诉生辉。高歌现为北京大学生物医学前沿创新中心 (BIOPIC)、北京未来基因诊断高精尖创新中心 (ICG)、生物信息中心 (CBI) 暨蛋白质与植物基因研究国家重点实验室研究员、博士生导师。他长期从事新一代的生物信息方法和技术研究,其团队正在基于大数据、统计学习等计算方法和单细胞多组学技术,深入挖掘和整合高通量生物数据,在单细胞水平上精准解析细胞调控图谱并探索其在生物医药领域的应用方向。 图 | 高歌研究员(来源:受访者提供)他形象地将其团队从事的事情描述为科学地 “看相” 和 “算命”,即利用计算的方法解析生物大数据中蕴含的新生命规律。具体来说就是基于基因组、转录组等大规模组学测量数据 (科学 “看相”),通过多种计算方法有效挖掘、整合、建模,发现新现象、总结新规律,形成对生命过程的统一解析和理解,进而将其应用于生物医药领域的诊治中,实现 “科学算命”。其技术路线可以总结为 “数据导向”(Data-Oriented)、“方法驱动”(Methodology-Driven)、“干湿结合”(in silico for in vivo)。细胞是构成生命的基本单元,细胞中多种调控机制造就了机体中功能形态丰富多样的细胞群体,并进而构成了早期发育、肿瘤发展等多种关键生理病理现象的生物学基础。而现阶段,要实现 “科学看相” 和 “科学算命”,核心工作就在于精准解析细胞调控图谱。“随着近年来以单细胞多组学数据为代表的新一代测量数据爆发式增长,以深度学习、因果推断等为代表的统计建模方法不断取得新进展,以及以混合计算、弹性计算等为代表的计算技术快速铺开,我们有望在近期内精准解析人类细胞调控图谱。” “数据科学时代” “21 世纪的生命科学正在进入数据科学时代,生命科学的整体研究方法或者研究思路很大程度上都将随着数据量的快速增长而变化,这种改变将会带来巨大、深远的影响。” 高歌说。如何在海量的生物学数据中有效挖掘新的生物学知识是利用计算方法解析生命的关键,而无论是新型的深度学习模型、还是经典的统计学习方法,都高度依赖高质量的生物学数据。近年来,单细胞多组学测量技术的快速发展是获取高维度生物数据的关键之一。(来源:受访者提供)单细胞多组学测量技术是指对单个细胞包含的基因组、表观基因组、转录组、蛋白质组和代谢组等组学信息进行测量分析,从而获得单个细胞在多个层面的运作状态。在此基础上,科研人员可以进一步开发新的计算方法,从多个层面分析细胞,整合和解读不同层面的数据,以全面理解细胞的组成成分和运作机制。进一步地,在临床上,多组学数据能够帮助人们理解细胞在病理状态和生理状态之间的差异,并精准锁定诊断标志物和治疗性靶点。“作为近年来生命科学技术领域最大进展之一的单细胞多组学技术正在蓬勃发展。随着多组学技术产生的数据量持续增长,我们在历史上第一次有可能从整体上构建细胞调控图谱,进而在单细胞水平上对基因表达调控及其生理、病理结果进行精准解析,并最终实现在计算机中建立细胞调控的高精度模型,构造 Virtual Cell。” 高歌说。 “数据导向,方法驱动” “在生命科学领域,数据本身具有不可忽视的价值。然而,产生海量数据只是第一步;只有发展新的计算技术与方法解析、挖掘这些宝贵的数据,才能发现新的生物学现象与规律,并进而将其运用于生物医学的实践中。” 高歌说。“数据导向,方法驱动” 是高歌团队的核心研究路线。高歌相信,方法学(方法特指计算方法)的进步是获得新发现的有效途径,并将为从根本上提升对生命系统的理解提供全新的视角与可能。有鉴于此,该团队近年来围绕生物数据的解析、挖掘与整合,开发了一系列生物信息学新方法与新技术。截止目前,其团队已自主研发 10 余款生物信息新算法软件和数据库,外部有效访问量累计逾 10 亿次。具体来说,高歌团队已经开发出了多款深度学习模型和组件,包括最新发表的新型卷积层 vConv、新型池化层 ePooling、单细胞转录组数据整合和注释的新方法 Cell BLAST 等。据介绍,其基本思路是根据生物数据特点,针对现有深度学习模型或者组件进行调整和优化,进而从底层重构一套适用于生物学的深度学习框架。图丨Cell BLAST 模型和工作流程(来源:Nature Communications)高歌告诉生辉,对于一个计算模型的评价可以从两个方面来看,一是计算模型本身的性能;二是可解释性,也就是帮助科学家理解生物数据中所蕴含的信息与知识的能力。今年 7 月,该团队在线发表最新深度学习组件 —— 基于自适应卷积核的新型卷积层 vConv。标准卷积神经网络的卷积核长度通常是固定的,但是在生物信号检测过程中,信号本身的长度并不固定。基于此,该团队针对生物医药领域的数据对卷积神经网络里的常用卷积层进行了改良。高歌告诉生辉,该模型最大的创新之处在于通过针对细分领域的数据特点设计深度学习组件,将标准卷积神经网络中长度固定的卷积核变为可自动调整长度的卷积核。 ePooling 则是该团队开发的一种具有明确概率可解释性的新型池化层,它从概率可解释性出发,通过理性设计,对当前主流的池化方法进行了改进,不仅提升了可解释性、也提高了性能。2020 年 7 月,该团队在 Nature Communications 上发表了一种基于深度对抗学习模型的数据检索和注释新方法 ——Cell BLAST,和一个高质量单细胞转录组参考数据库 ACA。今年3月,这项研究入选了《基因组蛋白质组与生物信息学报》评选的 2020 年度 “中国生物信息学十大进展”。在比较跨数据集时,批次效应往往会降低预测的准确性和可靠性,并影响现有数据的利用,借助对抗学习方法,Cell BLAST 可以有效地消除数据之间的批次效应。此外,Cell BLAST 还能够发现存在于用户提交的待查数据集、但不存在于 ACA 参考数据集中的细胞类型。据悉,该团队还在开发深度学习模型 GLUE 以整合包括转录组、表观组、蛋白质组等在内不同维度的单细胞多组学数据,最新研究结果近期已刊登于预印本网站 bioRxiv 上。 正在探索具有长期价值的落地场景 今年是高歌加入北京大学的第 10 个年头。目前,高歌团队的工作专注于构建解析细胞调控图谱,并探索其在早期发育、消化道肿瘤和免疫相关疾病上的应用潜力。科研成果更大的意义是走向转化应用,真正为生命科学行业以及应用带来变革。对于科研转化落地,高歌也有自己的想法。“从落地角度来看,我们希望可以找到更有意义和价值的应用场景和方向。对于具体应用方向,我们需要考虑自己能够为行业提供哪些具有长期价值、长期竞争优势的科研成果。” 高歌说。(来源:cmt)虽然还没有具体的规划,但是该团队现阶段也有了一些前期的考虑和计划。高歌认为,现阶段多组学技术已经应用于精准医学研究,预计未来 5 年可能会进一步应用于精准医学临床诊断与治疗。目前在产前诊断、靶向用药等领域广泛应用的遗传筛查仍主要基于对疾病易感基因遗传变异的检测,然而,不完全外显 (reduced penetrance, 即基因型有缺陷的前提下没有表型上的变化) 等情形会严重影响最终诊断的信度与效度。高歌告诉生辉,现在实验室的一项工作就是降低遗传疾病诊断的误差,现已初步获得了一些可以降低误差的发现。目前高歌团队仍将以基础科研为主,不过他们正在探索场景落地的可能性。高歌继续补充,“如果要找到具有长期价值的方向,我觉得需要与高校的技术创新能力结合起来。从基础到应用的过程中,高校往往聚焦于 0-1 的阶段,大型企业会专注于 100-10000,而我们希望能着眼于填补 1-100 之间的空白。”-End- 赞 (0) 相关推荐 单细胞转录组学生物标志物和靶点挖掘的新方法 单细胞转录组学(sc-RNAseq)研究,可以更加有效的解释组织的异质性,从单个细胞分辨率来解释更多bulk水平上难以解释的生物学问题.已经广泛用于肿瘤异质性.细胞发育.免疫微环境等课题研究.其产生的 ... 乳腺癌高突变负荷小鼠模型中检查点抑制剂调节作用的研究 当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步.不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进,一起成长. 文献速递栏目通过简 ... Deep Genomics:一家将深度学习带到基因组学的创业公司,已融资1670万美元 基因组学正在探索DNA变异如何影响特定疾病,使用机器深度学习对DNA和细胞中关键分子的关系进行建模,从而让基因组学的研究更有效. 在用深度学习研究基因组学的时代,Deep Genomics推开了第一扇 ... 科学驿站|系统研究线粒体调控细胞命运决定全新模式 文/羊城晚报全媒体记者 李钢 通讯员 黄博纯 5月20日,广东省科技创新大会在广州举行.记者从会上获悉,中国科学院广州生物医药与健康研究院(以下简称广州健康院)研究员刘兴国团队完成的"线粒体 ... Network在单细胞转录组数据分析中的应用 男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 面向单细胞的技术革命,让我们得以进入新的研究层面, ... 21世纪最热门的职业—数据科学专业本科代表学校 [对2021商科就业排名感兴趣的朋友,可以报名参加文末的讲座.] 数据科学可以说是21世纪最热门的职业,而数据科学家被哈佛称为21世纪最性感的工作.数据学科作为新兴的"学科"成为近 ... 打造蛋白质组学领域的「AlphaFold」,西湖欧米郭天南:AI+多组学是21世纪生命科学的重要研究领域 |专访 过去不到一年的时间里,AlphaFold2 不仅破解了困扰学术界长达五十年之久的 "蛋白质折叠" 难题,并正式官宣免费开源,向公众开放了迄今为止最完整.最准确的人类蛋白质三维结构数 ... 生命科学被称为“21世纪的科学”,你对它的了解有多少? 本期专业介绍人周晓娟,内蒙古察右中旗人,现为厦门大学生物学专业博士生,从事自身免疫病相关的科学研究. "21世纪是生命科学的世纪"这句话大家一定不陌生,20世纪末就有人做此预言.如 ... 21世纪将是“数学+生命科学的世纪” 21世纪将是"数学+生命科学的世纪" 菌心说@20201105 生命科学领域的科学研究在20世纪获得了巨大发展,因而很多人相信21世纪将会是生命科学的世纪.不过,从目前的发展趋势 ... 21世纪青少年必听课——博瑞智生命成长课(现在出第二季啦) 21世纪青少年必听课——博瑞智生命成长课(现在出第二季啦) 细胞营养学——21世纪必须知道的营养科学 一个不懂营养学的母亲,对于孩子来说,是一场灾难! 许多原本可以通过食物.营养补充来解决的问题,可能因为你的无知,而导致不可预料的风险,甚至无法挽回! 女人不懂营养学,暴露在现代社会,无论你用什么品牌的 ... 营养每日说】细胞营养学,21世纪必须知道的营养科学 一个不懂营养学的母亲,对于孩子来说,是一场灾难!许多原本可以通过食物.营养补充来解决的问题,可能因为你的无知,而导致不可预料的风险,甚至无法挽回! 女人不懂营养学,暴露在现代社会,无论你用什么品牌的护 ... 21世纪三大科学难题,每个都能开新界大门 从几百万年前人类诞生的那一天起,就开始不断地认识世界.在认识世界的过程中,我们发现了许多我们无法理解的自然现象和神秘事物.由于缺乏科学的指导,古人赋予了这些不可理解的神秘现象以上帝的色彩,于是出现了许 ... 21世纪最重要科学前沿问题之一,有望解决了 ◎ 科技日报记者 张梦然 英国<自然>杂志16日发表的一项结构生物学最新研究,世界著名人工智能团队深度思维(DeepMind)描述了神经网络"阿尔法折叠2"(Alpha ...