《Science》给出的125个科学问题(17):生物大数据背后的图像

17. 海量生物学数据背后的物理图像是什么?

(How Will Big Pictures Emerge From a Sea of Biological Data?)

(本文来自科学网张林的博客)

生物学领域已经积累了丰富的原始数据,而且这些数据还在以更快的方式不断产生和完善。现在基于大规模样本探测的方法和技术加速了生物数据量的增长,例如大规模的DNA测序、基于微阵列的快速生物样本测试、全自动的基因功能测试以及人工智能和机器学习在生物实验上的应用等等,这些技术的发展进一步推动了生物大数据的积累和更新,使得世界各地共享和非共享的生物数据库都已接近饱和的边缘。现在从生物力学到生态学的许多子领域都已经数字化,而且观测数据变得更加精确和全面。现在几乎所有生物学领域都面临一个核心问题:能否从这些分子生物数据的洪流中揭示出生物系统和整个生物体是如何工作的,是基于哪些基本规律运行的?为了回答这个问题,所有的数据信息不仅需要重新筛选、组织和编译,最重要的是要找到这些分立数据间的联系,从而可以从这些数据的关联中对生物体做出基于一般性原理的准确预言和判断。

图1: 系统论的方法。上图可以显示不同神经细胞的联系和功能(来自网络)

如今,生物学已经进入了系统生物学时代,虽然这个新出现的生物学名词定义模糊而且还未形成明确的发展方向,但它的研究目标就是要将几十年来在分子、细胞、有机体甚至环境层次观测到的生物学数据放在一起来寻找关键数据点之间的联系。系统生物学试图通过数学、工程学和计算机科学的方法建立起一个严格的理论框架,将生物学不同领域看似独立的数据和发现通过这一框架和模型彼此联系起来,从而使生物学的研究更加客观定量化。系统生物学的支持者认为,这应该是生物领域取得进展的唯一途径。他们还认为,系统生物学对生物医学的发展,特别是在破译机体疾病的致病机理方面,将具有巨大的推动作用。

人类基因组序列计划的完成极大地促进了系统生物学领域的发展。人类基因组序列是一项庞大的不亚于登月计划的系统工程,人类基因组序列图谱的出现表明人类把生物遗传和进化从另一个更为微观的生物化学层次进行了重新的定义和测量。这项工程激发了研究人员试图在其他更多的机制方面去揭示生物体的生命过程。

图2: 基因序列及蛋白质表达控制网(来自网络)

分子遗传学家梦想对控制基因背后的网络有一个类似人类基因图谱的全面认识。例如,他们想找到DNA如何在不同的环境下表达不同的蛋白质,或如何调节其表达不同蛋白质的种类和数量(图2,可参见第3个问题:基因的数目)。细胞生物学家通过生物分子调控细胞的健康,追踪到了细胞之间复杂的信息通讯模式,他们想弄清楚这些复杂的通讯模式背后是否存在一套简单的信号传递规则。发育生物学家则想要得到胚胎发育过程的一个全面的图景:胚胎细胞是如何引导少数几个干细胞逐渐分化成大量在骨骼、血液和皮肤组织里实现不同特定功能的特殊细胞(见第8个问题:细胞的分化)。显然这些难题的解答只能通过系统生物学的方法来实现。同样对于神经科学家来说,他们也试图寻找隐藏在复杂大脑神经回路中的集体涌现现象,比如高级思想的产生(见第2个问题:意识的物质基础)。更宏观的尺度下,为了理解包括全球变暖在内的生态系统变化问题,生态学家则更需要将物理模型数据和生物数据结合到他们的思维之中统一加以考虑。

今天,系统生物学家才刚刚开始研究一些相对简单的数据网络。他们已经研究出酵母菌分解半乳糖(一种碳水化合物)的代谢途径。另一些人追踪了海胆和其他生物胚胎发育的最初几个小时,目的是观察不同的转录因子是如何随着时间的推移改变基因表达的。研究人员正在发展支配细胞信号网络和简单大脑回路网络运行的基本理论模型。

图3: 神经网络的连接示意图(来自网络)

将生物网路的复杂模式转化为计算机可以模拟的理论模型的困难性限制了系统生物学研究的进一步发展。网络计算模型本身是相对简单的,但如何用一种研究人员都能够理解和解释的方法或模型去描述真实的生物数据,以及如何利用数值模型结果去理解真实数据的研究工作还需要继续不断改进。目前,世界各地都在成立新的交叉学科类的研究机构,他们召集了由生物学家、数学家和计算机专家组成的跨学科研究团队,帮助推进系统生物学的研究工作。 但无论如何,它的发展目前仍处于起步阶段。总之,从目前的发展来看,还没有人能够知道,随着大量交叉学科研究工作的发展和不断提升的数值计算能力,科学家们能否可以找到隐藏在生物大数据背后的一个完整而规则的生命图像,而这个图像能够完全揭示和演绎生命体的生命过程究竟是如何运作的。

——Elizabeth Pennisi 撰文,张林 编译

(0)

相关推荐

  • 数据驱动的生命科学

    吴家睿 中国科学院生物化学与细胞生物学研究所 导读 经典的生命科学推崇假设,追求机制.然而,人类基因组计划催生了生命科学的新范式,即数据驱动的研究范式.这种新范式打破了传统的决定论局限性,进而形成了开 ...

  • 脑肿瘤的影像组学:图像评估、定量特征描述和机器学习方法

          影像组学描述了从影像图像中提取定量特征的一系列计算方法.其结果常常被用于评估影像诊断,预后以及肿瘤治疗.然而,在临床环境中,优化特征提取和快速获取信息的方法仍然面临重大挑战.同样重要的是, ...

  • 《科学家》评选出2020年十大创新科技成果

    2020年对全球所有国家和所有人几乎都一样"待遇"--深陷新冠疫情漩涡中,无一幸免. 然而正因为疫情爆发,也诞生了极具时代特色的十大创新技术和成果,包括快速检测筛查新冠病毒的分子技 ...

  • 友达以上,恋人未满 | 生物信息学分析与生物学问题

    写在前面 标题对部分人来说,可能稍有奇怪,不过我发现我似乎却找不到更好的词句来描述这一关系,难道是用暧昧?那似乎也不甚恰当.此处不做纠结. 最近我针对某个生物学问题,大体看了一些文献,多半还是看得细致 ...

  • 二代测序技术中生物信息学的应用

    随着科学技术的巨大进步,产生了大量的"组学"数据.理解生物系统各个层次产生的大量序列和结构数据是关键,由此产生了"生物信息学". "生物信息学&quo ...

  • Deep Genomics:一家将深度学习带到基因组学的创业公司,已融资1670万美元

    基因组学正在探索DNA变异如何影响特定疾病,使用机器深度学习对DNA和细胞中关键分子的关系进行建模,从而让基因组学的研究更有效. 在用深度学习研究基因组学的时代,Deep Genomics推开了第一扇 ...

  • Science:人类基因组计划完成20周年,仍有9大问题尚待解决

    1990年正式启动的人类基因组计划(Human Genome Project, HGP)与曼哈顿原子弹计划和阿波罗登月计划并称为三大科学计划. 作为一项规模宏大,跨国跨学科的科学探索工程,HGP的宗旨 ...

  • 美国AI安全委员会主席:AI和合成生物学让更多新材料的生产成为可能

    此前,拜登在给总统科学顾问 Eric Lander 的一封公开信中提出了 5 大问题,在信中询问未来美国应该如何在科技领域确保领先地位,并探讨了中美从AI到合成生物学领域的竞争. 日前,美国国家 AI ...

  • 科研 | 微生物学研究,用多组学就够了吗?

    需要本文原文可以联系江舜尧,文末有联系方式. 原文题目:Are multi-omics enough? 期刊:Nature Microbiology IF:N/A 发表时间:2016年7月26日 通讯 ...

  • 路径

    什么是系统生物学 系统生物学(Systems biology),是一个使用整体论(而非还原论)的方式,整合不同学科,层次的信息以理解生物系统如何行使功能的学术领域.它是研究生物实体各个组成部分相互作用 ...

  • 【LorMe周刊】如虎添翼----当噬菌体疗法遇到基因工程

    作者:李婷婷,南京农业大学博士在读.主要研究根际噬菌体-有益菌协同阻控青枯菌ARGs生物复合污染. 周刊主要展示LorMe团队成员优秀周报,每周定期为您奉上学术盛宴!本期周刊介绍通过合成生物学加强噬菌 ...