生命形式曾经多次发生?多重视角探寻生命起源的理论结构
导语
生命是什么?生命如何从非生命物质中产生?如果地球生命并非生命的唯一可能形态,寻找系外生命时,我们该如何确定自己发现了生命?要回答这些问题,需要我们扩展对生命的定义,创建一个更普遍的生命的统一理论:生命或许是一个连续的光谱,而非只有生命-非生命的简单二元划分。
2021年7月,来自圣塔菲研究所的研究人员在《分子进化杂志》(Journal of Molecular Evolution)发表综述文章“多层生命的多重路径”,提供了一个关于生命起源的新视角,认为生命已经在地球上出现了很多次,而生命的形式比传统定义要广泛得多——文化、计算和森林,都是新的生命形式。当我们对生命的起源和形式有更广阔的认知时,一个新的生命理论可能会随之产生。
研究领域:生命起源和演化,生命的层次结构,通用计算,生物化学,生物物理
论文题目:
The Multiple Paths to Multiple Life
论文链接:
https://link.springer.com/article/10.1007/s00239-021-10016-2
我们主张多层形式的生命源自多重不同的历史路径。以这个视角看,地球上存在多重生命起源——即生命并非一个统一同源物。通过扩大起源类别,我们大大拓展了用于寻找生命的数据集。若用计算类比,生命起源描述了硬件(物理基础)和软件(进化功能)的起源。像所有信息处理系统一样,适应性系统拥有一个嵌套式的层次结构:一个功能优化层(例如最大化适应度)、一个物理约束层(例如能量需求)和一个物质质料层(如DNA或RNA基因组和细胞)。生命的核心功能是由不同的基质以不同的效率实现的。功能层使我们能够在不同质料形式中寻找关键优化原则,以识别生命的多重起源,包括原始细胞的前生物起源,文化、经济和法律机构的出现,以及作为软件的主体的繁殖等等。
一、引言:生命无处不在
将我们对生物学的经验理解与可能超越它的逻辑原则结合起来,带来持续的科学挑战是创建一个生命的统一理论。(Cleland 2019; Goldenfeld and Woese 2011; Goldenfeld et al. 2017; Walker et al. 2017; Walker 2017; Davies and Walker 2016; Walker et al. 2018)。一直以来,寻找不依赖于进化约束和生物化学质料的原则令人十分着迷,但到目前还没有形成关于如何识别、量化或创造生命的完整理论(Langton 1984; von Neumann 1966; Langton et al. 1992, 1994; Küppers 1990; Yockey 2005; Walker and Davies 2013)。应对这一挑战,将有助于解决自然科学和生物学在通用性和普遍性问题上面临的几个最有趣的问题。这些问题将包括以下几个方面:(1)生物机制是如何从非生物机制中产生的?(2)若与地球上的生命有实质性不同,我们如何确定自己已经发现了生命?推而广之,如何验证一个环境是否真的没有生命,例如来自土卫二的冰层样本?以及(3),我们如何能更普遍理解生命起源和维持的可能性范围?
从进化的角度来看,定义生命的核心挑战是需要区分描述已知的进化轨迹,然后建立完整的生命可能性空间。没有人想把生命科学限制在地球上目前的认识上,先前的工作已经告诫生命起源研究者,要研究「我们与生命世界相关各种组织现象的发端」(Scharf et al.2015)。我们将生命定义为能量和信息两个关键过程的结合产生的一个自治系统(autonomous system),该系统可以从具有适应性/生存价值的环境中新陈代谢,提取和编码信息,并随时间向前传播(Krakauer et al.2020)。在此我们提供了一个关于生命起源的新视角,认为生命已经在地球上出现了很多次,有许多现存的生命形式共存在各种物理基质上。为了有助于解释这一立场,我们先将生命理论组织为三个主要观点:以现存为中心、以历史为中心和以原则为中心。
以现存为中心(Extant-centric)的方法侧重于现有生命的特征和比较。这是生物学作为一门学科的第一重点。以历史为中心(History centric)则侧重于导致产生现有生命的具体进化轨迹,包括地球上生命的具体起源及其保有的分子特征。而以原则为中心(Principle centric)的焦点,则是根据所有可能的演化轨迹和所有可能生命起源的共享特性对生命进行概括。在每种情况下,关注焦点都应被解释为优先考虑某种工作风格下的观点。
大多数人都同意,需要从以现存或以历史为中心的生命观点转变为以原则为中心的观点。然而由于现实原因,这一观点仍未得到充分探讨,含义也尚未得到充分认识。人的天然的倾向是将生命与地球生命联系,往往将支持生命的普遍机制局限在地球物种间的机制上,正如最近发现的拥有共同分子生物的原始祖先那样。从生存至上原则(living-principles-first)角度看,生命可以根据独立于偶然演化历史的一套适应性功能来定义。例如,生物体的宏观功能特征可以独立于其分子或发育机制来理解定义(如各种植物和哺乳动物最优特性的血管网络;Savage et al.2004; West and Brown 2005)。以此类推,可以使用硬件支持细节不同、且在多数情况下能逻辑独立描述的有效软件的方式来定义。
这种生命观自然为许多不同系统中的各种起源提供了可能性。这也是一种复兴经典自然历史观的观点,即按照形式和功能对生物学进行分类,以区别于现代演化论综合和分子生物学革命根据谱系对生命的分类。虽然这些早期的观点缺乏自然选择进化的统一框架,但他们认识到功能相似性以及我们在令人惊讶的生物同质性方面的想法。我们希望将这些相似之处概括为生命理论的成分。可能是对生命进化的关注使我们对生命的其他一般原则视而不见。虽然这些早期的观点缺乏自然选择进化的统一框架,但他们认识到了功能上的相似性与我们所认为的生命惊人的异源同型(homoplasy)。我们希望将这些相似性概括为生命理论的成分。可能是对进化的过度关注使我们忽略了生命其它的一般原则。
对于以原则为中心的生命定义,沿着演化轨迹可能有许多不同类型生命的起源。有些轨迹甚至可能会从生命状态先过渡到非生命的优化状态,然后再重新产生生命。我们认为自动数字计算机(autonomous digital computers)就是这种可能性的一个例子:它们最初是由生命创造的,作为非生命的信息处理机器,但可能为后来的新型生命提供基质,例如通过进化模拟(一个很初级的例子)和自主人工智能(一个更复杂的例子)。重要的是,计算机终究会扩大我们的生命的概念,人类-晶体管系统总体上居住在不能独立存在,类似于许多现存的互惠互利关系的生命空间内。
有点令人惊讶的是,这种途径表明,与普遍认为生命具有单一化学起源和基础(以历史为中心)的观点相反,生命实际上已经在地球上进化了很多次。生物化学层面的生命可能有某个独特的来源,但具有涌现更高层次生命特征的聚集体却没有。
这迫使我们对起源的概念和首次发生的事实进行区分。这与进化论中的相似性和同源性概念(homology)非常自然地联系起来。生命本身通常被认为有所有生物学的祖先,因此是最终同源性的,而我们则有点反直觉地认为,生命应该被认为是相似的(analogous),或更严格地说是同形的(homoplastic)——一组在进化过程中在不同谱系(lineages)独立获得或失去的特征。生命应该被认为是这一类特殊的趋同进化。地球上生命的多重起源在 LUCA 中恰好有一个共同的历史轨迹。如前所述(Walker 2020),如果新生命是在计算机或实验室中创造的,那么这些特定的基质将由人类设置,并会与 LUCA 建立因果关系。
Scharf 等人(Scharf et al.2015)首先提出过一个与这里类似的论点,即基于历史、合成(synthetic)和普遍属性的生命分类,并通过这些类别之间的重叠来定义子领域。他们令人信服地指出,从非生物地球到生物地球可能有许多路径,有各种潜在的瓶颈、交汇点和分支点。而我们,则增加了从有生命到无生命、再到有生命的各种多重转换(例如,从现代人类社会到固体设备、再到基于软件的计算机病毒),并且这些多重转换发生在生命层级的一系列不同层次上。这意味着该原则(或 Scharf et al.2015中的普遍)层次涌现出了丰富的生命类型,当我们采用适当的理论视角,就已经对地球上生命的多重起源进行了观察,包括许多文化进化的产物。这与刻画生命「不是解释状态本身,而是解释路径」(Walker 2017)的观点不同,因为我们对确认进化终点的同形质性的理论感兴趣。
二、生命过程的光谱
将生命定义为一种能够从具有适应性/生存价值的环境中代谢提取和编码信息,并通过时间向前传播的自治系统,并没有利用复制或分隔(compartmentalization)的概念,而是建立在最近将生命的明确特征(如个体性)置于定量谱系基础的努力上。其中关键思想是将生命与信息理论中的自治性措施联系起来,后者描述了系统过去传输到未来独立于环境的信息(Krakauer et al. 2009,2020)。通过这种方式,生命能够囊括各种不断进化的系统,所有这些系统都可以通过它们高效可靠地将自适应信息从过去传播到未来而被识别出来。我们不把生命定义为任何进化系统,因为其中许多系统不拥有自主性或个体性,而是完全通过外部约束和设计获得其功能特征(例如,通过侵蚀作用减少摩擦力简单滚动的石头,或从金字塔到摩天大楼等人类复杂建筑的例子)。
为了说明为什么需要以这样的生命理论作为基础,请考虑以下分类谱系:病毒、细菌、多细胞动物、生态系统、行星。现在请问这些系统中哪一个代表生命?地球上几乎每个生物学家都会同意细菌和多细胞生物是活的。但病毒却有争议性得多,因为它们只在代谢和编码能力上具有最小的自主性组合(如 Villarreal 2004)。但是,人们用来排除病毒的所有论据,对许多细菌物种来说同样是事实,比如强制性的共生体(obligate symbionts)。那么多细胞生物体中的单个细胞,或者这些相同生物体中生殖细胞和体细胞的区别呢?是不是只有整个多细胞体才是有生命的?既然食肉动物的新陈代谢不是完全自主的,那么它们能被视为生命吗?如果人们接受细胞和整个身体都是生命的形式,那么为什么个人和生态系统就不是一种生命形式呢?这些众所周知的争论,凸显了在发现既没有细胞也没有身体的新生命方面达成一致是多么困难。使用磷化物作为可能的生物标志已经被证明是一个有争议的话题(如 Sousa-Silva et al.2020;Cockell et al. 2020),但更加难的争论潜藏在可能看起来完全不同的生命中。问题就是,我们无法就「活」细菌与病毒问题的答案达成一致,因为我们没有一个基本理论可以定量地将「生命性」(livingness)分配给每一个自治动态系统(autonomous dynamical system)。依靠特征列表的问题是,列表永远不会与过程相加。
在这种情况下,将生命的概念与计算过程的概念联系起来是非常有用的。这些联系已经在关于生命的一般观点的背景下被探讨过 (Walker and Davies 2013)。在这里,我们并不是说生命是一种计算,而是说物质与逻辑在通用计算中的划分——所谓「无穷的开始」(Deutsch 2011)——恰恰是扩大我们对生命现象的研究,超越字符列表而走向功能过程所需要采取的步骤类型。这种方法在某些方面也类似于「脑-心」和「基因型-表型」的二元对立,二者都强调物质领域和编码或功能领域之间的关键区别,也同时允许两者之间存在重大的共同依赖。我们重点强调最近为各种生命特征引入定量谱系的努力,例如个体性(Krakauer et al.2009,2020)、主体(Kolchinsky and Wolpert 2018),和对象需要多少组装(Marshall et al. 2017a, 2021; Murray et al.2018)。
跨层次的生命
我们的目标是通向生命的一般化概念和度量,而非致力于特定的特征或实现(Goldenfeld and Woese 2011;Goldenfeld et al. 2017;Walker et al. 2017;Walker 2017;Davies and Walker 2016;Walker et al. 2018)。采用的策略是引入一种分层或多层次框架来思考生命,灵感来自于 Marr(Marr 1982)的视觉信息处理层次理论(深入研究心智和大脑,会发现颇像对表现型和基因型的区分)。Marr 区分信息处理层次的方法,是一个说明我们想要建立的理论类型的有用类比,尽管生命层次之间的依赖性比 Marr 考虑的要大很多。
Marr 提出,所有信息处理架构都拥有三个基本层次。一个计算或功能层,描述所计算问题,例如在视觉场景中识别一个物体,或在一个复杂的生化混合物中分离气味。一个支持算法或程序层,实现所需的迭代计算,例如深度卷积神经网络或定向梯度直方图。还有一个基础的硬件实现层面,支持实现计算的软件,例如一台通用计算机、一个现场可编程门阵列,或一个图形处理单元。所有这三个层次都是必需的,且每个层次的组成都可以用其它工作替代方案来代替。至关重要的是,这些层次中的每一个都通过架构的基本约束与热力学进行互动。
在图1中,我们探讨了如何在每个层次的计算、生物结构及过程之间进行映射。
表1:三个分析层次上的普遍与偶然性理论
对于生命,我们引入了三个相比较的层次:一个优化层,一个约束层,和一个质料层。这些在表1中列出并定义。这种方法被广泛接受的前提和理由,是从适应性信息的角度来理解生命。这个层次结构直接来自于这个假设,并没有强烈主张生命是一种计算。并且这些本体论层次不应该与物理-空间层次相混淆。例如,优化发生在许多物理层面,从基本的分子机制到生态系统工程。这样一来,这三个层次可以实现大量的嵌套。表2中列出了几个例子。
- Level 3:优化。生命需要最大化适应度,最小化代谢自由能耗散,有效地编码适应性信息,并在面对竞争对手时实现战略稳定(如 Walker and Davies 2013)。这一层次的抽象框架包括问题的逻辑元素、信息措施、自由能、算法复杂性和几何学。涉及这些框架的生物理论包括,种群和定量遗传学、演化博弈论和适应性动力学。
- Level 2:约束。物质或物理世界的通用法则,对L3正在优化的内容施加的基本且不可避免的约束(Schrodinger 1944;Goldenfeld et al. 2017;Goldenfeld and Woese 2011;Walker 2017;Kempes et al. 2019;Bialek 2012;Kaneko 2006;Walker et al. 2018)。包括基本架构(维度、拓扑结构、守恒律)和设计原则。涉及这些约束的生物理论包括反应-扩散系统和斑图形成(Turing 1952)、异速缩放律(allometric scaling laws, Schmidt-Nielsen and Knut 1984;Niklas 1994;Savage et al. 2004;West and Brown 2005),通过调节作用的渠化(canalization)、孟德尔隔离及反例、中心法则及反例,以及信息聚集机制,包括群体编码和赢家通吃动力学。
- Level 1:质料。可感的物质和物理的化学特性,并对L2和L3的范围施加限制。包括大部分的无机和有机化学,运动学原理,自组装和生物物理规律。这个层次的生物理论包括细胞理论、分子动力学和蛋白质折叠、细胞排列动力学和各种介观规律,如刘易斯定律(Lewis’ law)(Lewis 1928)。
图1. 生命的层次。
所有生命形式在三个平行的层次或状态空间内,同时遵循由物质属性、约束面和优化原则所支配的轨迹。在L1中,每个种系发育图示了一种可能的演化轨迹,每个轨迹都与不同的物质起源有关。以历史为中心的生命方法将生命等同于整个系统发育史。以现存为中心的方法则寻求系统发育终端分支之间的共性。L1中所有的点都多对一地映射到L2的点中。L2的点集则描述了物理约束的空间,包括物理规律的限制。演化约束是L2中点的子集,我们将其描述为生命系统的物理学。L1和L2中的所有点都服从由L3中点的集合定义的行为或优化原则。一小部分优化原则,如适应度最大化(maximization of fitness)和相关概念,定义了L3中的生命行动原则的空间。以原则为中心的生命方法将生命定义为L1内的物质轨迹的进入和限制,该轨迹在L2中受到约束,并只能在L3的生命优化原则所限制的空间内移动。L1中每个物质系统的发育在整个宇宙中可能都是不同的,但仍然可以映射到L2中类似或相同的物理约束集。例如,L1中的蓝色和红色系统发育映射到L2中的同一组约束,这些反过来又投射到L3的生命空间。此外,生命系统可能产生非生命的后代。在这里,我们用橙色展示了一个假想的人工智能,是如何起源于绿色系统发育的生物终端分支,并受L2的工程约束和L1的非生物优化原则支配,游历到生物之外的。相反,非生物质料通过生物技术产生新的生物生命形式也可能,即通过L1-L3的非唯一轨迹允许多种生命存在的可能性。| 图片来源:Mesa Schumacher
图1说明了这三个层次之间的关系,在这三个层次中,人们可以清楚地看到相互关联的进化轨迹。经典的进化过程在L1中实现,描述了谱系的起源和多样化。L1中的所有进化运动都受到物理守恒定律(如能量守恒)和演化限制(如异速生长)的约束,它被描画为通过L2空间的可接受路径。而通过L1和L2的路径则以L3的原则(如自然选择)为指导。以现存为中心的生命视角,涉及从树的所有末端分支的比较中作出的推论,通常是在L1中,因为以历史为中心的视角包括L1中的整个进化树。L2和L3对L1和L2中的轨迹进行了粗粒度处理,代表了生命的退相干历史(decoherent history),即L1中细粒度的历史簇映射到L2和L3中较少的轨迹或点。
这个框架突出了各层次之间的复杂联系。首先,也是最简单的,每个层次的演化速度会大不相同。通常在L1中发生巨大变化,不会改变这些质料在L2中遵循的约束或L3中的优化原则。例如,体重可能会在几代或不同类种群之间相对较快发生变化,但质量随新陈代谢的比例将在很大程度上保持不变。相反,在L1中的微小变化却可能会导致L3中的重大转变。例如,影响躯体结构(body plan)或突变率的突变可能改变选择对种群的作用方式。例如,基因组可以在不改变整体表型情况下,通过在同义密码子(synonymous codons)中进行选择来获得特定的GC含量(译注:所研究对象的全基因组中,鸟嘌呤(Guanine)和胞嘧啶(Cytosine)所占的比例),除非生物体有环境要求(e.g. Mann et al.2010)。这是环境对基因型选择施加的物质约束,即对整个生物体特征的选择表型影响独立于基因型。生物体特性发生了变化,但不是通过基因型到表型的映射,因为那是保存在氨基酸编码水平的。
L2和L3与普遍的抽象和数学原理、以及非生命的宇宙最直接相关。L2通过能量和信息约束在L3上引入了各向异性和偏差,它总是会以这样或那样形式偶然出现。L3原则描述了变分原理(variational principles),其中之一是自然选择的进化,这是任何形式的生命都需要的。至于L1则是最具有路径依赖性、偶然性的,并受到L2和L3共同制约。
通过从L1到L2到L3的一一映射,断言L1的普遍性相当于把生命描述为唯一物质可实现性。这在文化领域类似于研究某种语言的演变,而不是更广泛地研究整个语言的演变。我们需要考虑某个版本的所有三个层次,才能解释伊格博语、法语或日语的起源,其中声音产生和感知的物理约束与优化相互作用,使产生信号的时间或能量最小。
一种常见的观点是,L1是最普遍的,因为它最接近需要遵守物理定律的宇宙物质基础。例如,Smith 和 Morowitz 就认为,考虑到非平衡热力学因素和环境组成,核心代谢可以被理解为最可能的自催化网络,并且这些网络不是任意的(Smith and Morowitz 2004; Morowitz and Smith 2007)。这使得这一层次的特定组合,如生物化学,成为所有生命可能出现的模板。然而,我们应该小心地从这个例子中提取原理——例如找到最有可能以环境为条件的自催化网络——并将这些原理置于各种非生物环境和行星条件的化学组合的巨大空间中,以试图全方位理解质料可能性。
这种层次结构最能说明问题的例子是L1和L2之间的联系。例如,生命通过许多L1机制利用许多能量梯度进行有用的新陈代谢。但所有这些都符合热力学定律,没有一个细胞会被发现含有比环境提供的总自由能更多的内部结构(Schrodinger 1944; Morowitz 1955)。这个众所周知的结果,说明了一个一般的L2原则,在这种情况下,热力学定律在许多L1实例上实现。
如前所述,生物现象需要明确考虑所有三个层次。例如,由于在特定L2约束下的特定L1架构,具有近乎完美的L3优化,异速生长定律得以体现。事实上,我们期望更多丰富的生物概念是由三个层次的「奇怪纠缠」(strange tangle)来定义的,因为这三个层次将不可避免地共同进化。
类似的也有人提出,虽然生命的所有属性都需要物质实例化(L1),并服从能量约束(L2),但在优化表示、信息存储和处理方面出现的信息系统类别(L3),服从独立于基本物质方面的更普遍的规律(Davies and Walker 2016; Walker 2017; Krakauer 2017; Krakauer and Jansen 2002)。
虽然生命的信息存储和处理系统通常基于不同的物质组成(质料层面),但每一种都通过非常普遍的原则实现了更高的效率或鲁棒性,如纠错、稀疏编码和分形架构(Flack 2017; Davies and Walker 2016; Walker 2017; Krakauer 2017; Krakauer and Jansen 2002; Smith 2008; Cronin et al. 2006; Kempes et al. 2019) 。
在这个框架内,我们将把生命定义为L3的某些超区域,所有这些都需要能够支持适应性的历史。这些超区域的形状可能相当曲折,可能有一些不重叠的区域分别代表生命,但最主要的思想是我们希望允许这样的场景,即一些事物可以沿着L3的高维轴线上的各种值的组合被定义为生命。例如,某物可能在「智能」或信息能力轴上很远,但接近「鲁棒性」轴上的原点,仍然可以算作生命。其它的可能具有相对最低的智能,却具有非常高的鲁棒性,同样可以是生命。我们未来工作的目标是确定L3中生命最低要求的高维曲面。
普遍生命类比于通用计算
在考虑以原则为中心的生命视角时,一个有用的类比是,计算的概念和它在某种程度上尺度独立的特征。说晶体管计算、CPU计算和计算机网络计算是完全准确的,因为其中每一个都在执行一种功能,由一种算法实现并由相应硬件支持。
这个列表中的每一个元素都拥有L1-L2-L3的所有层次。在每一种情况下,我们都在应用相同的L3逻辑原理(传统的邱奇-图灵原理(Smith 2020)),在每一个层次,我们观察到不同的L1-L2计算能力、效率、约束和应用范围(Davis 2018)。
我们承认,如果没有最低的物理元素,许多高阶结构就不会存在。事实上,所有的L3都只能存在于物理物质上。而在由特定的L2约束所定义的特定环境中,可能有非常狭窄的L1范围,才允许L3被实现。
但是,我们并不会说只有晶体管才会计算,所有高阶计算只是晶体管的二进制操作的下游实例。每个层次都可以被理解为计算,以至于每个层次都可以在某种程度上独立于L1-L2的语言来描述L3的语言。不允许这样做将代表一种极端形式的计算还原主义,并严重限制硬件和软件工程的范围——你的个人电脑和它的逻辑门一样是一台电脑,它们只是计算不同的功能,同样的想法可以推广到形成互联网的电脑网络。这种物理层次结构对于有效的科学计算至关重要(Brandt 2002)。
此外,在这一点上,我们也像其他人一样 (Walker and Davies 2013),区分了两大类计算机——模拟和数字——它们在硬件和软件方面都有不同,在使用连续变量与离散变量以及差分硬件元素与不连续硬件元素方面反映了设计的根本差异——L1和L2的差异。然而,两者都能实现图灵完备性(Bournez等人,2013)这一L3的关键特征。
将这个类比追溯到生命,我们不应该将微观的质料属性与宏观的逻辑能力混淆。或者将一种生命机制的首次出现与相反的生命机制的起源混淆。通过避免这些陷阱,我们可能会发现许多「生命」进化的案例,以及支持每个案例的共同条件。我们也应该对一种类型的生命生存于另一种类型的生命上感到舒服,例如文化进化是一种在人类集合上实现的生命类型,与考虑在几个图灵完整的计算机甚至图灵不完整的计算机上实现的图灵完整的软件或互联网没有根本的区别。
一个关键的思想是需要关注「物理体现与能力的分离」(separation of physical embodiment from ability),以及一个系统是否能够模仿细胞功能(类似于另一个计算类比,图灵测试)而不受大小和组成的影响(Cronin et al. 2006)。虽然我们支持这种观点,但我们在鉴定和定义了活体特征的理论挑战,和确定各种质料中特定细胞特征的实验挑战之间进行了区分。
计算的例子也有助于说明各层次的相互关系。如果有人想在一个特定规模的数据上、某个理想的运行时间实现一个特定的算法,那么就会对一个散热足够强以避免部件融化的L1提出严格要求。这可能表现为在L2约束下散热主导的架构和质料解决方案。类似地,如果细胞想要在特定温度下避免误差阈值,则可能会限制哪些分子能用于信息存储。
某些类型的L1只能从它们正在实施的L3 原则以及受到的L2约束的角度来理解。L1 中的生命特征需要对特定L3和L2进行调节。发现生命的秘诀是认识到一般的L3原则正在 L1质料上实现,同时特定的实现又反映了一组 L2约束。当L3优化在特定的L2约束下发生时,L1就成为一种特殊的质料。表2中描述了其中的一些对应关系。
表2:如何在三个分析层次上描述封装(encapsulation)的机制
03硬件、软件、机制和功能
计算机科学并非独立于硬件,它相当关注特定算法的硬件要求,或给定硬件约束下算法构建(Steiner and Athanas 2005)。硬件和软件的区分能促使协同效应,如使用GPU来支持深度学习架构和训练。在为某种问题编码时,计算机语言的普遍性,创造了显著的自由度。
以此类推,对生命系统,我们可以期望看到来自L2的共同约束对多种不同质料和设计进行干预。例如,最有效地分配代谢资源或传播信息的网络结构。
然而,这并不是自然界的硬性约束或「法则」,因为不同谱系会发现解决普遍问题的不同方法。当涉及到生命时,标准的生物学观点倾向于关注实现特定生物功能的单一或有限的方式(例如,RNA和DNA作为通用遗传编码用于遗传,ATP用于能量)。这种观点勾勒出了从L1到L3的唯一路径。因此生物起源的标准模型是相当狭隘的,可能会因为过于轻易地把功能(软件)映射到基质(硬件)上,而忽略了各种类型生物演化过程的本质。最近在重新编程遗传编码方面的进展就很好地说明了编码多元化的真实价值(Chin 2017)。
当我们更广泛地考虑遗传时,我们会发现各种突变和转移机制,包括水平基因转移、表观遗传学、RNA干扰和拟性重组。每一种都代表了管理信息保存和适应之间紧张关系的各种物质机制(Jablonka and Lamb 2014),而扩展了仅支持一种特定功能的基质类别。
因此,有关信息存储、传输和功能等要求的问题,其实都是生命在适当层次上所需功能的一般问题。至于什么样的信息处理和存储分子有可能从一个给定的地质情景中涌现,则是关于实现生命所需的L1层硬件具体问题。
一旦我们将这种二分法概括为生命的层次结构,就会扩大可能支持生命的机制的数量。例如,我们设计的数字计算机使用的硬件与细胞完全不同,也不需要进化的细胞生物分子,但在信息存储、易错信号传递以及L2和L3的信息处理等概念方面,与生命有相当多的重合。这种重合是探索人工生命的可能性和多样性的支持理由之一(Bedau et al.2000)。
硬件软件二分法是任何系统的一个普遍特征,可以通过功能编码语言和物理机械语言来描述。因此它是生物学和生命起源的一个核心概念,通过这个视角看,生命是硬件中软件的表现。
层次、列表、公理和普遍化
在定义生命的努力中,大部分聚焦在特征列表上(如,Trifonov 2011;Kolb 2007;Benner 2010;Bains et al. 2014),或对我们而言,机械公理。然而,对于这些公理中的大多数,我们发现有例外情况,这会产生更多普遍的生命原则(Cleland 2019;Goldenfeld and Woese 2011;Goldenfeld et al.2017;Walker et al.2017;Walker 2017;Davies and Walker 2016;Walker et al.2018;Kolb 2007;Cleland 2012;Benner 2010;Bains et al. 2014)。
复制是生命中最常被引用的「机械公理」之一(Trifonov 2011)。其它公理包括内源性代谢、容器或半渗透性界面,及演化能力。
如果把复制作为L1物理特征的一个例子,我们会发现在大多数情况下,它是核心L2要求的代理,即生命需要一种阻止熵产生的方法(England 2015)。复制通常是一种持续化的手段(Pascal et al. 2013),包括将对手排除在共享资源之外,或者通过不完美的复制将变异引入种群助长自然选择的方式。在没有复制的情况下,也有可能观察到所有这些特征,或在多层次组织中观察到(Boerlijst and Hogeweg 1995)。
完全能够修复调节回路和避免死亡的实体(例如,来自捕食、竞争者对基本资源的消耗或等价物),不需要复制就能持续存在。在一个完全稳定的环境中,生物体没有适应的需要,因此没有复制的要求作为引入遗传性变异的手段。需要指出的是,即使适应是必要的,它也可以通过多种方式实现——从表观遗传学的修饰到发育的可塑性——而不需要一个易错复制过程。
一个无复制修复的好例子来自误差校正码(error-correcting codes)领域。这些编码广泛运用冗余,以确保信息不会劣化。没有一个计算机科学家会把基于冗余的纠错称作复制,其真的在硬件或软件的任何层面上都没有发生「复制」。纠错实际上是一种简单的计算,与执行求和并无不同。它是典型的布尔「OR」函数,与复制相反,这些逻辑映射总是映射自较大的冗余编码,例如,10、01和11映射到较小的输出1上。
从这个例子可以看到,没有复制也可以抵抗熵,复制实际上是与适应变化环境有关的持久性机制的一个子集。因此,原则上我们可以用一种关键特征取代生物学中两个最常见的机械公理,以一套更广泛的促进持久性的机制,把复制作为稳定性机制中的一种。
同样,更一般地说,物质和能量是生命的必要先决条件。强加于生物体的物质和能量约束都可以提供高度信息和预测,例如通过它们在异速生长中的表现。但两者都不足以确定某物是否有生命。毕竟,物质和能量约束是非生物宇宙的重要组成部分,也是所有物理理论的关键成分。
为一个普遍的生命理论找到真正的基本原则是一个具有挑战性的开放问题。例如,自然选择的适应过程已被推广到许多系统,包括生物物种、文化、语言和技术(Krakauer 2011)。对自然选择(L3)的适应需要(L1-L2)机制 ,使得来自环境的信息能够编码到主体的记忆中。记忆使用各种不同的纠错码进行存储,所有这些编码都会利用结构化冗余 (L3),只不过存储的载体多种多样,如DNA、表观遗传标记、突触结(synaptic boutons)和固态晶体管(均为L1)。
通过结合L3中自然选择的优化原则和纠错原则,出现了一个新的L3原则——误差阈值(error threshold,Eigen 1971)。误差阈值指在一个不断进化的系统中可以达到的最大错误率,从而使最合适的谱系血统(lineage)得以保留。并且,这个新的限制可以映射到可变异传播对象类别中的任何系统,只要人们了解信息存储的独特机制、可变性和信息的效用价值。
在细胞中,这个特征列表包括L1属性,如基因组的生物化学,基因组复制过程中的突变率,以及基因型的总长度。在文化进化中,人们可以将同样的动态过程映射到一套L1水平的书面语、准备学习和传播口语的概率、语言的总规模或词汇量上(Nowak et al.1999)。
通过这种方式,我们发现了一种涌现L3的新原则,它提供了一种方法,将明显不相关的现象归纳为一类遵守共同耗散原则的信息动力学。所遵守的这种原则可以成为更广泛意义上的生命的新公理。
这就是为什么我们会认为,生命中L1-L2的机械公理需要被扩展和概括为以原则为中心的L3描述,这将便于我们能够理解、探测和构建宇宙中任何背景下的生命。
从生命到生命等价性
我们的焦点是寻找普适的生命理论(Cleland 2019; Goldenfeld and Woese 2011; Goldenfeld et al. 2017; Walker et al. 2017; Walker 2017; Davies and Walker 2016; Walker et al. 2018),主张各种概念方法都有可能拓宽我们考虑的生命起源,使我们重新思考生命的许多经典「机械公理」。
我们的主要方法之一是,将生命理论与物理学和计算理论进行比较。通过在生命和计算之间进行类比,我们自然地得出了普遍性的深刻问题。现代计算机既是可编程的(可以被配置计算各种功能),又是通用的(计算给定某类所有功能),这两个想法都起源于图灵和邱奇对判定问题(Entscheidungs problem)的证明。他们证明不可能通过算法(即计算)解决一阶逻辑的所有语句。证明中图灵和邱奇严格阐述了算法、计算及其物理实现等概念。图灵等价性的概念包含了所有可相互模拟的计算机集合(双向模拟)。
双向模拟的想法可以拓宽我们对生命的思考,只要生命可以用逻辑和算法的原则来描述,就值得确定生命的功能在多大程度上可以由通用的硬件来支持,或者通过与图灵等价类比——「生命等价性」。使用这里发展的框架,这样的等价将是一个以原则为中心的L3描述。具体来说,如果L1中的多种质料都能通过L2映射到L3中的同一生命空间,那么它们就具有生命等价性。
这显然是一个非常具有挑战性的问题,但从计算领域正反两方面都可以得到一些见解。自从图灵和邱奇的开创性论文发表以来,人们发现有一类相当大的、不太可能的离散动力系统和软件系统却是图灵等价的,包括「生命游戏」、计算机游戏《Minecraft》和《扫雷》,从 Lisp 到 Python 最常用的计算机语言、标签系统、扩展L系统、费曼机和随机存取机等等。如果如此多样的系统都是通用的,人们就会想,这个概念对我们理解每个系统会有什么价值。
等价的积极价值在于确定这些系统中每个系统的共同属性,包括离散状态、记忆状态、可编程状态、可靠的状态转换函数和终止标准。这意味着至少这一点上,我们对如何建造计算机以及它们将以何种效率水平运行有了非常强大的思想。
等价类的负面含义也正是它的一般性。如果生命在宇宙中是罕见的,而我们的生命等价原理表明,各种不同的质料都可以产生持久性、竞争性、适应性和可进化性,那么我们该如何调和这些事实?
我们的论点是,生命的起源比通常认为的更为普遍和多样,至少在等价原则的层面上是如此。但这并意味说地球上相当独特的生命历史是常见的。支持地球上生命首次出现的特殊化学成分,事实上可能是一种相当罕见的通用生命机器,这就是为什么尝试完全合成前生物具有如此大的挑战性。
我们希望清楚表明,在地球历史偶然的生物化条件学中实现生命的困难,不应该与实现生命这一更普遍的问题相混淆。此外,某些其它系统的起源可能比生命起源更容易。人类世界可能就是这一观念一个很好的例子,其中智能、文化、社会结构和数字计算机都能充当了许多新生命形式起源爆发的现成基质。
三、讨论
我们认为,生命的涌现视角就是焦点从历史和特定的物质实例(L1)到更普遍的共享约束(L2)和普遍的优化类(L3)层的转移。与这种想法一致,以前的工作认为,我们对生命的大部分理解应该集中在信息、算法和计算层次的转变上(Walker and Davies 2013)。生命的最终理论肯定会有来自工程、计算、物理(Walker 2017)和进化的抽象理论的成分,但我们期望还需要新的视角和工具,就像计算的理论一样。
一旦L1-L2的质料和约束条件出现,能够支持L3,那么L3就可以招致新种类的L1-L2来产生不同形式的生命。例如,人工生命是由与有机进化的生命完全不同的质料和约束条件支持的。然而,有机进化的生命首先出现,也就是说,第一个L3需要得到有机大分子的支持。这表明一种可能的加速生命生产的理论,即新的L3水平以越来越快的速度到达。
当然,这是有证据的。从生物学角度看,物质文化是相对较新的:石器首次出现在200万年前,洞穴艺术出现在7万年前,楔形文字出现在5000年前,活字印刷出现在500年前。布尔逻辑是在不到两百年前发明的,第一台通用计算机是在七十多年前建成的。计算机的诞生显然需要所有这些先前的文化发明的存在才有可能。文化的历史是一部依赖性的历史,即所谓的内隐缩放(implicational scaling),也是一部加速的历史。
我们的主张是,当能够揭示许多生命的起源和类型时,我们将能够得到一个新的生命理论。它应该能够强调生命是最终同质性(收敛),而非完全同质,即生命是从许多不同的轨迹中反复发现的。它应该能够定义许多轨迹的所有生命终点之间的共同点,并且能够给任何系统或过程分配一个「生命性」的程度。
在这一点上,我们不知道我们的框架是否意味着L3中的生命空间有相当模糊的边界,或者边界是尖锐的,而生命度(degrees-of-livingness)应该用它们与这个边界的距离来衡量。我们怀疑这些边界将在很大程度上取决于L1中变化的性质。例如,L1的致命性基因敲除突变会导致L3的不连续变化。
无论如何,最近很多相关努力已经开始为一系列的生命特征构建度量标准。例如,物体所需装配的量化(Marshall et al. 2017a, 2021;Murray et al. 2018),个体信息理论的分解(Krakauer et al.2020),生命系统的因果边界(Marshall et al.2017b),系统主体的物理评估(Kolchinsky and Wolpert 2018),以及功能信息的获得过程(Lachmann and Walker 2019)等,最近都被提出来,并都是有前景的未来方向。
同样,最近的其他努力也阐明了L2的一般制约因素,如基本能量、细胞生理学与进化过程之间的联系(Savage et al. 2004;West and Brown 2005;DeLong et al. 2010;Lane and Martin 2010;Kempes et al. 2012;Lynch and Marinov 2015;Kempes et al. 2016, 2019;Ilker and Hinczewski 2019)。
正是从天体生物学的角度来看,在我们搜寻地外演化痕迹时,我们所支持的原则的主张将显示出最大价值。这可能包括,像自组织临界性这样广泛的原则,高度优化的网络结构的特征,互信息最大化的证据,多适应性时间尺度特征的涌现,以及广泛的结构趋同等等。
表3:不同领域和学科对每个层次的重视程度的排序。
最高重视程度=1,最低重视程度=3;最后一栏,物理理论评级 x=3,y=2 ,生物物理理论 x=2,y=3。
Christopher Kempes, David Krakauer | 作者
十三维 | 译者
梁金 | 审校
邓一雪 | 编辑