『生活需要读书和新知』
从物理学上说,一台机器不可能完全无误地复制自己。同样,没有了逻辑矛盾,也许人类就无法完全理解自己。然而,复制过程中的错误带来的突变是进化所必需的,物理机器之所以能够进化,恰恰正是因为它们自我复制的过程并不完全精确。生命的本质并非完美的自我复制,而是近乎完美却略有微瑕的自我复制。因此,即便不能获得完整、逻辑上自洽的自我认识,或许我们也不必失望,因为这不见得是件坏事。
*文章节选自《智能简史》([韩] 李大烈 著 三联书店2020-9)。文章版权所有,转载请在文末留言
Painter, Shepherd, the City我们人类真的能够完全了解自己吗?像人脑这样一个实体机器,有没有可能完全理解其自身的工作原理?古今无数哲学家都强调自知自省的重要性,对此最好的例证或许就是古希腊箴言“认识你自己”。许多古希腊人——包括大哲学家苏格拉底——都将这一箴言奉为圭臬。中国古代哲学家、军事家孙子也曾写道:“知己知彼,百战不殆。”正如孙子所说,自我认识有许多切实可见的好处,这是因为,了解自己需要什么、能够做到什么,对于我们规划未来十分重要。从社会科学、自然科学到人文科学,人类也在探索各类知识的过程中,力图理解人性。从这方面说,人类可能是独一无二的。在生物学意义上,人类和猿类具有相似的脑,大多数基因也相同。从行为上看,人类也不是唯一的社会性物种,因为许多其他动物(包括昆虫在内)都在复杂的群体中生活。但是,没有什么其他动物像人类那样,对自身充满了好奇。自我意识(self-awareness)和自我认识(self-knowledge)也许是智能的最高形式。生命是自我复制的过程,而智能则是做出有利于自我复制的决策的能力。此外,尽管不同物种之间存在很大差异,但所有生命形式从根本上说都是社会性的。即使最孤立的生命形式在繁殖时也需要和其他个体进行互动;这样一来,它们就因为要分摊资源,而存在潜在的冲突关系,而这种关系要持续到父母与后代分离为止。随着社会规模及其复杂性的增长,社会决策需要更多信息,学习也就更为重要。在人类社会中,与他人合作并施以帮助的能力能让我们避免不必要的冲突,因此,运用心智理论对他人的意图进行适当推断的这一能力也就变得至关重要。这就引发我们思考一种可能性:在复杂社会中生存要求我们能够理解他人,而自我认识这种特殊的能力也许是前者带来的一种副产品。尽管如此,与对环境中其他有生命或无生命的对象进行预测相比,自我认识仍然存在一些本质区别。对自我的认识和理解是一种知识。在决策过程中,这样的知识可以用来预测各种行为的结果。决策的性质和复杂程度决定了作决策需要什么类型的知识。自我认识在社会决策中不可或缺。在一个复杂的社会里,随着人们开始互动,为了能够准确预测他人的行为,人们就必须了解他人的认知过程和决策策略。这种推理过程必然是循环往复的——当我试图了解你对我的想法时,我不可避免会间接地了解自己——自我认识也随之产生。因此,人类的自我认识和自我审视可能是脑在适应社会环境时进化的副产品,是因应需要准确预测他人行为的环境而产生的。具有讽刺意味的是,正如遗传物质的自我复制无法做到尽善尽美一样,自我认识也不可能是完备的。遗传物质的复制是一个物理过程,因此受到物理学定律(尤其是热力学第二定律)的约束。从生物物理学的角度看,达成某种形式的自我认识也许并不涉及物理实体的复制,但是自我认识可能会导致一系列逻辑悖论。在自我认识中,寻求知识的人成了知识所涉及的对象本身,人的想法可以指向自身,从而产生自我指涉(self-reference)。自我指涉可能会带来一些难以解决的问题,一个有名的例子就是“说谎者悖论”(the liar’s paradox)。说谎者悖论指的是,一个人说“我在撒谎”,或是写下“这句话是错误的”。如果这人在说谎,那么这句话一定是假的,那么他就没有说谎,从而产生了矛盾。如果他说的是实话,那么这句话必须为真,所以他在说谎。这也是一个矛盾。所以,这个句子既不能是真的,也不能是假的,因而造成了一个悖论。另一个类似的例子,是1928年至1929年超现实主义画家雷内·马格利特创作的一幅画作《形象的叛逆》。雷内·马格利特(Rene Magritte)在1928—1929年间的作品《形象的叛逆》,画中有一行文字“这不是一个烟斗”。说谎者悖论之所以产生矛盾,是因为它包含了自我指涉。自我指涉导致的另一个著名的悖论是罗素悖论(Russel’s paradox),也称为理发师悖论(the barber’s paradox)。这个例子是下面的命题:某个镇上的一位理发师只为而且必须要为所有自己不刮胡子的人刮胡子。这是一个悖论,因为我们没法确定这位理发师能不能给自己刮胡子(这也是一种自我指涉)。如果答案是肯定的(理发师给自己刮胡子),这就和他只服务那些自己不刮胡子的人的命题相矛盾。如果答案是否定的(理发师不给自己刮胡子),也是一个矛盾,因为违背了他要为所有自己不刮胡子的人刮胡子的原则。因此,无论理发师给不给自己刮胡子,都会存在矛盾。包含自我指涉的命题或句子很容易成为悖论。当多个决策者在社会情境中进行互动,并以递归方式推断他人的行为时,相似的问题很可能也会发生,因为这一过程可能会产生自我指涉。当一个人的推断开始一环套一环地加入对他人想法的揣测时,我们可以创造一些复杂但看起来没什么毛病的句子,比如:这句话所描述的情况,与有时我们对别人的想法所做的推断(就像在剪刀石头布游戏中一样)没有本质上的区别。要理解这句话会导致怎样的矛盾,我们来考虑下面这个问题:A是否认为B的想法是错误的?如果答案是肯定的,那么从A的角度看,B关于“A判断B的想法是错误的”的想法必须是正确的。然而这就意味着,A就不应认为B的想法是错误的,这就产生了矛盾。另一方面,如果答案是否定的,那么在A看来,B的想法“A判断B的想法是错误的”就是错误的,这意味着A确实认为B的想法是错误的。这也与原来的句子相矛盾。因此,无论是两种情况中的哪一种,该句子都含有逻辑上的矛盾。这句话是亚当·布兰登伯格(Adam Brandenburger)和H. 杰罗姆·凯斯勒(H. Jerome Keisler)在他们2006年发表的论文中提出的,因此称为布兰登伯格-凯斯勒悖论。从上面这些例子中我们能看到,如果我们使用任何可以指向某个事物的词(例如“知道”或“相信”),并将其重新指向主语时,都可能会产生逻辑悖论。说谎者悖论提醒我们,分出真假并非总是那么容易。罗素悖论提醒我们,并非总是能够将任何事物根据某种属性分成互斥的两组。布兰登伯格-凯斯勒悖论提醒我们,社会关系中的递归推理可能导致无穷无尽的连环套。从物理学上说,一台机器不可能完全无误地复制自己。同样,没有了逻辑矛盾,也许人类就无法完全理解自己。然而,复制过程中的错误带来的突变是进化所必需的,物理机器之所以能够进化,恰恰正是因为它们自我复制的过程并不完全精确。生命的本质并非完美的自我复制,而是近乎完美却略有微瑕的自我复制。因此,即便不能获得完整、逻辑上自洽的自我认识,或许我们也不必失望,因为这不见得是件坏事。以递归方式应用心智理论的能力很有益处,因为它使人们得以预测他人的行为,从而改善社会结构,并使其更加稳定。如果自我认识源于递归心智理论,它最重要的功能可能就是帮助我们预测自己的行为。然而,我们要提醒自己,这种自我认识有一定的局限性。像“我没有说谎”这样指向自身的陈述,对逻辑学家和哲学家来说是饶有趣味的话题,但它们并不能帮助我们在日常生活中做决定。上:猴子脑中的下颞叶皮层含有对面孔刺激做出响应的神经元,而人脑中有若干区域会在被试者观看人脸时比观看其他人脸以外的刺激时表现出更强的BOLD 信号。下:猴子下颞叶皮层中的神经元活动示例。在猴子看到面孔图像时,该神经元的活动会比在猴子看到手的图像或者打乱了的面孔图像时更加强烈。逻辑悖论和矛盾并不是自我认识带来的唯一负面后果。试图基于自我认识来预测自己的行为可能会产生其他意想不到的影响。比如,如果我们对自己在未来行为的预测十分乐观,这种预测就可能成为一种称为“自证预言”(self-fulfilling prophecy)的心理学效应,因为在做出一个关于自己的预测后,你也许会自觉或不自觉地做出使这一预测更可能成真的行为。另一方面,如果我们对自己的预测过于悲观或负面,那么在做出这样的预测之后,我们反而会使得它无法实现:如果我估计今天下午6点之前会饿,那就会促使我在下午6点之前吃点东西,从而避免预期的饥饿感。因此,这种预言往往适得其反,但它们有时能帮助我们避免某些不良后果,因此仍有一定的益处,而且也很难彻底消除。自我认识引发的问题还包括自由意志(free will)的概念,它指的是一个人控制自己行为的能力。弄清人到底能不能控制自己的行为,是我们渴望了解自身的重要原因之一。不同于探讨宇宙万物是否具有确定性那样的物理学问题,对自由意志的讨论本质上与脑如何工作这一物理学过程无关。一旦我们意识到,“自我”这一概念是在递归使用心智理论时的副产品,并不是一个能脱离心智模拟过程而独立存在的物理实体,我们就没理由觉得自由意志问题可以有一套自圆其说的结论。生活中充满了权衡。要做成任何有价值的事情,都需要在一些次要的事情上做出牺牲,这也许是一条永恒的真理。比如,拥有更大的脑有很多好处。脑更大的动物可以从周围的环境中获取更多信息,然后利用这些信息做出明智的选择,以获得更理想的结果。但是,更大的脑同时也需要更高的维护成本,脑较大的动物必须寻找、食用和消化更多的高热量食物。因此,动物要负担得起更大的脑,前提是能够获取足够的热量和其他营养。这就好比大型企业的研发部门,它们必须为企业开发出有利可图的新技术和产品,才有继续存在下去的资本。较大的脑还有其他缺点。例如,长出一个比较大的脑要耗费很多时间,因为这需要在许多神经元之间建立海量的精确连接。如此漫长而复杂的发育过程也更有可能出错,从而导致成年大脑无法正常工作。在人类中,更长时期的脑发育也意味着孩子需要父母更长时间的保护。对于哺乳动物(特别是对人类)来说,婴儿的脑越大,分娩时母婴的风险也会越高。对于学习和决策来说,权衡取舍也同样存在。例如,线虫仅仅在受精三天以后就可以开始产卵。在这样短的时间内,线虫个体就能产生300多个神经元,并在它们之间建立适当的连接,使得这些神经元能够产生生存和繁殖所需的所有行为,实在让人惊叹。这样极致的速度和简化也给线虫带来了代价——它们只能进行形式相对简单的学习,例如习惯化和经典条件反射。相比之下,由于哺乳动物的脑要复杂得多,因此它们除了习惯化和经典条件反射以外,还能通过操作条件反射来改变自身行为。哺乳动物也可以使用基于模型的强化学习来获取关于环境的抽象知识,并用它来指导自己的行动。不仅如此,人类和猿类还会使用更为复杂的方法(如心智理论)在社会情境中做决定。当然,拥有许多复杂的学习和决策方法也是有代价的。比如,随着自我认识从心智理论的递归式应用中产生,逻辑悖论可能也会随之而来,并对适应性行为产生干扰。负面情绪和精神疾病也是复杂的学习算法的副作用。人类和其他动物使用的所有学习算法都需要某些类型的误差信号,这可能会带来一些不良后果。我们在第7章中提到,无模型的强化学习依靠奖赏预测误差。无模型强化学习这种学习算法的本质,是根据结果与先前预期之间的比较来调整每个行动的价值。因此,除非彻底弃用该算法,不然想要彻底避免负奖赏预测误差并不现实。从心理上讲,负的奖赏预测误差表现为失望情绪。如果你从不感到失望,未曾体验到负奖赏预测误差,这就表明你对未来得到奖赏的期望可能太低了,这会使你无法采取许多可能对自己有益的行动。无模型的强化学习有时也会产生正奖赏预测误差,即欢欣情绪。虽然一个人不可能在同一时刻同时感到失望和欢欣,但是它们就像同一枚硬币的两面一样相伴相生——你没法只留下其中一个。基于模型的强化学习会产生后悔和宽慰两种相反的情绪,也是同样如此。基于模型的强化学习算法要成功执行,人就必须通过心理模拟来评估其他行动可能会产生怎样的假想结果。这些模拟出来的结果中,也许会有一些比你实际获得的结果更好。因此,要得到基于模型的强化学习带来的种种优势,我们就不得不接受后悔这一副产品。A. 在一项fMRI 研究中,人类眶额叶皮层的活动与后悔相关。B. 在猴子身上对后悔进行研究的电生理实验使用了以计算机为对手的石头剪子布游戏,实验任务及收益矩阵分别见图左、右。C. 一个眶额叶皮层的神经元的活动随着假想中的奖赏大小的增加而提高。当脑运行心理模拟,并根据想象中的行动和结果在脑海中创造一个虚构故事的时候,避免把这样的故事与现实搞混极为重要。这是使用基于模型的强化学习算法的脑所特有的一种风险,而仅依赖于无模型的强化学习的动物则用不着担心这样的问题。当我们利用心理模拟来调整不同动作的价值时,实际上未发生的、在心理模拟过程中虚构出来的事件仍会存储在记忆中。因此,脑必须能区分对真实经验和想象事件的记忆。记住具体的记忆如何形成(包括它们来自真实还是虚拟的经验)的能力称为源记忆(source memory),这是元认知的另一个例子。由于源记忆是关于记忆的记忆,因此它也是“元记忆”。源记忆对于正常的社会生活至关重要。举个例子,现在试着想象你借了500元钱给一位朋友。也许几天以后,你可能还记得自己曾经想象过借钱给朋友。如果你的元记忆(或源记忆)是准确的,那么你会知道这仅仅是自己的想象而已,而你实际上并没有真的把钱借给谁。不过,不妨想想看,要是你无法区分自己的想象和真实发生的事情,那会发生什么?假如没有源记忆,你恐怕就要真的以为别人欠了你钱,准备讨债去了。源记忆出错,会导致现实与想象之间的界限不再清晰,从而产生了诸如妄想(delusion)和虚构(confabulation)等精神症状。这些症状在许多精神疾病(包括失智症[dementia]和精神分裂症[schizophrenia])中都很常见。即便在健康人身上,源记忆有时也会失灵。比如,我们偶尔可能会搞不清楚在梦中经历的事情是不是真的发生过。我们通常不必为偶发的源记忆出错而惊慌,然而边缘性人格障碍(borderline personality disorder)患者在试图辨别梦境和现实中的内容时,却面临着真切的困难。另外,源记忆障碍可能还与这些患者身上其他与人际关系相关的症状有关。因此,尽管基于模型的强化学习和心理模拟可以为我们在复杂环境中带来更好的决策策略,但这也需要我们能把对真实事件和想象事件的记忆区分开来。如果一个人把心理模拟中想象出的事件当成真实发生的事件,并以此行事,其结果可能会比仅依靠无模型的强化学习来做决策糟糕得多。基于模型的强化学习和心理模拟带来的另一个难题,是决定在做出决策之前,进行多少心理模拟才够用。对于那些可能改变一生的艰难决定,需要考虑的重要因素可能极为繁多。在大型组织(如公司或政府机构)中,许多人会参与到决策过程中来,并在各种会议上与他人分享其心理模拟的内容。这也使得要进行模拟的不同场景的数量和范围大为扩展,这样一来,要及时就最佳行动方案达成共识就变得更难了。过度的心理模拟对于我们而言都不陌生。对过往的负面经历进行过多的心理模拟,称为心理反刍(rumination),这是抑郁症的一种常见特征。尽管心理模拟有这样的副作用,但是我们要基于对环境的了解,来选择更合适的行动,就离不开它。无论我们对环境的了解有多深,没有心理模拟,我们都无法准确地预测不同的行动会产生什么结果,并且做出明智的决策。这或许也可以解释为什么抑郁症患者有时会在需要缜密分析的复杂决策任务中表现得更好。我们已经提到过,失望和后悔分别是与无模型的强化学习和基于模型的强化学习相关的负面情绪。我们有时还会遇到另一种负面情绪——嫉妒(envy)。当人们发现自己的境况不如别人时,就会感到嫉妒。这三种负面情绪的共同点是,当我们的行动带来的结果比原来预期的要糟糕时,我们就会体验到这样的负面情绪。因此,嫉妒就像失望和遗憾一样,是学习过程中的一种误差信号,意味着你的行为也许需要做些改变。如果同一群体中其他人比你获得了更好的结果,那么这表明你也许还没发现最优行为策略。嫉妒是一种生物学信号,它提示你在积累足够的经验和知识之前,采用别人的策略也许会更好。与失望和遗憾相比,嫉妒的本质区别在于我们的预期从何而来。失望或负奖赏预测误差是无模型强化学习的一部分。而后悔是心理模拟的产物,它来自基于模型的强化学习。与此相似,当我们意识到自己获得的结果不如他人时,我们会感到嫉妒。这与我们会感到失望或遗憾从根本上说没什么不同——都是强化学习中的误差信号。强化学习就是通过使这样的误差信号尽量变小来实现的。当个体可以观察到群体中其他人的行为时,嫉妒为在新情况下找到最适当的行为提供了另一种方式。模仿和观察学习可以取代基于试错的学习方式。而且,它也不需要对环境的深入了解,因此有时会比基于模型的强化学习更为高效。嫉妒为这种社会学习提供了重要的误差信号。模仿和观察学习在人类早期发育中起到了特别重要的作用。在具有精密层级结构和先进技术的复杂社会中,要使用以试错为基础的学习算法(如无模型的强化学习)来学习所有事物,将会极为缓慢而低效。而基于模型的强化学习算法要在长时期的教育之后,才能为人们选择适当的行动。模仿和观察学习为这些耗时的学习算法提供了一种简便的替代方案。例如,试想你在一个外国城市,需要从自助售票机购买火车票。如果售票机不能显示你熟悉的语言,你可能会观察其他人是怎样买票的,并且直接模仿他们的行动。就像在这个例子里一样,当许多人面临一个相同的问题时,也许有人已经投入了所需的时间和精力来寻找一个好的解决方案,而其他人可以直接模仿该解决方案。模仿和观察学习为人类发展出复杂的文化提供了重要的生物学基础。然而,人类并非唯一能模仿其他个体的物种。除了灵长类动物以外,某些鸟类也具有观察和模仿其他动物的行为的能力。在某些情况下,这带来了动物个体之间的一些初级文化现象。为了使我们的脑配备选择最优行为所需的各种功能,人类承担了巨大的成本,其中包括了伴随不同类型的学习算法而来的各种负面情绪。此外,为了结合不同学习算法的优势,脑还需要元认知能力来评估这些算法的可靠性。这样的元认知过程可能会产生自我指涉,因此还需抵御逻辑悖论的影响。基于模型的强化学习需要对心理模拟的程度进行合理控制。不幸的是,随着不同的学习算法和认知过程越来越多,负面情绪的数量及其潜在的副作用也随之增加。除了我们已经讨论过的负误差信号以外,其他负面情绪(如恐惧和焦虑)也与特定类型的学习和决策密切相关。尽管我们不喜欢这些负面情绪,但就像我们感受躯体疼痛的能力一样,它们对于改善我们的生活质量是不可或缺的。有一种罕见的病症,称为先天性痛觉不敏感(congenital insensitivity topain),或先天性无痛症(congenital analgesia),该病患者可能会完全丧失感受疼痛的能力。这种状况非常危险,因为没有了疼痛,先天性无痛症患者往往无法对伤病做出适当的反应。同样,各种负面情绪是被写入基因里的警示信号,用来促成各种与基因复制这个最终目标相一致的行为。