PNAS：大脑如何整合多感官模态信息，进行因果推断？

2024-08-03 14:30:44

导语

在静止的车厢里看到相邻轨道上的列车开动，我们会产生一种错觉，好像是自己在动。之所以产生错觉，是因为视觉系统“看到”了运动，但前庭信号却显示我们是静止的。大脑要如何整合这些不同来源的信号，并作出合理推断？

电生理记录显示，大脑神经元会编码前庭运动和视觉运动线索的组合，有些在运动方向一致时响应，有些在运动方向相反时响应。今年8月发表在 PNAS 上的一项最新研究通过训练神经网络模型证明，这两种类型神经元之间的权衡决定了视觉线索和前庭线索应该整合还是分离，从而帮助大脑进行因果推断。

研究领域：因果推断，多感官整合，人工神经网络

Stephanie Badde, Fangfang Hong, Michael S. Landy | 作者

十三维 | 译者

梁金 | 审校

邓一雪 | 编辑

1. 大脑如何进行因果推断？

一只讨厌的蚊子持续烦扰着你，你准备拍打它。你看到它在你的手臂上盘旋，感觉到痒的地方却在旁边（图1A）。这时应该打哪里？数学上的最优解决方案是，对视觉和触觉指示的位置取平均，并对更可靠、往往误差更小的信号给予更大加权。大量文献表明，对于大多数模态匹配和知觉任务，人类行为符合这种感官整合的最佳处理逻辑[1-4]。

然而，如果视觉和触觉所指示的位置非常不同，那么痒感可能是由于另一个原因引起的，如旧蚊虫的叮咬（图1B）。在这种情况下，对不同感觉信号做区隔，比如忽略触觉，在视觉指示的位置拍打就更有意义。实施这一决定需要进行「因果推断」（causal inference），即推断两个感觉信号是来自一个共同来源还是独立的来源。人类[5,6]和猴子[7,8]的行为就像在做因果推断一样，他们不会整合不太可能来自同一来源的信号。因此一个具有挑战性的问题是，感觉线索整合和因果推断是如何在大脑中实现的？

图1. 多感官整合和因果推断。(A)当推断出一个共同原因时，视觉和触觉的感觉信号被整合；(B)当推断出单独的来源时，使用分离的视觉信号。(C)在跨模态下指向方向一致的神经元具有相似的调谐；(D)异向神经元的首选方向在不同模态下有所不同。这两种类型的神经元对(E)自我运动和(F)世界运动的估计，以及(G)因果推断判断都有贡献，但程度不同。(H)在贝叶斯估计中，整合的和分离的估计被结合起来，其权重等于每种因果情况的概率。

2. 多感官信号怎么整合？

今年8月《美国国家科学院院刊》（PNAS）发表的一篇论文中，Rideaux 等人[9]展示了不同类型的神经元之间的相互作用是如何完成最佳整合和因果推断判断的。在多感官感知下，他们模拟了一个一直令人困惑但也经过了充分研究的案例：视觉和自我运动的前庭信号。这些信号在包括背侧内颞上脑区（MSTd）和顶内沟腹侧区（VIP）的大脑区域汇聚。这些区域的神经元通常根据方向进行调整，即当感官线索指示某个特定方向时，相应神经元激发次数最多，信号方向与其首选方向差异越大，激发则越少。

许多从两种模态接收输入*的神经元都是同调神经元（congruent neurons）：它们对这两种模态有相似的调谐（图1C）。因此，同调神经元似乎注定要进行多感官整合（multisensory integration）[10,11]。但奇怪的是，MSTd 和 VIP 中的许多其它神经元是异向神经元（图1D），它们对指示相反方向的视觉和前庭信息进行调谐，例如，视觉刺激发出的向右运动和前庭的向左运动信号[10,12]。当感觉信号来自不同来源时，异向神经元似乎同样有非常适合的方式进行检测。如此一来，同调和异向神经元的协作就可能使大脑进行因果推断[10,13]。

但直接检验这一假设需要同时记录 MSTd 和 VIP 中的同调和异向神经元，以及它们所投射的神经元，这是一项几乎不可能的任务。不过，人工神经网络的构建可以轻松检测神经元在不同脑域的互联行为。

*译注：大脑中某些神经细胞会对视觉、听觉和躯体感觉刺激同时起反应。一般有 50%的细胞是单通道的，但是有超过 20% 的细胞是双通道或三通道的，可以接受多感官模态信息输入。

3. 人工神经网络模拟

Rideaux等人[9]对这个问题采取了一个特别聪明的方法。他们没有构建一个由手工调谐的同调和异向神经元层构成的人工神经网络，而是训练了一个无约束（unconstrained）的人工神经网络，来执行因果推断判断及对自我和世界的运动估计，然后检查了多感官神经元的调谐和连接。这个多层前馈网络有两组输入：视觉和前庭。视觉输入是自然图像的短序列，以不同速度向四个方向变换（左-右、上-下、朝向-远离和视线旋转）。前庭输入来自沿着这四个轴调整的单位的速度，并略微受到噪声的干扰。

对于每个运动方向，神经网络输出的神经元分别确定运动速度（训练为匹配前庭和视觉输入速度的平均值；图1E）、世界运动速度（训练为匹配两个输入速度之差；图1F），并进行共同来源判断（训练为匹配两个输入速度之差是大是小的二元分类；图1G）。值得注意的是，对世界运动估计任务的多感官整合与其它领域不同，后者的整合通常与区隔形成对立，例如仅依赖一种模态（比较图1A和B）。因此后续会带来一个有趣的问题，即该网络将如何推广到对空间、时间或其它特征的多感官知觉的模拟中。

该论文的主要贡献是，经过成功训练后，该网络发展出了与猕猴 MSTd 和 VIP 中同调和异向相同特征的神经元。更具体而言，在网络的「MSTd」层中，神经元对指示方向有清晰的调谐（方向沿着左-右或前-后轴速度计算），大多数神经元要么具有一致的视觉和前庭调谐，要么对这两种模态表现出相反运动方向的调谐。这两种类型的神经元都为因果推断判断提供了重要的输入，证实了最初的假设，即同调和异向神经元之间的权衡对于推断两个信号是否来自同一来源至关重要。

至于该网络的运动速度感知，同调细胞为自我运动估计提供了更强的输入，异向细胞则为世界运动估计提供了更强的输入。这两种类型的神经元也都能对另一种知觉估计做出贡献，只不过程度较小。先前带有手工调谐的同调和异向神经元的计算模型已经证明，这种网络能够执行因果推断[13,14]，不过，没这些特性的人工神经网络亦如此[15]。与这些自上而下的方法相反，Rideaux等人[9]表明，同时进行知觉和因果推断判断的要求促使了同调和异向神经元的发展，表明这种神经基质（neural substrate）是计算的最佳方案。

图2. 人工神经网络中的视觉和前庭信号输入，在经MSTd层三种不同方式解码后，分别输出对自我、场景和因果推断的估计

该网络在感知任务中的表现实质上反映了人类和猴子在方向辨别任务中的行为[11]。成功训练后，该网络具有较小的视觉和前庭运动输入的跨模态差异。这些测试中的视觉刺激被更改为一组移动点集，其可靠性通过改变向同一方向移动的点的比例来操纵。网络则根据其可靠性整合视觉和前庭输入：如果视觉输入可靠性较低，自我运动估计与前庭输入更一致；如果视觉输入可靠性较高，自我运动估计则与视觉输入更一致。值得注意的是，在训练期间，自我运动估计得到了加强，以匹配50-50的平均视觉和前庭信号，这就提出了一个问题，即执行可靠性加权整合的能力是来自对几项任务的联合训练，还是由于网络架构。

当网络推断出单独的原因时，视觉输入对自我运动估计的影响要比推断出两个信号的共同来源时低。如果一种模态输入是有噪声的，即相同的刺激导致不同试验的内部测量略有不同，这种跨模态偏向的差异会自动出现[6]。然而以目前的形式，该网络还无法重现因果推断的以下行为特征：当信号更不一致，即不太可能从同一来源出现时，跨模态的偏差为何会减少。

鉴于该模型是严格的前馈，因果推断及自我和世界的运动估计有单独的输出，该模型根本不能让因果推断判断影响自我运动的估计。换句话说，模型无法忽视我们介绍性示例中旧蚊子叮咬的挠痒感。相比之下，贝叶斯因果推断模型[6]则复制了跨模态偏差对两个信号之间差异的非线性依赖性[6,16]。他们通过将整合和分离的估计值相加来实现这一目标，并分别以共同和单独来源的推断概率加权（图1H）。在这种观点下，Rideaux等人[9]的神经网络模型包含了知觉两阶段过程的第一阶段。

事实上，多感官背景下的人类大脑活动，对整合的、分离的、及最终合并的估计在独立表征上是一致的[17,18]。贝叶斯因果推断方法的另一个关键组成部分是假设的共同来源的先验概率。在 Rideaux 等人的模型[9]中，这种先验可能反映在多感官 MSTd 层和输出层之间的连接权重中。然而，这种先验共因随着实验环境的变化而变化[19,20]，表明还需要对因果推断过程进行额外的输入。因此，一个更完整的多感官整合和因果推断模型，还将需要为同源和分离源的知觉及灵活的先验共源估计提供表征空间。

总之，Rideaux等人[9]为因果推断中同调和异向神经元的作用这一难题提供了令人信服的解决方案。他们通过训练一个人工神经网络，借由促使同调和反向神经元同时发展，得出了对自我和世界的运动估计及相应的因果推断判断。不过大脑是否以这种简单的前馈方式实现这推断，以及因果推断是如何参与知觉判断的，依然是未来重要的问题。此外在个体发育过程中，是否需要感觉体验来发展异向神经元，或者这种人工神经网络训练所援引的过程是否在进化过程中发挥了作用，将同样是令人非常着迷的探索方向。

前庭神经元炎是周围性眩晕吗前庭神经元炎的症状有哪些

回去之后除了吃药,有没有坚持运动.每天坚持走路,有时打羽毛球.有时刻意边走路边左右摇晃脑袋.您必须要做球类运动,或者跳广场舞,打太极拳,走路作用不大,这是放在第一位的.好的,那么到本月22号就一个月了 ...
解开“机器的因果”：人机自然交互为何成为阿里AI观的起点

很快<复联3>会上映,大伙喜闻乐见的钢铁侠又要来了. 围绕钢铁侠,有个有意思的现象值得我们开开脑洞:应该每个人都想要战甲里搭载的AI程序"贾维斯",但所有人都在担心会不 ...
眩晕实用解剖与生理

有三种基本的姿势和眼动控制成分:①感觉环境:②整合中枢神经系统的感觉并产生恰当的运动命令:③执行运动命令(图1). 图1 平衡和眼动控制的神经运动整合注意三个主要的成分:感觉环境(输入),中枢整合和 ...
Neuron：联合皮层神经发育的模式和对精神病学的启发

人类的大脑会历经数十年的皮层发育过程.在儿童和青少年时期,皮层发育的进程从低阶的.负责感觉运动功能的初级.单模态皮层,逐渐进展到高阶的.负责执行控制.社会情感和心智化功能的联合皮层.皮层发育的时空模式 ...
一张“纸条”就能骗过AI，OpenAI最先进的视觉模型就这？

到底是苹果还是 iPod?AI傻傻分不清楚. " 作者 | 贝爽今年年初,OpenAI推出了最新一款AI视觉模型CLIP. 相信不少人对它还有些印象,经过庞大的数据集训练,CLIP在图文识 ...
【泡泡图灵智库】看听：多模态融合机器人场景辨识

泡泡图灵智库,带你精读机器人顶级会议文章标题:Look and Listen: A Multi-modality Late FusionApproach to Scene Classificatio ...
因果作用推断、因果网络学习及其他

来源:久章智能
PNAS：控制缺乏情感的肢体语言的大脑回路

适应性社会行为和心理健康不仅依赖于对情绪表达的识别,而且依赖于对情绪缺失的推断.虽然承销情绪感知的神经生物学已经得到了很好的研究,但在社会信号中检测缺乏情绪内容的机制仍在很大程度上是未知的.在这里,使 ...
PNAS：“高学历”也无法延缓大脑衰老？但仍具有其他益处

PNAS:"高学历"也无法延缓大脑衰老?但仍具有其他益处来源:中国生物技术网 2021-05-07 12:30 衰老是生命过程的一部分,我们不得不去面对它,接受它.众所周知,保持 ...
三个大脑系列（三）：思维大脑（上）——信息搜集与整理

Matrix 首页推荐 Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考.我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点. 文章代表 ...
PNAS：研究揭示大脑与肠道之间的联系

在最近一项研究中,匹兹堡大学脑研究所的神经科学家已经找到了将大脑连接到胃的神经通路,从而提供了一种生物学机制来解释压力如何促进溃疡的发展. 研究结果于本周发表在<PNAS>杂志上,为大脑对 ...
Excel PQ爬取A股实时信息——多页整合篇

小勤:大海,上次你教我<爬取了沪深A股中的一页>内容,我练过了,这次,继续教我多爬取几个页面呗. 大海:嗯,其实爬取多几个页面跟爬取一个的方法是一样的,只是,一页一页的分开爬取了之后,要再 ...
周朝阳：垂直细分+整合信息创业小项目的赚钱思路

先说一个真实的故事,十年前有人做了一个针对自学考试的网站,网站提供试题下载,后面卖给我前前老板,卖了快六位数了,这是垂直细分领域中一个经典的信息整合案例.如果为这个平台加注细分标签的话:培训-学历教育 ...
如何整合单元信息制定目标

朱煜实施小学语文统编教材的核心理念是单元整合.这与过去以单篇课文为单位备课.上课有极大的不同.以单元整合的理念开展教学,不仅是指上课这一个环节,还包括从解读单元目标.确定课时目标.设计教学环节.实 ...
PNAS长文解读：一种可以“读取”和“操控”大脑环路的新型神经电子系统

植入式生物电子设备可以有效解析神经活动和大脑功能之间的联系,因为此类设备可以在较长的时间内直接与神经元之间进行交互.个性化和响应式的神经网络功能障碍干预可以为改善神经精神疾病的治疗提供机会.对于一部分 ...

PNAS：大脑如何整合多感官模态信息，进行因果推断？

1. 大脑如何进行因果推断？

2. 多感官信号怎么整合？

3. 人工神经网络模拟

相关推荐