Neuron：使用深度强化学习揭示大脑如何在高维环境中编码抽象的状态表示

2024-08-04 13:35:20

人类拥有一种特殊的能力，可以通过感官对高维事物进行观察并高效地做出决策。然而，大脑如何表示环境的当前状态以指导这一过程尚不清楚。Deep Q-network (DQN)通过捕捉从多元输入到潜在动作值的高度非线性映射来实现这一点。本文将DQN作为大脑活动和行为的模型，在功能磁共振成像过程中，参与者玩三个Atari电子游戏。结果发现，DQN的隐藏层显示出与分布式感觉运动网络中的体素高度的活动相似性，并贯穿整个背侧视觉通路进入顶叶后皮质。神经状态空间表示是在像素空间的非线性转换中产生的，它将感知、行动和奖励联系起来。这些转换将重塑感知信息以反映相关的高级功能，并去除与任务无关的感觉特征信息。我们的发现揭示了现实世界中决策任务表征的神经编码。本研究发表在Neuron杂志。（可添加微信号siyingyxf或18983979082获取原文及补充材料）。

本文重点：

1.由Deep Q-network（DQN）建模的自然主义决策任务

2.任务表征编码在背侧视觉通路和顶叶后皮层

3.描述了DQN和人脑共有的计算原理

思影曾做过多期关于任务态相关的研究，可结合阅读（点击即可浏览）：

多体素模式分析揭示了与恐惧相关的主观体验与生理反应之间

食物价值信息在框额皮层的表征

BRAIN：失眠症患者被过去情绪所困扰

功能数据的多体素模式分析：社会和情感神经科学家的实用介绍

Lancet Psychiatry：在功能MRI期间年轻女性恐惧躲避行为无意

PNAS：你会作弊吗？—认知控制在作弊行为与诚实行为中的介入

Science：内侧前额叶皮层解决利用-探索困境的神经机制

不确定性和惊讶程度共同决定音乐的愉悦度，并影响杏仁核, 海马

Nature子刊：基于多模态研究的面孔识别网络的构建

Psychological Bulletin：成瘾者延迟奖赏折扣的功能和结构神经

介绍

强化学习（RL）的框架已经阐明了智能体（agents）如何在试错反馈中学习并做出适应性选择。当前已经确定了有效的算法策略，用于学习在给定的环境状态下应采取哪些行动，这反过来又有助于揭示这些过程的神经底物。

迄今为止，大多数研究都是关于学习和价值表征的，脱离了现实世界中与这些机制耦合的感知系统。在一项典型的神经科学研究中，状态空间是低维和离散的，其特征是一组独特的刺激和动作。然而，在更自然的环境中，大脑面对连续的高维输入流，并且必须通过在内部构建低维状态空间来从这个复杂的高维输入流中有效地识别相关状态。然后，根据过去的经验总结出先前在该空间中类似状态下的良好效果，甚至可以用新的感官输入来选择动作。本研究的目的是探索人脑如何解决这个状态空间的表征问题。

直到最近出现深度强化学习之前，这个计算问题一直是阻碍人工智能发展的主要障碍。 RL和深度学习的结合提供了端到端的框架，通过将感官处理与动作选择联系起来来解决任务表示问题。例如，DQN能够学习像Atari视频游戏这样的高维任务，具有人类水平的表现。在这里，我们探讨了人脑在动态决策环境中利用类似计算原理的可能性。

为了解决这个问题，我们用功能磁共振成像扫描了玩三种不同经典Atari电子游戏（Pong，Enduro和Space Invaders）的参与者。我们用DQN做一个模型，研究大脑如何解决人类将高维像素输入，映射到动作时面临的状态表示和动作评估问题。

我们首先测试了DQN是否遵循与参与者在游戏中相似的行为策略。接下来，我们研究了在参与者玩Atari游戏时，DQN智能体的隐藏层中编码的特征与人脑活动模式之间的关系。这使我们能够测试人脑是否利用与DQN相似的机制来编码状态空间表示形式。

此外，比较DQN中各种控制模型和不同功能的神经预测性有助于揭示大脑使用哪种计算原理对紧凑的状态空间表示进行编码，以及该表示如何在区域之间变化。我们推断抽象状态空间表示应该仅通过编码最重要的高级功能并忽略无关的低级干扰变量（nuisance variables）来编码与游戏行为相关的感官信息。Space Invaders和Enduro的丰富性还使我们能够确定在感知上不同的输入中普遍存在的抽象特征如何映射到顶叶后皮层（PPC）。

方法

数据和代码可用性

由于Conte Center NIH的资助，功能磁共振成像数据将在不久的将来上传到国家卫生研究院数据库。这个项目的代码可以从相应的作者那里获得。我们代码库最基础的部分将在GitHub上发布(https://GitHub . com/locross 93/Atari-Project)。

实验模型和被试详细信息

我们从加州理工学院和帕萨迪纳社区招募了6名健康参与者(4名男性和2名女性，年龄26±3.4岁)。所有参与者在四天内完成任务，并获得每天40美元的参与费。加州理工学院机构审查委员会批准了该方案，所有参与者在实验的每一天都给予了知情同意。

方法细节

实验范式/Atari游戏

在为期四天的实验中，每个参与者经历了33次游戏。运行时间为10分钟，除去休息时间和间隔时间，每个参与者有8分钟的游戏时间。记录了眼动跟踪的数据，但本文未对此进行分析。每个参与者分别玩过11次空间侵略者（Space Invaders），Pong和Enduro游戏。在第1天，每个游戏都按随机顺序进行两次游戏，其中一个约束条件是不能连续两次玩同一游戏。然后在第一天对六次运行进行核磁扫描。在第2-4天，每场比赛随机进行三次，相同的限制是连续两次不玩同一场比赛。在第一天扫描之前，每个参与者通过在笔记本电脑上玩5分钟游戏来熟悉每一个游戏。

Atari游戏是通过Arcade学习环境展示的，其修改后的代码可以记录动作，奖励，MRI脉冲和带有适当时间戳的帧。具有四个按钮的按钮框用作Atari控制器（图1A）。参与者用两只手握住按钮盒，用他们的左手拇指分别按下分别向左和向右移动的1和2按钮，并用他们的右手拇指分别按下3和4的按钮来踩刹车和射击。刹车仅在Enduro中使用，而射击仅在Enduro和Space Invaders中使用。

在Enduro，参与者控制一辆赛车，该赛车必须尽可能快地行驶，同时避开在路上行驶的其他赛车。参与者每通过一辆汽车可获得1英镑的奖励，其主要目标是在一天结束前通过一定数量的汽车（1级200辆和2级300辆）。在整个游戏过程中，天空和天气模式都会发生变化，以模拟白天的时间流逝（“晴天”，“雪景”，“蓝色黄昏”，“红色黄昏”，“夜晚”，“雾”，“日出”），天空最终变黑，太阳开始升起，直到13312帧之后时间耗尽。

在Pong球比赛中，当白球无法被对手的球拍接到时，就可以得分。参与者控制屏幕右侧的绿色球拍，试图通过在白色球的路径中上下移动球拍来捍卫自己的目标并在对手的目标上得分。

在《太空入侵者》中，参与者控制着一艘可以在屏幕底部从左向右移动的绿色飞船。目标是在游戏结束前，在有3条生命的情况下摧毁敌舰以获得奖励并避免被敌舰导弹击中。

功能磁共振成像数据采集

我们在加州理工学院大脑成像中心(加利福尼亚州帕萨迪纳)的两个独立扫描仪上收集了两个数据集。第一个数据集包括两个参与者，使用3T西门子收集。在升级到西门子Prisma后，收集了第二个数据集，共有四名参与者。两个数据集都使用了32通道射频线圈。这些参数在两个序列中共享:全脑BOLD信号使用多层采集方法，每次采集456个切片，体素大小= 2.5毫米各向同性，TR = 1,000毫秒，TE = 30毫秒，翻转角度= 60度，FOV = 200毫米x 200毫米。在扫描的第一天结束时，以0.9毫米的各向同性分辨率收集T1和T2加权解剖高分辨率扫描。

（E）量化和统计分析

功能磁共振成像预处理

使用标准流程对数据进行预处理。使用FSL对大脑进行图像提取，空间标准化，高通滤波（100 s阈值，即0.01Hz）和图形畸变矫正。通过去除ICA分量对图像进行去噪。使用FSL的Melodic提取组件，对第一个数据集和第二个数据集执行了不同的ICA降噪程序，因为两个数据集的扫描是不同的核磁扫描版本。使用FSL FLIRT将T2图像与T1图像对齐，然后使用ANTs配准（使用CIT168高分辨率T1和T2模板将它们均标准化为标准空间）。首先，使用FSL的FLIRT将功能数据与解剖图像对齐，然后使用ANTs将功能数据利用ANTs配准时产生的形变矩阵配准到标准空间。使用5毫米FWHM高斯核在FSL中对数据进行空间平滑处理，平滑后的图像不用于SPM12的GLM模型建模，仅用于结果的展示。

DQN网络训练

使用Neon深度学习库，通过修改开源代码(https://github . com/tam betm/simple _ dqn)，对三个游戏中的每一个游戏分别进行了DQN网络训练。如原始论文，DQN以四个连续帧的张量作为输入，具有三个卷积层(第1层:32个8×8的滤波器，步幅为4；第2层:64个4x4的滤波器，步幅为2；第3层:64个3×3的滤波器，步幅为1)，后面是一个全连接层(512个单元)，并为每个可用的动作输出Q值。DQN采取了Q值最高的行动。卷积层与每个具有感受野的神经元局部相连。卷积滤波器学习视觉特征，然后对输入进行卷积，以检测该特征的存在。全连接层不具有这种局部连通性，因为每个神经元都连接到前一层中的每个神经元。

训练期间将Arcade学习环境设置为Atari环境。训练时将每场比赛分为100个分段的250,000个strep（即100*250000）。对Pong游戏的输出的动作集限制为“noop”，“up”和“ down”，因为这款游戏的默认设置包含了左右的冗余操作。

为了输出用于分析的Q值和隐藏层的神经元激活，通过受过训练的网络运行参与者玩过的游戏。由于DQN的输入是四个连续图像的张量，因此将来自人类数据的帧与其前三个帧连接在一起。所以，运行中的第四帧是通过DQN的第一个帧。在Enduro中，在第一级通过200个赛车后在第二级开始挑战300个赛车，并在标志板上出现标志表示赢得比赛。当这种情况出现时，即使参与者仍然承担着控制赛车和避免其他赛车的任务，但游戏引擎不会再给予奖励，直到一天结束/时钟停止为止。网络会检测到这些标记并在发生这种情况时预测0奖励，从而导致无意义的Q值输出。因此，对这类情况的图像进行了修改。

行为分析

为了分析人类状态空间与DQN状态空间的关系，我们分析了参与者采取的行动，以及这些行动与DQN在输入人类游戏数据时选择的行动比较。我们首先为DQN和人类参与者执行的动作绘制了分布图。

为了解码人类行为，我们使用LASSO逻辑回归(L1正则化)使用scikit和定制python代码用DQN的隐藏层来建模人类行为。使用主成分分析将每个隐藏层映射到100维的数据上，给出一个400维的串联特征集。使用Sub001的帧来估计主成分分析变换矩阵，每个参与者都使用这些转换矩阵，以确保每个参与者的大脑都在同一个空间。将没有动作或其他动作发生的帧被移除后，使用LASSO逻辑回归分类器预测左右动作。其他动作（如开火或者刹车）与左和右相结合时的时间点也被包括在内。解码的准确性是通过留一run交叉验证来确定的。通过网格搜索找到最佳正则化参数，并在每个游戏的参与者之间固定。解码的准确性通过置换检验测试，置换次数1000。为了保持动作轨迹的自相关性，交叉验证的数据按40个时间点一个分块进行了分块打乱，然后将模型的预测响应与这些混合数据集进行比较。每个参与者的每个模型的精度都超过了零分布中最大值的精度。为了确定哪些层对解码动作最有用，模型在所有运行中被训练(没有交叉验证)，系数被绝对赋值并逐层平均。

编码模型

为了将DQN的隐藏表示映射到大脑中的体素，我们进行了基于深度学习的编码模型分析。所有的分析都在定制的python代码中运行，使用的函数来自PyMVPA和scikit learn。

首先，来自参与者游戏数据的图像帧在训练后的DQN网络中运行，以便在每个时间点在每个层中产生神经网络激活。正如在解码人体动作分析中所做的那样，主成分分析被用来将维数减少到400(每层100维)。为了将视频游戏的帧速率下采样到1 Hz的传输速率，每个特征的值在一秒钟内被平均。

然后，复制的时间进程被移动5秒和6秒，以解释功能磁共振成像信号的血流动力学延迟。这两个偏移的时间进程被连接成一个800的特征集。接下来，执行体素方向的岭回归(L2正则化)以预测作为该特征集的线性组合的每个体素的响应。使用网格搜索找到最佳正则化参数。数据如上所述进行预处理，没有空间平滑。每个体素的反应是z值，以确保每个体素在同一尺度上。准确性是使用跨run的交叉验证和计算预测和实际时间过程之间的皮尔逊相关性来估计的。

统计显著性通过置换检验(因为功能磁共振成像数据可能不是正态分布)进行量化，这种方法类似于以前的方法，在14个随机体素上进行100，000次置换测试。在每个置换中，以40个TRs的块方式打乱时间进程，以降低自相关的影响。然后计算混合时间进程和模型预测响应之间的皮尔逊相关。然后将这些置换分布连接起来，并将体素精度分数与该连接的零分布进行比较，以获得每个体素的单侧p值。我们没有选择14个完全随机的体素来估计所有脑体素的全局零假设，而是采取了更保守的方法，选择了14个在编码模型分析中得分在90%或以上的随机体素。这个条件保证了选择具有强信号的体素。然后使用FDR对体素进行多次比较校正。为了估计层选择性，来自模型的系数是绝对值，跨层平均，然后跨区域平均。

感兴趣的区域和地图集

为了定义可视化和进一步分析的兴趣区域，我们使用了哈佛-牛津模板。为了区分视觉皮层中的V1、V2、V3和V4，我们使用了Juelich组织图谱。这两个地图集都是用FSLview访问的。早期视觉ROI由V1-V4组成；PPC(顶叶后皮层)包括LOC上、顶上小叶、边缘上回、楔前叶；运动/额叶包括运动和运动前皮层和额叶上回。

编码模型控制分析

在编码模型中测试了各种控制模型，以帮助识别在解释神经反应的DQN模型中起作用的计算原理。在与DQN编码模型分析相同的流程中，在执行交叉验证的岭回归以计算每个体素的预测精度之前，这些控制特征集被下采样并时移5s和6 s。

motor

使用了对应于用左手和右手做出反应的两个motor回归因子。这些回归因子直接取自SPM中的GLMs，其作用值如下所述。

PCA

为了构建表示图像统计结构的基本视觉特征的控制模型，使用scikit learn通过主成分分析将84×84×4像素张量线性映射到100维。尽管DQN编码模型包括400个特征，并且我们将这个维度与跨游戏的DQN和VAE控制模型相匹配，但使用100个主成分的效果优于使用400个。输入的这种线性投影揭示了解释输入的低级统计结构的功能，这些结构在游戏过程中变化最大。在整个视觉通路中，采用类似的方法来解释神经反应的程度很高。此外，由于我们对输入DQN的4个连续帧的张量执行主成分分析，主成分揭示了对背侧视觉通路建模的运动和变化检测的统计特性。与其他主成分分析分析一样，转换矩阵是使用sub001的数据估计的，并在参与者之间用于将所有数据投影到同一空间。

这些主成分也被用来估计它们对干扰变量的表示。Scikit learn的' mutual_info_classif '函数用于计算第一主成分和干扰变量之间的互信息。

跨游戏DQN

我们还将编码模型结果与在其他游戏上训练的DQN进行了比较。Space invistars网络被用作Enduro， Enduro用作Pong，Pong用作Space invistars。

VAE

将DQN与使用深度神经网络进行状态表示学习的另一种最新方法进行比较，我们通过修改现有模板在Tensorflow中针对每款游戏训练了可变自编码器，我们使用的网络结构被设计为与DQN尽可能相似。

它由三层卷积编码器组成(第1层:32个8×8的滤波器，步幅为4；第2层:64个4x4的滤波器，步幅为2；层3x3的64个滤波器，步幅为1)，随后是全连接层，以输出400维的潜在表示的均值和对数方差。解码器结构由一个全连接层和四个反卷积层组成(层1: 64个4×4滤波器，步幅为1；第2层:64个4x4的滤波器，步幅为2；第3层:32个8×8的滤波器，步幅为2；第4层:8×8的1个滤波器，步幅为1)。所有激活函数均为ReLU。

一般线性模型(GLM)控制分析

为了测试DQN在控制其他模型和游戏事件时是否仍然可以预测大脑反应，我们在SPM12中构建了类似于以前方法的GLMs。将每个DQN层，VAE和PCA模型的前10个主成分作为参数调制器添加到模型中。其他不感兴趣的回归包括下面基于计算模型的GLM部分中描述的所有回归，包括运动反应、奖励/惩罚和动作值的回归。为了量化体素与六个模型(四个DQN层、VAE、主成分分析)中每一个模型的唯一方差的相关性，对每个模型中的10个体素的β进行了f检验，该检验测试体素是否受到模型中至少一个主成分的显著调制。图4C中报告了每个模型的感兴趣区域中重要体素的百分比。

控制区域分析

为了排除我们的分析受到伪迹(如头部运动)影响的可能性，我们对一名受试者完成了控制区域分析(sub001)。控制区域为人为的在前额区域画两个空的球形ROI来设置。然后对这些球体中的每一个体素运行编码模型，预测精度的分布与对比区域(V1和上顶叶)一起绘制在图5B中。这些球体中没有体素具有显著的预测精度，并且分数的整体分布非常接近于零。

表征相似性分析

我们执行了表征相似性分析（RSA），以检查这些表示如何在DQN层中进行转换。在DQN层1-4，VAE，PCA，像素空间和Pong的手绘特征的帧级别上构建了差异相似矩阵（DSM）。每种模型首先进行20次下采样，然后将数据在受试者中的各个运行之间进行级联。 DSM是通过使用pyMVPA计算每种模型跨框架的成对比较而构建的。在一天之内的不同实验中进行比较，以免由于相似性模式驱动而导致潜在的混淆。对于像素空间，将送到DQN的84x84x4张量图像重塑为28224维响应向量。对于PCA模型，再次使用适合sub001数据的权重将像素空间转换为100维空间。在Pong中，每个手绘特征（两个球拍的位置，球的位置X和Y以及球的速度X和Y）都经过z值转换，并输入到一个响应向量中。欧氏距离用作Pong手绘特征的距离度量，而其他所有模型均使用相关距离。每个DSM都按等级排序以比较模型DSM（差异相似矩阵），而无需假设模型之间存在线性关系。然后将模型与Spearman相关进行比较。

为了比较Pong中的模型DSM和fMRI DSM，在TR级别创建了每个DSM。这包括使用编码模型中使用的相同特征集，其中响应在各体积之间进行平均，以降低至TR分辨率，并偏移6秒以考虑血液动力学延迟。此外，除了手绘特征（欧几里得）外，每个模型都使用相关距离。

对于fMRI数据，构建了三个大脑区域的DSM，即早期视觉，顶叶后皮质（PPC）和运动/额叶。早期的视觉区域包括所有视觉皮质的ROI。 PPC包括枕外侧上皮层、顶上小叶、边缘上回和楔前叶。运动/额叶包括运动和运动前皮层，SMA和额叶上回。

为了测试显著性，我们对每个模型进行了置换测试，因为数据可能不是正态分布的。类似于编码模型的置换测试，将fMRI数据量以40个TR的块为单位逐块进行打乱以保持自相关完整，然后将DSM重构并与非打乱模型DSM相关联。然后，要检验模型中的相关性是否显著不同于零，相关性必须大于置换测试分布中的最大相关性（单侧）。为了测试模型之间的差异是否显著，基于每个置换模型之间的计算差异，对差异进行了测试（双向）。对所有分数均进行了校正，以进行多次比较。

基于计算模型的GLMs

为了定位动作值计算的神经相关性，我们进行了基于计算模型的广义线性模型（GLM）分析。这种新颖的分析在两个方面与以前的方法不同：使用深度神经网络来近似用于构造回归变量的值函数，并且该模型独立于任何人类行为数据进行训练。

所有单变量GLM均使用SPM12软件进行。最初，来自人类游戏数据的图像帧经过训练的DQN，以如上所述的运行方式在每一帧输出Q值。接下来，将Q值分解为动作优势/值，以将动作相关方差与奖励相关方差分开。使用actor critic approaches的方法来分离行动优势，我们将状态值（V（s），s = state）定义为所有Q值的平均值，并定义行动优势（A（s，a）， s =状态，a =动作）作为动作Q值和状态值之间的差。

与以前研究中的分析类似，此处的动作值回归值是作为左移值和右移值之间的选定值（最大值）而计算的。然后，将选择的值在各个帧之间进行LOWESS平滑处理。然后对回归变量进行z_score标准化，然后输入GLM，在其中与血液动力学响应函数进行卷积。在整个游戏中，其他协变量包括左右手的运动反应，用于正向奖励和负向奖励的参数回归，游戏演示（每次运行8分钟的游戏时间，前后休息一分钟）。尽管Atari引擎并未明确为生命损失提供负面奖励，但失去生命被列为“Space Invaders”的负面奖励，而负面后果则体现在获得更多积分的机会损失中。Space Invaders的其他回归器还包括射击值和屏幕上剩余的侵略者数量。

滤波分析

为了进一步解释编码模型的结果，我们希望确定哪些滤波器可用于对神经反应进行建模，以及这些滤波器是否在感兴趣区域之间变化。为此，我们在每个体素的第3层（最后一个卷积层）的每个滤波器上重新训练了编码模型，这在编码模型分析中很重要。该层具有64个7x7感受野大小的滤波器。

我们使用自定义python代码在Pong中注释了六个高级功能，这些代码在像素空间中定位相应的对象:球X位置、球Y位置、球X速度、球Y速度、球拍左位置和球拍右位置。为了评估每个滤波器对每个特征的编码程度，我们使用scikit learn的“互信息回归”函数来计算滤波器和这些连续变量之间的互信息。互信息得分在球的X和Y位置进行平均，以获得球位置的一个得分。我们同样对球的X和Y速度以及左右球拍位置进行平均，分别得到球的速度和球拍位置的分数。这将为滤波器中的每个7x7感受野输出一个MI分数，然后对其进行平均，以获得每个过滤器对每个高级特征的一个度量。然后，这些指标与每个滤波器在整个大脑中的神经预测活动相关联(图7A)。

干扰不变性分数

我们完成了其他分析，以确定感兴趣的区域如何编码与任务执行无关的感觉信息。为了揭示这一点，我们利用了表征学习的机器学习子领域中的一个概念:干扰不变性。干扰变量是输入中与任务无关的任何变量，在数学上被定义为它和任务输出之间的互信息为零的任何变量(I(y；n) = 0)，其中y是任务标签，n是干扰变量)。常见的例子包括物体识别中的平移和光照不变性，因为物体在图像上的位置和图片的整体亮度通常与正确分类无关。因此，神经网络中干扰不变性表明已经学会了压缩和抽象的表示。

Enduro游戏具有独特的功能，我们利用它来研究游戏环境中的干扰不变性。随着游戏中天气和时间的频繁变化，屏幕上的颜色会不断变化。这些阶段包括晴天，下雪，有雾，黄昏和夜间。因此，在整体游戏动态稳定的同时，像素空间发生了巨大变化。实际上，我们使用scikit-learns'mutual_info_classif'函数(I(time of day；actions) = 0)计算得出，人类左右动作与天气/一天中的时间变量之间的互信息等于零，这表明天气/时间是一个干扰变量。仅当两个随机变量是独立时，此度量才可以为零。从角度来看，天气/时间与像素空间的第一个主分量之间的互信息为1.70（I（时间； PC 1）= 1.70），天气/时间与自身的互信息为1.81。这显示由于这些不断变化的天气模式，像素空间中的变化量很大，是这些条件的第一个主成分。

虽然在Space Invaders中没有像在Enduro中屏幕上不断变化的颜色那样明显的干扰变量，但是屏幕上入侵船只的总数解释了视觉像素空间中的许多变化，并且与像素空间的第一个主成分（I（num，invaders）具有很高的互信息; PC 1）= 1.52）。然而，在这个游戏中，入侵者在游戏玩家飞船上方的相对位置比他们的绝对位置和全局特征更重要，因为入侵者在飞船上方将处于特工的火线上，飞船也将处于入侵者的火线上。一个例外是当剩下一个入侵者时，它开始加速，速度比平时快。为了量化这种模式，我们计算出屏幕上入侵者数量和左右动作之间的互信息相对较低(I(num。入侵者；动作)= 0.07)。

为了计算每个滤波器的干扰不变性分数，我们再次使用scikit learn的‘mutual _ info _ classif’函数来计算滤波器和干扰变量之间的互信息(Enduro的天气/时间，太空入侵者屏幕上的入侵者数量——使用sub001的下采样数据计算，以简化计算)。该函数输出每个7x7感受野的MI分数，因此这些分数被平均以获得每个滤波器的单一分数。这个分数乘以-1得到这个MI度量的倒数，表示对干扰的不敏感，而不是对干扰进行编码。接下来，将64个滤波器干扰不变性分数与一个区域中的64个神经预测性分数进行皮尔逊相关。直观地说，这种分析估计了一个地区是更喜欢对干扰不敏感的滤波器(正相关)还是对干扰编码的滤波器(负相关)。为了提高可解释性和增强我们最感兴趣评估的区域之间的可变性，我们在参与者的体素之间对该度量进行z_score标准化。因此，相对于参与者中的其他体素而言，干扰不变性得分为0是平均水平，并且分数的大小反映了它与平均值的标准偏差。

结果

本文使用了复杂程度各异的三个Atari任务（图1A）。Pong是相对简单的游戏包括将球打开对手的球拍，同时避免被对手得分。Enduro是一款驾驶游戏，玩家需要在避开其他汽车的同时尽可能快地驾驶，而Space Invaders是一款固定射击游戏，玩家可以射击敌方飞船。经过训练的DQN在三款游戏中均达到人类水平的表现。因此，我们假设DQN智能体可以用作大脑如何将高维输入映射到动作的端到端模型，并且其隐藏层可以用作状态空间表示的模型（图1B）。

图1. Atari游戏设置和DQN

（A）参与者在fMRI扫描仪中玩Atari游戏（Pong，Enduro和Space Invaders）。使用按钮框作为控制器。

（B）DQN用作大脑如何将高维输入映射到动作的模型。

我们从六位参与者那里获取了fMRI数据，每位参与者完成了4.5小时的游戏时间（每场比赛1.5小时）。我们没有像组fMRI研究中那样在短时间内测试大量参与者，而是从一小部分参与者中获得了足够多的数据，以稳健地建立每个参与者的数据与DQN表示之间的关系。为了进行分析，我们通过独立于参与者数据训练的DQN模型来运行参与者游戏数据中的帧。这产生了Q值输出以及隐藏层中激活表示的大量非线性刺激特征。

DQN状态空间表示类似于人类状态空间表示

由于DQN训练与人类行为无关，因此尚不清楚其状态空间表示或策略是否类似于人类。在人类游戏时，人类行为的分布似乎与DQN有所不同。然而，这些差异在很大程度上是微不足道的，这是由于人们采取无操作行为(即不操作或不行动)的意愿增加，并且采取行动的趋势有所降低。这是可以预料的，因为与DQN不同，人类在执行动作时会遇到新陈代谢的代价，而身体上的限制会从一种动作快速转换为另一种动作。因此，当参与者采取“向左移动”或“向右移动”动作（或与射击或刹车结合使用）时，我们专注于DQN动作值。在所有游戏中，参与者动作的DQN动作值均显著较高（图2A）。例如，当参与者向左移动以避免撞到Enduro的汽车时，DQN也会重视向左移动多于向右移动。这表明DQN在这些关键决策点上反映了人类决策。

DQN的状态空间不是由输出动作值层编码的，而是由前面四个隐藏层的内部表示编码的。因此，我们测试了这些表示是否能预测人类的行为。使用线性解码器，可以从所有游戏中的隐藏表示中可靠地预测人类行为(向左移动还是向右移动)，证明DQN编码了可用于模拟人类行为的刺激特征(平均精度:Enduro = 84.3，Pong = 75.0%，Space Invaders= 67.9%；通过运行进行交叉验证；机会水平准确度= 50%；p < 0.001，块置换测试；图2B)。我们还通过以下方式分离了不同层的贡献，平均了每一层系数的绝对值。对于Enduro和Space Invaders，最后两个隐藏层的特征对预测动作最有用。对于最简单的游戏Pong，第1层和第2层的贡献更大，并且每一层的贡献在参与者之间更为不同。

图2.使用DQN隐藏层预测人类行为

（A）对于参与者选择的动作，DQN动作值更高。 DQN动作值针对“左”和“右”动作所描绘的帧，在这些帧中，参与者采取了“左”或“右”动作的任意组合，包括射击或刹车。

（B）人类行为可根据DQN隐藏层中的特征进行线性解码。对逻辑回归模型进行训练，以预测所有游戏中的左右动作。模型中的特征包括每个DQN层的100个主要组件（PC）。图描述了交叉验证的分类准确性。误差线表示跨越11个交叉验证的平均。虚线对应于1,000个随机排列的块置换测试所计算的零值分布的最大和最小精度。

与图2相关的补充图S1：

a.为人类参与者和DQN分配行为。对于Enduro和Space Invaders，F / R和F / L分别对应于射击和向右移动或向左移动的成对组合。对于Enduro，B / R和B / L类似地对应于制动器和右移或左移的成对组合。

b.解码人类行为逻辑回归模型中系数的绝对值跨层平均。对于Enduro和Space Invaders，第3层和第4层对于预测每个参与者中的动作最有用。对于Pong，每一层的贡献在第1层和第2层具有较大系数的参与者之间更加不同。误差线描绘了跨层神经元的SE。

编码模型揭示了一个表征状态空间的分布式网络

在确定使用DQN隐藏层作为可预测行为的人类状态空间表示模型后，我们接下来的目标是定位参与编码该状态空间的大脑区域。我们采用了一种编码模型来创建神经网络激活到体素反应的线性映射。来自所有隐藏层的神经网络激活被用于建模和预测具有岭回归的单个体素的响应（图3A）。

在所有游戏中，DQN显著预测了整个背部视觉流和PPC(顶叶后皮层)的体素反应(通过运行交叉验证；p < 0.001，校正错误发现率[FDR]；块置换测试；图3B-3E和S2)。延伸至顶叶皮层的背侧视觉流的预测准确性高于延伸至颞叶皮层的腹侧视觉流，表明背侧视觉通路在自然视觉运动任务的状态空间表征中具有特定作用(两样本t检验，p < 1e-10；图S3A)。编码模型还捕捉了所有游戏中运动和运动前皮层、辅助运动区（SMA）和额上回的反应。除了主要的感觉和运动区，PPC的其他区域被映射到DQN隐层，包括顶上小叶、边缘上回和楔前叶。

为了确定早期视觉区域是否更喜欢早期DQN层而更早的视觉区域是否更喜欢较晚的DQN层（代表梯度），我们检查了每层中的系数。Enduro和Pong没有明确的梯度(图S3B)。对于Space Invaders，第1层和第2层的PPC、运动和额叶区域的系数低于早期视觉区域。对于所有的游戏，每个区域在最后一个卷积层(第3层)都有很高的系数。

图3.编码模型：DQN隐藏层映射到整个大脑的分布式网络

（A）编码模型分析的可视化。人类游戏框架通过训练有素的DQN运行，以在fMRI运行中的每个时间点提取隐藏层中的神经网络激活。使用岭回归对体素响应进行建模。解释性特征包括每个DQN隐藏层的前100个主成分。

（B）映射到Pong游戏隐藏层的体素。交叉验证的预测准确性使用了预测体素响应与实际体素响应之间的皮尔森相关性。校正了p <0.001或p <0.0001 FDR的全脑阈值。通过对体素子集进行块置换测试，针对零分布通过交叉验证的预测准确性来确定阈值。数据来自两个参与者。其他的如图S2A所示。

（C）与（B）中相同，但适用于Enduro游戏。

（D）与（B）中相同，但适用于Space Invaders游戏。

（E）在（B）-（D）中相应阈值中显著感兴趣区域中的体素百分比。 ROI记为V1 / V2，V3 / V4，LOC Inf（枕下外侧皮质），MTG（颞中回），IT（颞下叶），LOC Sup。（枕上外侧皮层），SPL(顶上小叶)、SMG(边缘上回)、PREC(楔前叶)、MC(运动皮层)、SMA(补充运动区)和SFG(额上回)。单个参与者的图如图S2B所示。

如果您对任务态fmri及其他脑影像数据处理感兴趣，欢迎浏览思影科技课程及服务（可添加微信号siyingyxf或18983979082咨询）：

第三十八届脑影像基础班（南京，2.23-28）

第八届任务态数据处理班（南京，3.2-7）

第一届任务态功能磁共振提高班（南京，3.9-14）

第十五届脑影像机器学习班（南京，4.18-23）

第十六届弥散张量成像数据处理班（重庆，3.5-10）

第十四届脑影像机器学习班（重庆，3.12-17）

第二十届脑网络数据处理班（重庆，2月27-3月4日）

第十二届磁共振脑影像结构班（上海，3.31-4.5）

第八届磁共振ASL数据处理班（上海，3.1-4）

第三十九届脑影像基础班（上海，3.25-30）

思影科技功能磁共振(fMRI)数据处理业务

思影科技弥散加权成像（DWI/dMRI）数据处理

思影科技脑结构磁共振成像数据处理业务（T1)

思影科技啮齿类动物（大小鼠）神经影像数据处理业务

思影数据处理业务三：ASL数据处理

思影科技脑影像机器学习数据处理业务介绍

目镜式功能磁共振刺激系统介绍

控制分析

对编码模型结果的另一种解释是，它们反映了基本的视觉特征，而不是与奖励或行为评估相关的信息。为了测试这一点，我们用复杂性可变的特征进行了控制分析。将Motor regressors用作基本的运动控制和像素空间的主成分（PC），以控制低级视觉属性。我们还包括两种深度神经网络(DNN)控制:一种是在单独游戏中训练DQN的智能体，另一种是变分自编码器(VAE)，这是一种用于提取状态表示的无监督表示学习方法。由于VAE不对值或动作信息进行编码，因此这使我们可以测试是否需要此信息才能达到DQN编码模型的预测精度。

除了一名参与者（图4A和S4B）外，DQN的表现优于所有游戏中的控制模型（p <1e-10，跨体素配对t检验）。此外，DQN在所有感兴趣区域（ROI）中都表现最佳（一位参与者除外），尤其是在PPC中（图4B和S5A）。不同特征集的相对表现揭示了DQN解释神经活动能力的计算原理。非线性特征表示优于线性特征表示，因为在另一个游戏中训练的DQN和VAE始终显示出比线性主成分分析模型更高的预测精度。此外，最初的DQN超越了其他两个DNN模型，将感知与行动和奖励联系起来。

接下来，我们检查了当所有模型都包含在同一分析中以比较差异时，是否保留了神经元与DQN特征的相关性。这揭示了即使在控制了基本的视觉和运动活动以及其他感觉模型之后，DQN是否还提供了独特的预测信息。为此，我们使用最相关的模型（DQN层1-4，VAE和PCA）中的前10个主成分以及其他不感兴趣的回归变量（例如游戏事件）构建了一个通用的线性模型。

我们发现，每个ROI中的许多体素都受到模型中唯一变量的显著调节，尤其是DQN第3层和第4层 (p < 0.001校正的家族误差率，聚类水平，f检验；图4C)。在图4C中，结果显示每个ROI的体素比例与给定模型相关，且超出其他模型所解释的差异。在控制了VAE和PCA之后，所有DQN层仍在每个ROI的大部分体素中说明了显著差异。此外，在控制DQN层的影响之后，VAE和PCA模型解释了显著差异。由于早期的视觉和运动区域在控制其他模型时会在DQN第3和第4层中编码特征，因此这表明，与传统的视觉和运动模型相比，这些主要感觉区域也处理更复杂的感觉运动特征。

图4.控制模型

（A）编码分析控制模型：motor regressors，输入像素上的PCA，在其他游戏中训练DQN和VAE。条形图显示了每种模型在整个大脑中预测准确度的90％的预测准确度（在六个参与者之间平均，并显示了每个参与者的值）。图S4B中显示的每个模型和参与者的得分分布在最高20％分位数的箱线图。

（B）按感兴趣区域比较DQN预测精度与控制模型的预测精度的T分数。T值反映了参与者的平均T分数，并显示了每个参与者的T分数。图S5A中描绘了各个参与者的图。

（C）对于所有DQN层，VAE模型和PCA模型比较差异的GLM中，每个ROI的重要体素百分比（校正后的p <0.001 FWER，聚类水平，代表模型回归的10个主成分的F检验）。

DQN内部表征的表征几何学

高度分布的表示和DNN中的许多参数使得它的表示相当不透明。为了阐明DQN在编码什么，我们使用了表征相似性分析。RSA允许比较不同数据类型的表示空间和不同维度的模型(例如，深层网络，fMRI模式和手绘特征)，有助于说明模型的表示在整个任务中是如何变化的，也有助于模型之间的比较。

我们首先研究了Pong游戏，它具有一些高级功能，可以通过逐帧手动注释来进行充分表征：两个球拍的位置，球的位置（X和Y）以及球的速度（X和Y）。一个有用且紧凑的状态空间应以某种形式对这些信息进行编码。这些手绘特征的示例差异相似矩阵（DSM；请参阅方法部分）在图5A中与相同游戏框架的DQN中最后一个卷积层（第3层）的DSM一起表示。当两个时间点的特征向量在距离度量（即欧几里得）中接近时，两个时间点之间的相似度很高。DQN的表征几何图类似于手绘特征DSM(差异相似矩阵)，表明它可以直接编码这些与游戏相关的特征。

为了量化不同DQN层，手绘特征和其他模型之间的相似性，我们将模型DSM相互关联。在Pong中，DQN中的第3层和第4层中与手绘特征高度相似（图5B； Spearman r =0.53、0.55），这表明DQN通过重新对齐其空间来构造紧凑的状态空间表示，在以后的层中为这些高级特征进行编码。尽管该对象信息存在于输入像素中，但它们与像素空间的相关性相对较低(r = 0.058)，这表明需要某种形式的非线性变换来将该信息从输入中分离出来。另外，Pong中的第一层DQN与像素空间和PCA模型高度相似(r = 0.9，r = 0.78)，这表明输入数据在DQN的第一层中还没有被高度压缩。相比之下，后面的层变得越来越不同于像素和主成分分析表示，因为它们开始为游戏相关的特征编码一个低维子空间。在空间入侵者模型中可以看到类似的模式，其中第一个DQN层与像素空间和PCA模型高度相关(r = 0.91，r = 0.69)，但是最后一层非常不同(r = 0.16，r = 0.04)。在Enduro中，四个层的表示都非常相似，这表明它们之间的差异可能更微妙，这增加了一个层内（而不是层间）可能存在更有趣的差异的可能性。在所有的游戏中，VAE的表现都和DQN有一定的相似性，尤其是前三层的DQN。

图5.表征相似性分析

（A）Pong游戏的差异相似矩阵（DSM）的图示。DSM代表跨时间模型表示的成对比较，此处在示例Pong游戏运行中的前1,000帧中进行了描述。左侧的DSM代表DQN第3层的DSM，右侧的DSM代表Pong中手绘特征的DSM：两个球拍的位置，球的位置和球的速度。

（B）DQN的表征相似性分析。所有游戏的所有模型DSM的相关性，以及Pong的手绘功能（HDF）的相关性。Pong中的内部表示与像素空间和PCA模型越来越不同，而与DQN图层1–4的手绘特征越来越相似。更高层中的DQN表示也与Space Invaders中的输入空间越来越不同。

（C）Pong的fMRI数据的表征相似性分析。三个ROI的fMRI DSM与模型DSM相关，包括HDF，DQN，PCA和VAE的每一层。条形图上方的星号(*)表示六个受试者中的六个受试者具有显著性(分组排列测试，p < 0.01，经多重比较校正的FWER)。条形图上方的虚线表示六个受试者中的六个模型之间的显著差异(分组排列测试，p < 0.01，FWER针对多重比较进行了校正)。所有受试者的所有大脑区域均与HDF DSM和DQN第3层和第4层显著相关。有关各个受试者图，请参见图S6。

大脑在Pong游戏中的状态空间表示对物体的空间信息进行编码

接下来，我们根据体素活动计算DSM，并将这些DSM与手绘特征DSM（降采样为fMRI分辨率）相关联，来测试大脑是否类似地对Pong游戏中对象的空间位置进行编码。对于所有受试者，手绘特征DSM与先前在编码模型分析中确定的感觉运动通路的所有脑区域均显著相关（单个受试者的图5C和S6；块置换测试，p <0.01，FWER进行了多次比较校正）。这表明，与DQN相似，大脑在Pong游戏中的状态空间表示涉及对高级特征进行编码，这些特征跟踪相关对象的空间位置。

此外，对于早期视觉，PPC(顶叶后皮层)和运动/额叶ROI中所有受试者，大脑DSM与DQN第3和第4层显著相关(在早期视觉区域与DQN第2层显著相关)。早期视觉区域中的表示已经与手绘特征高度相关，这可以解释为什么这些区域更喜欢DQN第3层和第4层而不是更早的层。

在运动和运动前区域中编码的动作值

DQN隐藏层对状态空间进行编码，以计算用于动作评估的网络输出Q值。为了确定大脑中是否发生了相似的动作值计算，我们使用DQN输出作为计算模型，实施了基于计算模型的广义线性模型（GLM）分析。

action value regressor根据参与者看到的状态来标识对所选DQN动作编码连续值的区域。在所有游戏中，运动前皮层，SMA，初级视觉和运动皮质中发现了重要的动作值编码（图6B和S7）。对于Enduro中的所有参与者，p <0.001（经FWER校正，簇水平）的显著簇位于运动或SMA /运动前区域，Pong的六分之五的参与者（未校正p <0.001的六分之六），Space Invaders的六分之三的参与者。这些结果表明，在Atari游戏过程中，在SMA和运动前皮层中计算了动作值。

图6.动作值结果

（A）动作值GLM的描述。通过DQN运行游戏框架来评估动作/选择值。然后将轨迹下采样至10Hz，并与血液动力学响应函数进行卷积，以揭示动作值的GLM回归。

（B）运动前/ SMA区域中动作值的神经编码。全脑图的阈值为p <0.001（校正的FWER，聚类水平）。在初级视觉和运动皮层中也发现了动作值的重要代表。其他参与者如图S7所示。

卷积滤波分析

到目前为止，已经显示出在DQN第3层和第4层中最明显地出现了类似大脑的表征。我们看到，即使是早期视觉区域，所有ROI都更喜欢最后两个DQN层，这表明输入像素必须进行多次非线性变换得出最能预测Atari游戏过程中皮质反应的特征。但是，即使最后两层最能预测大脑中的体素，但不同区域可能更喜欢这些层中的不同人工神经元或特征。如果是这样，我们是否可以利用这种可变性进一步了解大脑正在编码的特征以及大脑的内部表示如何从一个区域转换为另一个区域？

我们通过分别训练最后一个卷积层中的每个卷积滤波器（第3层，64个滤波器；图1B中所示的DQN体系结构）来重新训练编码模型，以此进行测试。卷积神经网络（CNN）的卷积滤波器表示网络希望在输入中检测到的特征，该特征可以通过反向传播/解卷积进行可视化处理（图7E）。例如，典型CNN中的早期层会编码低级特征，比如边缘和轮廓。

然后，我们通过平均ROI中各个体素的预测准确度（我们称之为“神经预测性”的一种指标）来平均估算每个滤波器预测体素响应的程度。这可以量化每个滤波器对神经反应的总体解释程度，并使我们能够测试跨不同ROI的神经预测性变化。

RSA在Pong游戏中的结果表明，Pong中大脑与DQN之间的共享表示对应于对象空间位置的相互编码。我们使用神经预测性指标对此进行了明确的测试，因为包含更多有关高级特征信息的卷积滤波器可以更好地解释大脑反应。为了对此进行量化，我们计算了第3层滤波器对具有互信息度量的Pong手绘特征进行编码的程度。

我们发现具有较高神经预测性的滤波器可编码有关手绘特征的更多信息。这些相关性对于每个参与者中的球位置，球的速度和球拍的位置都非常重要（p <0.0001；图7A），这表明DQN到Pong中的大脑映射的本质在于高级特征的表示。

图7.大脑活动的滤波分析

（A）Pong中的神经预测滤波器对物体的空间位置进行编码。在每个第3层滤波器上分别运行编码模型，以估计滤波器的神经预测性。分别评估每个滤波器在Pong中编码手标记特征的程度。在滤波器神经预测性得分与滤波器在每个参与者中关于手标记特征编码的信息量有关的度量之间找到了显著的相关性（p <0.0001）。绘制了参与者的平均分数和相关性。

（B）区域间滤波器神经预测得分的相关性。神经预测性分数在各个区域之间相互关联，以估计相同的滤波器是否可用于预测所有神经反应。在Enduro和Space Invaders中，发生了更多的聚类，将视觉，顶叶和运动网络分开。

（C）滤波分数在参与者之间相关。所有参与者之间的相关性很高，而Pong的相关性最高。

（D）神经预测活动与行为预测活动的相关性。坐标轴代表归一化分数，最差滤波器为0，最佳滤波器为1。描述了跨参与者聚合的数据。

（E）在Neon中使用引导反向传播的两个示例滤波器的可视化。每个例子右边的图像代表了游戏数据中激活滤波器最多的图像。每个示例左侧的灰色图像表示该输入图像中像素空间的哪些部分对滤波器的激活影响最大。红色、绿色和蓝色反映了输入中跨帧变化的像素。每个游戏随机选择的五个滤波器也显示在图S8A中。

跨区域滤波神经预测

为了估计不同区域是否偏好不同的滤波器，我们对每个ROI中每个滤波器的预测精度进行了平均。然后，我们计算了跨区域的64个滤波器分数之间的相关性。对于Pong，在所有区域都发现了滤波器得分之间的高度相关性，这表明相同的滤波器对于解释大脑中的一致反应是有用的(图7B)。

但是，在Enduro和Space Invaders中，不同的ROI仅将部分重叠的滤波器集映射到它们，这表明跨区域的表示更加异构（图7B）。我们发现滤波器编码的视觉，顶叶和运动簇在簇内具有高相关性，在簇之间具有中度相关性。由于这些游戏的复杂性增加，这些模式可能与Pong中更均匀的滤波器选择性不同。

神经预测滤波器使参与者一般化，并可以预测行为

为了调查我们所有的参与者是否都收敛于解决任务的相似有用表示形式，我们将各个参与者的每个过滤器的神经预测得分相关联。观察了所有游戏中所有参与者之间的高度相关性(图7C)，这意味着相同的滤波器被映射到所有参与者的大脑中。

该结果还表明，网络中的某些滤波器对于解释神经反应普遍有用，而有些滤波器则毫无用处。 Enduro 第3层第40个人滤波器是最合适的滤波器之一，用于解释每个参与者的大脑活动。通过反向传播，我们可以看到滤波器可以检测汽车和道路两侧，这对于在游戏中起作用非常有用（图7E）。相比之下，Enduro第3层第56个滤波器是最不合适的滤波器之一，用于解释六分之五的参与者的大脑活动。该滤波器在屏幕底部检测与奖励相关的分数，因为当收到奖励时计分板会更改，但与奖励没有因果关系。

图S8A中还绘制了每个游戏中五个随机滤波器的滤波器反卷积示例。

接下来，我们通过分别在第3层的每个滤波器上重新训练解码人类行为模型(图2B)，来评估每个滤波器对人类行为的模拟效果。类似于神经预测性分析，这使我们能够探索第三层每个滤波器对预测人类行为的有用程度。我们发现了滤波器如何解释体素活动(神经预测活动核心)和滤波器如何解释人类行为(图7D)之间的相关性。这种相关性在Enduro和Pong中最为明显(Enduro的6名参与者中有6人p < 0.05，Pong的6名参与者中有6人p < 0.05，但Space Invaders的6名参与者中只有2人p < 0.05)。因此，大脑对与行为最相关的特征进行编码，而DQN对不仅在参与者之间具有通用性的大脑特征进行编码，而且还预测人类行为。

状态空间表示在PPC(顶叶后皮层)中是不变的

理想情况下，抽象状态空间表示应修剪掉不需要的感觉特征。对于Pong而言，这涉及对游戏中相关对象的高级特征进行编码。但是，其他两个游戏更为复杂，并且包含大量难以手动标记的特征。因此，我们接下来识别抽象状态空间应该忽略的不相关特征，而不是隔离这些游戏中的相关高级特征。

我们想找到状态空间编码对与任务执行无关的感觉信息不敏感的大脑区域，这种模式被称为干扰不变性。对Enduro来说，一个讨厌的变量是天气和一天中的时间。驾驶游戏从白天开始，随着各种天气模式逐渐变成夜间。像素和视觉输入的颜色会发生显著变化，而整体游戏性基本保持不变。从形式上来说，这个天气变量与参与者的行为在信息论意义上没有关系。一个好的状态空间表示应该独立于游戏中的颜色来定位对象。因此，如果一个智能体在它们之间进行类似的动作（如图8A所示），它通常将像素空间中很远的输入投影到潜在状态空间的相似区域。相反，即使像素空间的微小变化也可能需要采取相反的措施。例如，在图8A中，即使两对框架在感觉上相似，智能体也应根据汽车在其前面的位置向左或向右移动。

对于空间入侵者，屏幕上入侵者的数量解释了像素空间中的许多变化，但对参与者采取的行动有边缘效应(marginal effect) (见STAR方法)。这是因为随着特工杀死更多的入侵者，屏幕变得越来越黑。该信息不会严重影响特工应采取的行动，因为入侵者在特工上方的相对位置至关重要。

为了估计ROI表示形式是否是干扰不变性，我们量化了滤波器与Enduro、Space Invaders所确定的干扰之间的互信息，并为每个滤波器提供了一个度量，以衡量它对干扰的不敏感程度。

在这两个游戏中，PPC和背侧视觉末尾区域（即枕后外侧皮质LOC）对早期干扰的敏感性要高于早期视觉皮质区域V1-V4（图8B，8C，S8B和S8C）。早期的视觉皮层区域在这两个游戏中均显示出最低的干扰不变性评分，这表明映射到这些区域的滤波器仍对低水平的干扰变量进行编码。此外，在视觉通路中较晚的LOC比这些较早的视觉区域具有更高的干扰不变性评分。对于Enduro，在每个参与者中，PPC区域的得分最高或仅次于第二。在Space Invaders的六分之五的参与者中，运动前/前额叶皮层区域也表现出较高的干扰不变性评分。

这些结果表明，当信息通过背侧视觉流传递到PPC(顶叶后皮层)时，不相关的视觉输入从神经代码中被剥离。这导致了一个低维的、压缩的和抽象的表示，它将类似的游戏情况投射到状态空间的相同部分，如图8A所示。

图8.表征对顶叶后皮层的干扰变得更加不敏感

（A）说明在Enduro中有用表示的作用。天空的颜色经常变化，但是这些变化对人的行为没有影响。左侧的输入空间描述了场景如何通过诸如像素空间中的颜色之类的感知特征进行聚类。在每个夜/日群集中，左右两侧都有小车在智能体前面的示例。因此，在每种情况下都必须采取相反的动作，以避免发生冲突。良好的状态空间可以独立于视觉障碍而定位相关对象的位置。如果正确的簇在策略上具有相同的基本语义含义，那么它们在正确的簇上所得到的状态空间表示将在感知上互不相同。

（B）Enduro中天气时间的不变性。我们在每个区域计算一个干扰不变性分数。这个分数被定义为滤波器在一个区域中的神经预测活动与该滤波器对天气的干扰不变性之间的相关性。运动区ROI既包括初级运动皮层，也包括运动前皮层。

（C）在Space Invaders中屏幕上侵扰者数量的干扰不变性。我们类似地为（B）中定义的每个区域计算一个干扰不变性分数。对于“Space Invaders”游戏，干扰的变量是屏幕上侵略者的数量。

总结

决策神经科学中尚未解决的一个主要问题是如何识别和构建相关的感觉特征，以帮助现实世界场景中的动作评估和选择。在本文中通过让人类在功能磁共振成像扫描仪中玩复杂的Atari游戏来解决这个问题。从人工智能的进步中得到启示，我们使用了一种深度强化学习算法作为模型来解决这些任务中固有的任务表示问题。

我们证明了DQN的表现形式与人类视觉的表现形式有显著的相似性，DQN中的隐藏层可以从背侧视觉流和PPC延伸到运动前区的分布式感觉运动网络中预测人类的动作和fMRI活动。

DQN模型不仅显著优于不同复杂程度的控制模型，而且DQN特征也解释了在控制其他模型时这些感兴趣区域的独特差异。这些结果表明，这些区域不是简单地编码低级感官信息，而是产生一种状态表征，将感官信息与奖励和行动选择联系起来。为了进一步验证我们的方法，我们在运动前皮层/SMA以及初级视觉和运动皮层中发现了DQN动作值输出的编码。与传统的基于trial的研究保持一致，我们的结果支持了SMA在行动评估中的作用，同时将这些发现推广到具有高维状态动态的环境中。

对于Enduro和Space Investors来说，DQN特征到大脑的映射在区域之间更加异构，这表明不同的区域更喜欢网络中不同的底层特征。PPC(顶叶后皮层)区域编码的特征比早期的视觉区域更具普遍性和不变性。因此，PPC能够忽略和抽象出与行为表现无关的感官流信息，例如Enduro中的颜色和背景变化。这表明PPC可能是通过整合视觉、认知和运动信息来隔离行为相关刺激的中心环节。运动神经科学方面的大量文献也暗示了感觉运动转换中的PPC，将感知与决策和行动联系起来。目前的工作表明，这些过去的发现和提出的理论可以被整合到一个更广泛的概念中，作为对抽象状态空间特征的编码，将感知与学习和行动选择联系起来。

目前的发现表明，即使人类大脑和深层强化学习模型之间有显著的体系结构差异，DQN仍然在高维决策环境中捕捉了人类行为和大脑活动在整个背侧视觉流以及顶叶和运动前皮质中的变化。这些发现有助于进一步在人工智能和计算神经科学的进步之间建立深刻而持久的联系。我们的结果表明，这种跨学科的相互作用正在继续发展，特别是深度学习和决策神经科学之间的协同作用为产生关于智能系统内部表示的丰富见解提供了持续的前景。

RL之DQN：基于TF训练DQN模型玩“打砖块”游戏

RL之DQN:基于TF训练DQN模型玩"打砖块"游戏输出结果 1.test01 2.test02 设计思路训练过程后期更新--
最新综述丨视频超分辨率研究方法

作者丨Wangsy 编辑丨极市平台极市导读本文是第一个也是唯一一个视频超分方向的综述,回顾了基于深度学习的视频超分技术的研究进展,提出了一种基于深度学习的视频超分分类方法,并总结了SOTA方法在一 ...
TPAMI 2021 华为诺亚&悉尼大学陶大程团队提出多功能卷积，助力轻量级网络

0 写在前面在本文中,作者提出了一种用于构造高效卷积神经网络的多功能滤波器 ,并应用于各种视觉识别任务中.考虑到硬件上运行高效的深度学习模型的需求,研究者们已经开发了许多方法来学习紧凑的神经网络.这 ...
【学术论文】基于深度学习的图像分类搜索系统

摘要: 图像分类是根据图像的信息将不同类别的图像区分开来,是计算机视觉中重要的基本问题,也是图像检测.图像分割.物体跟踪.行为分析等其他高层视觉任务的基础.深度学习是机器学习研究中的一个新的领域,其动 ...
卷积神经网络可视化的直观解析

重磅干货,第一时间送达最早的卷积神经网络是Alexander Waibel在1987[5]年提出的延时神经网络(TDNN).TDNN是一种应用于语音识别问题的卷积神经网络.它使用FFT预处理的语音信 ...
基于自适应策略的深度强化学习

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容公众号点上方人工智能算法与Python大数据获取更多干货在右上 ...
Sergey Levine-伯克利《深度强化学习2020》课程视频及ppt分享

课程介绍本课程主要讲解深度强化学习相关的基础知识,基础模型:还设计迁移学习.多任务学习和元学习. 文末附本课程视频及ppt免费下载地址. 课程主页 http://rail.eecs.berkeley ...
深度强化学习DDPG在量化投资的应用

主动基金被动管,被动基金主动管. 所以,我们的模型主要应用于场内ETF,ETF可以随时交易且手续费相对较低.而且ETF是支持T+0的. 继续强化学习. 今天探讨一下这DDPG:深度确定性策略梯度(De ...
脑机头条第33期| OpenAI大规模深度强化学习玩DOTA2

更多脑机干货第一时间送达 2020年2月22日脑机头条第33期强化学习定义: 是智能体(Agent)以"试错"的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智 ...
从零实现一个支持深度强化学习的量化投资系统

研究过外汇自动交易,期货CTA,然后是股票的量化投资,当然本质上没有太大区别. 开源量化系统也用过几个,数据格式融合的问题,有些不方便,而且客观讲,实现一个简单的量化系统,其实非常简单. 这一次算是重 ...
谷歌的Loon气球是如何利用深度强化学习有效穿越平流层的？

作者:Salvatore Candido Loon和Google AI如何实现世界上第一次在量产航空航天系统(a production aerospace system)中应用强化学习算法. 驱动一个 ...
深度强化学习落地方法七步曲|写在前面、需求分析、算法选择、动作空间、状态空间、回报函数、训练

大纲 1.写在前面 2.需求分析篇 3.算法选择篇 4.动作空间篇 5.状态空间篇 6.回报函数篇 7.训练篇正文一.写在前面缘起随着这波人工智能浪潮的兴起,强化学习(Reinforcemen ...
解读TRPO论文，深度强化学习结合传统优化方法

导读:本论文由Berkeley 的几位大神于2015年发表于 JMLR(Journal of Machine Learning Research).深度强化学习算法例如DQN或者PG(Policy G ...
毫有引力｜除了AlphaGo，深度强化学习还能用在自动驾驶领域？

这里是我们的新栏目「毫有引力」的第 2期,未来将持续进行自动驾驶相关技术分享. --今天我们特别邀请了毫末智行认知专家小吕老师想当年 AlphaGo 因接连战胜一众国际顶尖棋手,一举成名!好家伙,成 ...