在过去的几年里,机器学习(ML)在神经科学中的应用迅速增加。本文回顾了ML在系统神经科学的多个领域中的已实现和潜在贡献。本文描述了ML在神经科学中的四个主要作用:很多人对机器学习(ML)充满热情。毕竟,它让计算机在图像分类方面超越了人类水平,在“围棋”等复杂游戏中击败了人类,并在流行的手机上提供高质量的文本语音。ML技术的进展也受到了科学界的关注。在2017年7月出版的《科学》杂志上,编辑Tim Appenzeller写道:“对于科学家来说,前景非常光明:人工智能有望推动更多发现过程的发展。”系统神经科学领域也不例外。在过去的几年里,有很多关于ML在神经科学中的重要性的观点文章。此外,当我们分析神经科学中关于ML的期刊文章数量时,本文发现它的使用在过去20年里一直在持续增长(图1)。机器学习在这篇文献中以许多不同的方式被使用。本文将整理ML在系统神经科学中的概念性应用。在最高层次上,ML通常被划分为有监督学习、无监督学习和强化学习等子类型。有监督学习建立了一个模型来预测输入数据的输出。无监督学习关注于寻找数据的结构,例如聚类、降维和压缩。强化学习允许一个系统根据在一系列行动结束时的奖励来学习最好的行动。本文着重于:有监督学习。为什么创造越来越精确的回归或分类方法(见框1)值得像“人工智能革命”这样的标题?这是因为无数的问题可以用这种方式提出。在对图像进行分类时,输入的图像可以用来预测图像中的目标。当玩游戏时,棋盘的设置(输入)可以用来预测最优的一步棋(输出)。当我们在智能手机上发短信时,我们当前写好的文字会被用来产生下一个单词的提示。同样,在科学上也有很多例子表明,我们希望从测量数据中做出预测。本文对有监督的ML可以帮助或已经被应用于系统神经科学问题的方式进行了分类。本文认为,有监督的ML在这一领域的应用可以分为四类(图2)。(1)处理工程问题。机器学习可以提高神经科学家目前大量使用的方法的预测性能,如医学诊断、脑-机接口和研究工具。(2)确定可预测变量。机器学习可以更准确地确定变量(例如,那些与大脑和外部世界有关的变量)是否可以相互预测。(3)为简单的大脑模型设置基准。我们可以比较简单可解释模型和高度精确的ML模型的性能,以帮助确定简单模型的质量。(4)构建大脑的模型。我们可以讨论大脑是否以与ML系统类似的方式解决问题,比如深度神经网络。这些应用背后的逻辑是截然不同的。本文的大部分内容在进一步详细介绍ML在神经科学中的这四种作用,并在系统神经科学的几个领域中提供许多已实现的和潜在的ML示例。更具体地说,本文将讨论ML在神经功能方面的四种作用,包括神经活动及其与行为的关系。本文还在实际运用中讨论了ML(框2),因为它对于生活中的真实应用是至关重要的。
图1。神经科学中机器学习的发展。本文绘制了在过去20年里使用ML的神经科学论文的比例。也就是说,计算了涉及神经科学和机器学习的论文数量,用神经科学论文总数进行标准化。神经科学论文通过在Semantic Scholar上搜索“神经科学”来识别。涉及神经科学和机器学习的论文通过在Semantic Scholar上搜索“机器学习”和“神经科学”来识别。
回归:连续值输出的预测(如脑内淀粉样斑块的数量)。分类:分类输出的预测(例如,受试者是否患有阿尔茨海默病)。k近邻:这组分类和回归方法通过比较输入空间中k个最接近的数据点来预测输出。广义线性模型(GLM):一种回归或分类方法,其中特征首先被线性组合,然后通过输出函数(例如指数函数)进行反馈。Logistic回归:GLM的一种,它使用Logistic(sigmoid)函数作为输出以实现非线性过程,以便预测0到1之间的输出。它用于分类。支持向量机:一种分类方法,通常是非线性地将输入投影到高维空间中,然后在这个高维空间中创建边界来划分数据。人工神经网络(深度学习):这些方法通过网络节点映射输入到输出,每个节点都以可学习的权值影响其他节点。前馈神经网络使用线性组合和输出非线性重复转换数据(跨神经网络的多个层)。递归神经网络(RNNs)允许节点自我激活,或者通常是循环的,通常用于序列数据(如时间序列、语音数据)。卷积神经网络(CNNs)最常用于图像,学习过滤器以相同的方式应用于输入的所有部分。这使得网络能够学习图像的特征,而不考虑它们在图像中的精确位置。基于树的方法:分类树和回归树都是决策树的分支算法,就像流程图一样,决策树的学习通过每个变量上的决策边界按顺序分割输入空间。输入空间的最后划分(“叶”)被指定为输出值。常见的基于树的方法使用树的“集成”(见下文)。随机森林平均分布在许多树上。XGBoost将新的树与先前匹配的树的残差相匹配。集成:集成方法结合了许多不同模型的预测。他们可以对经过重采样数据训练的模型(装袋)的结果求平均,根据先前模型的误差顺序拟合模型(增强),或者将初始模型预测输入到其他ML模型中(叠加)。自举:一种获取模型参数或估计量的置信区间的常用方法。对原始数据集进行替换并重新采样,以创建新的“自举”数据集,这些数据集用于生成置信区间。
图2。有监督机器学习在神经科学中的四个角色的示例。
1–ML可以解决工程问题。例如,它可以帮助研究人员利用大脑活动控制假肢。
2-ML可以识别预测变量。例如,通过使用MRI数据,我们可以确定哪些大脑区域对诊断阿尔茨海默病最有预测力。
3–ML可以对简单模型进行基准测试。例如,我们可以将神经活动如何与运动相关的简单“种群向量”模型与ML基准(例如RNN)的预测性能进行比较。
4-ML可以作为大脑的模型。例如,研究人员研究了视觉通路中的神经元如何与人工网络中的单元相对应,而人工网络是经过训练来对图像进行分类的。
如果您对脑影像及机器学习感兴趣,欢迎浏览以下链接,了解思影科技课程及服务
(可添加微信号siyingyxf或18983979082详细了解):
第十二届脑影像机器学习班(重庆,11.11-16)
第三十五届磁共振脑影像基础班(重庆,11.30-12.5)
第七届任务态fMRI专题班(重庆,1.14-19)
第十三届脑影像机器学习班(南京,12.13-18)
第三十六届磁共振脑影像基础班(南京,2021.1.6-11)
第七届小动物脑影像数据处理班(南京,12.20-25)
第七届脑电信号数据处理提高班(南京,11.18-23)
数据。要训练有监督的ML方法,需要有输入数据和标记的输出。在右边,本文显示了脑电图。假设我们的目标是检测癫痫发作的时间。数据已经被标记以显示输出:蓝色代表正常大脑状态,红色代表癫痫发作。分为训练/测试。在单独的数据上确定ML模型的精度比用于训练模型的精度更重要。这是因为一个好的模型应该将良好的分类精度推广到新的数据上,而不仅仅是记住训练的例子。一种常见的技术是交叉验证,它反复地将数据分成不同的训练/测试集来提高模型的泛化能力。模型选择。有很多不同的ML算法,那么我们应该使用哪一种呢?首先,它取决于数据类型。例如,卷积神经网络适用于图像,递归神经网络适用于序列数据。它还取决于数据量。在数据有限的情况下,参数较少的模型通常是有帮助的,尽管复杂的模型仍然可以成功地使用正则化等技术来对特征进行稀疏化处理。总的来说,本文发现基于树的方法(随机森林和XGBoost)和带有两个隐藏层的前馈神经网络在很多问题上使用默认参数都能很好地工作。最后,不选择和使用许多算法是可能的(参见下面的集成方法部分)。超参数优化。除了模型拟合的参数外,许多ML模型都有超参数,这些参数通常与模型结构或模型的拟合方式有关。例如,神经网络在隐藏层中可以有不同数量的单元(即神经元)。总体策略是将训练集进一步分解为训练集和验证集,并确定使验证集达到最佳拟合的超参数。工具箱可以智能地找到好的超参数(例如Hyperopt和bayesianomization)。拟合模型。对模型进行拟合,并对测试集进行预测。此部分用于4个角色中的任何一个角色的收尾部分!集成。集成方法是一种实现性能最大化的常用方法,通常用于大型比赛,如Kaggle。集成方法结合了来自多个不同ML模型的预测能力(见方框1)。一系列出人意料的工程问题都可以归结为预测问题。他们的共同点是,一个人想要估计一些感兴趣的量(Y),并且可以测量与这个量相关的量(X)。然而,X和Y之间的关系是未知的,并且可能很复杂。我们称这些为“工程问题”,能够通过X预测最后的Y就是我们想要的。在这些问题中,我们不需要对关系有一个详细的了解,目的只是尽可能准确地估计Y。例如,电子邮件提供商希望从收到的邮件中过滤垃圾邮件,并且只关心电子邮件的排序是否准确(不关心你如何实现它)。传统上,人们会试图仔细理解X和Y之间的关系,并将其合成一个模型。现代机器学习(ML)正在改变这种模式。一个从业者只需要一个大型的测量数据库,以及每个度量的相关兴趣量,而不是详细的关于实现过程的专家知识。机器学习算法可以自动地建立它们之间的关系模型。一旦训练好,ML算法就可以对新的测量值做出预测。这种“工程”框架是ML的传统应用,在工业中很常见。在神经科学中,有许多问题类似于工业实践中的问题形式,在使用上思路相同。许多医学应用都依赖于从神经活动的测量中成功地提取关于意图、感觉或疾病的信息。这是一个难题,因为神经活动的含义,即“神经代码”,通常是不知道的。机器学习是目前这项任务中普遍存在的工具,在这种情况下,可以通过大量的神经活动数据集来获得对感兴趣的行为或疾病的预测。其中一个应用是脑-机接口(BCIs),它试图利用神经信号来控制假肢、计算机光标或其他外部物体。一些小组使用现代ML技术,例如递归神经网络,利用峰值记录、ECoG或EEG改进BCI。机器学习也可以用来通过过去的神经活动预测未来的神经活动。该应用与癫痫相关,因为可以使用深度学习和集成方法预测癫痫是否即将发作。在另一种应用中,研究人员利用ML从神经活动中诊断神经系统疾病。最近发表了关于这一特定应用的若干评论。由于神经记录数据集庞大,输入信号复杂,因此一般方法难以理清所有变量的相互关系,但ML仍提高了这些医学应用的准确性标准。ML方法也有望帮助解决上述问题的逆问题:从外部世界的变量预测神经活动。如果我们想用神经刺激来诱导精确的感觉,解决这个问题是很重要的。例如,一个假眼可以根据摄像机的输出以正确的方式刺激视网膜神经节细胞来构建。神经节细胞活动最精确的模型是目前训练用于预测自然场景活动的深度学习模型。同样的,假肢和本体感觉神经元也能提供感觉。机器学习模型可能有助于使这些假肢诱发感觉。一种非常相似的方法可以用来量化行为,比如运动、睡眠和社交。例如,我们可能想用便宜的视频记录量化整个身体的运动。该领域的最新进展使视频量化更加精确。研究人员利用深度学习从视频中估计人类姿势。最近,相关方法变得更容易使用,数据密集度更低,并已扩展到动物跟踪。除了估计姿势外,我们还可以从视频中直接估计行为类型(如步行、停车和跳跃)。行为也可以根据其他方式进行评估,如录音。应用ML的工程方法也有助于解决从原始测量获得神经活动的精确估计的问题。许多成像方法,如脑电图、脑磁图和功能磁共振成像,都需要解决一个“反问题”——从测量中获取信号源。例如,研究人员根据头皮的电极记录来估计大脑中脑电图信号的来源。最近,人们发现深度学习可以提高成像的估计值。神经网络改进了图像去噪和反褶积,可以提供超分辨率图像,甚至可以取代整个图像处理管道。在成像之外,时间序列数据的反褶积是另一个常见的应用。例如,一旦研究人员获得了细胞内钙浓度的踪迹,就仍然存在着一个困难的“反问题”,即推断潜在峰值出现的时间。对抗性网络方法为这类问题提供了很好的解决方案。在当前的实际应用中,每一个困难的工程问题都可以被构建成一个大的标记数据集并使用ML来学习应用中实际关注的预测问题(而不是对关系更重视)。就像神经活动可以预示疾病一样,神经解剖学也可以。因此,通常可以进行解剖学测量并使用机器学习来诊断疾病。例如,研究人员可以通过核磁共振扫描区分老年痴呆症和健康的老年人大脑。更一般地说,神经解剖测量,如结构磁共振成像(MRI)和扩散张量成像(DTI)可以在包括精神分裂症、抑郁症、自闭症和多动症在内的许多情况下区分健康和不健康的患者。有时,ML提供了令人惊讶的准确率。例如,使用深卷积神经网络,我们可以从视网膜眼底照片中准确地预测心血管危险因素。毫无疑问,未来将继续努力从生物数据中自动检测疾病。由于神经解剖学的大部分研究都是基于成像技术的,利用机器视觉的最新进展正在成为神经解剖学的重要工具。因此,分割和标记图像的各个部分是一项特别重要的任务。以往,这种工作通常需要手动注释,然而,随着成像技术的改进和数据量的增加,依靠人工标注将变得不可行。为了解决这一问题,许多ML技术被开发出来,基于先前标记图像的数据集自动分割或标记新图像。解决此类问题的绝大多数技术基于卷积神经网络。这种方法已被良好地用于标记医学图像,例如从MRI扫描中识别白质束。它们也被用于从电子显微镜下了解神经元的连接和形态。随着成像数据在分辨率和体积上的提高,ML正成为重建和绘制神经解剖图的关键甚至必要的工具。虽然ML方法能够提供许多工程解决方案,但ML并不神奇。ML方法要成功地解决一个问题,必须满足几个条件。首先要考虑的是,所选方法必须与数据结构相匹配。例如,卷积神经网络假设图像具有共同的局部特征(如边缘),这使得它们比标准的前馈神经网络更成功。在实践中,这意味着ML的用户必须注意选择他们的方法,或者对他们的数据进行预处理,以便假设与输入和输出的关系相匹配。这需要对数据的细节和ML方法有很好的了解。解决方法是应用自动化ML方法,该方法智能地迭代许多可能的模型配置,并选择性能最佳的选项。这种方法虽然缓慢,但通常效果比较好。然而,一般的规则是,好的ML工程需要对数据结构有很好的认识。ML的另一个潜在的重要问题是对训练数据的“过拟合”。理想情况下,ML方法应该准确地预测它没有训练过的数据。如果一个方法学会了对训练数据做出准确的预测,但不能推广到新的数据,则称之为过拟合。为了避免过拟合的担心,ML实践者总是报告模型在一个没有经过训练的测试集中的性能。正则化方法可以降低数据过拟合的风险,并降低模型的复杂性。不过,对于小数据集和复杂模型来说,过拟合尤其令人担忧。虽然不同的方法对数据点的数量有不同的敏感性,但是当数据集很大时,所有方法都不太容易被过拟合。有时,对于小数据集,更简单的方法可能是更好的选择(因为即使更复杂的方法可以更好地表达底层的输入/输出关系,但也更容易过拟合)。过拟合的风险意味着所有ML实践者必须意识到正则化技术、其数据集大小以及在未用于训练的测试集上报告准确性的重要性。然而,ML的另一个实际缺点是它可能很慢。对于大型数据集和复杂的模型,如果没有合适的硬件(如用于深度学习的GPU),训练模型所需的时间可能会很长。然而,一旦一个模型被训练出来,做出预测就要快得多。尽管如此,对于需要实时预测的应用,对于某些ML方法来说,即使是预测步骤也可能太慢。例如,脑-机接口的预测通常需要在几十毫秒的时间尺度内进行,这对于需要大量计算的模型来说可能是一个挑战。对于许多工程师来说,复杂性和运行时长之间的权衡是选择模型的一个重要方面。神经科学家经常问这样的问题:“哪些变量与感兴趣的东西有关?“哪些大脑区域可以相互预测?哪些大脑区域包含与受试者的决定有关的信息?哪些细胞类型会受到某种疾病的影响?机器学习(ML)可以帮助更准确地识别一组变量与另一组变量之间的信息量。当变量之间存在复杂的非线性关系时,这一点特别有指导意义,尤其是考虑到这种非线性关系在神经系统中经常出现。回答这些问题可以让研究人员更好地理解大脑各部分、刺激、行为等之间的关系。此部分的总体策略类似于工程应用(角色1)。然而,不是只搜索最大的预测精度,而是检查哪些输入变量会导致这种准确度的变化。确定与提高预测能力相关的变量(“特征”)的过程被称为“特征重要性”(也称为“特征选择”),并且有许多方法可以这样做。最简单的一个策略是“删除一个”策略,即删除每个变量并观察精度的降低;另一种是“最佳优先”策略,即算法只对每个变量运行,以确定其重要性。“删除一个”反映的是该变量中的信息的重要性,而不是其他变量,而best first则反映了每个变量中的总(可学习)任务信息。特征重要性度量的发展是ML和统计学领域的一个活跃领域。这些方法使我们能够深入了解哪些变量对于给定的问题是重要的(“重要性”的具体含义取决于所使用的度量)。对于这类问题,更传统的方法是将简单模型与数据拟合,如线性回归,并检查拟合系数。这种方法在科学中无处不在。然而,它的基本缺点是需要假设一个模型,这可能是不准确的。例如,如果假设模型是y=mx+b,但真正的关系是y=cos x,那么m的值(“x和y之间的相互作用”)将是0,尽管x和y之间有很强的关系。另一方面,ML方法是寻求最大化的预测准确度,这样做不需要假设一个简单的函数形式。这样做的好处是,即使在输入和输出之间的关系未知且可能是非线性的情况下,我们也可以评估变量的重要性。另外,通过bootstrapping,我们甚至可以找到它们的重要性值的置信区间。机器学习与特征选择相结合的方法可以普遍应用于此类问题,而不管我们是否知道潜在的关系。确定重要特征还可以帮助我们构建更简单的模型。我们不能为一个模型使用许多输入,而只能使用重要的特性作为输入。例如,确定哪些神经元的形态特征最能预测细胞类型,可以引导我们建立更精确的形态生成模型(基于最具预测性的特征)。因此,准确地确定ML算法中特征的重要性对于创建更简单的模型也是有益的。神经科学建立编码模型的历史由来已久,其目的是根据外界变量预测神经活动(例如单个神经元的尖峰或fMRI体素中的BOLD信号)。这是识别大脑区域“角色”的常用方法。编码模型的构建是一个回归问题(从外部变量到活动),其目的是明确某种功能的重要性,而不仅仅是纯粹的预测能力。如果更简单的方法在描述神经活动方面同样精确,那么机器学习就不必用于编码模型。然而,通常情况并非如此。例如,最近发现,XGBoost和集成方法在运动皮层、体感皮层和海马体的数据集上带来了显著的性能改进。这些改进是相对于在计算神经科学中普遍存在的广义线性模型。其他研究也显示了使用XGBoost和深度学习等方法在其他领域和模式中预测性改善的结果。这些例子提醒我们,虽然简单的模型看起来可以解释,但它们可能缺少外部变量与神经功能之间关系的重要方面。提高编码性能可以让研究人员更普遍地了解哪些协变量可以预测神经活动。这概括了在简单模型中添加额外变量并观察性能提高的已经很常见的方法。例如,关于使用XGBoost构建头部方向神经元编码模型的研究着眼于编码模型中不同协变量(如头部方向)的相对贡献。这样就可以确定协变量的重要性,而不必假设关系的形式。相反的问题,“从这个大脑区域的活动中可以读出什么信息”也可以回答关于信息内容和特定大脑区域或细胞类型的作用的问题。例如,研究人员使用解码方法比较了在决策任务过程中,顶叶和前额叶皮质的预测性神经元与任务相关变量的关系。另一个例子是,本文的研究者在另一篇文章中比较了不同任务条件下运动皮层的解码结果,以确定大脑中的不确定性如何与不同的行为不确定性相关。解码方法的选择对性能有很大的影响。研究者最近在运动皮层、体感皮层和海马体的数据集上对不同的ML方法的解码能力进行了彻底的测试,结果表明,现代ML方法,如神经网络和集成方法,可提高解码精度。更精确的解码可以增加我们对神经种群中包含的关于另一个变量(如决策、运动或位置)的信息的理解。神经科学研究人员通常想确定哪些变量对行为有影响,以便他们能够将这些变量与神经活动联系起来。我们可以应用ML来寻找预测行为的变量,而不必假设关系的形式。例如,研究人员的目标是确定哪些视觉特征可以预测我们下一步的目标。这是确定凝视控制的神经基础的有用步骤。传统上,手工设计的视觉特征被用来预测我们下一步要看的地方,但最近研究人员通过深度学习更准确地预测了注视位置。另一个例子是,研究人员研究了环境特征如何预测雄性果蝇在求偶过程中发出的歌声。该研究利用稀疏先验的广义线性模型,发现雄性果蝇与雌性之间的距离是最强的预测因子。这使得研究人员能够研究负责调节距离的歌曲振幅的神经通路。更精确的行为模型可以让研究人员更好地研究神经活动和行为之间的关系。在医学上,了解预测疾病的潜在因素是很重要的。这是通过发现传统分类技术中神经影像学特征的重要性来实现的(例如,在logistic回归分类器中确定哪些功能连接性指标可以预测阿尔茨海默氏症,以及最近用于确定精神分裂症的多种预测性特征的研究)。这种方法在动物模型上也取得了成功。例如,在抑郁症小鼠模型中,研究人员确定前额叶皮质和边缘区神经活动的哪些特征(能量和连贯性)可以预测病理行为。然后他们能够利用这些信息设计一个神经刺激范式来帮助小鼠恢复正常行为。通过在这些应用中使用机器学习,研究人员能够测试他们的变量是否可以预测疾病,而不必假设这种关系的形式。就像神经活动一样,机器学习可以帮助研究人员更好地了解大脑的神经解剖特征是如何预测疾病的。一般的方法是构造一个ML分类器来确定一个对象是否患有该疾病,然后查看该分类器中特征(例如,大脑区域或连接)的重要性。在一个例子中,研究人员训练了一个支持向量机分类器,以基于图论的扩散加权成像特征预测抑郁症,然后研究这些特征的重要性。在另一个例子中,研究人员训练了一个随机森林分类器,通过结构核磁共振来预测阿尔茨海默病,然后确定在这个分类器中,哪些大脑区域是最具预测性的特征。另一种通用方法是比较使用不同特征构建的分类模型。例如,前面提到的论文还比较了使用不同特征集构建的分类器,一个使用皮层厚度度量,另一个使用体积度量。因此,ML可以通过多种方式告知我们神经解剖特征与神经疾病之间的预测关系。神经元具有复杂的形状,具有不同的生物结构,在不同的大脑区域和不同的物种之间差异很大。已经提出了许多方法来分类神经元:电生理学、形态学、遗传学或转录组学和突触连通性。机器学习可以帮助实现这一目标。细胞类型可以根据一种形态(例如细胞是抑制性还是兴奋性)来标记,然后根据另一种形态(例如形态)来预测这些标记。例如,利用ML根据形态学特征预测细胞类型,并研究这些特征的重要性。这既可以告诉我们哪些特征在细胞类型中是独特的,也可以告诉我们哪些特征是共享的。在所有这些领域,ML可以帮助我们识别塑造神经元的重要特征,并改变我们对神经解剖学的看法。当使用ML方法来估计哪些变量是可预测的时,必须了解ML方法的一般注意事项。这些在角色1中进行了概述。应注意过拟合,并选择合适的ML方法和正则化技术,以最大限度地提高保留数据的精度。一个模型在测试集上的准确度越高,模型在估计一个变量的可预测性方面的统计能力就越大。正如在角色简介中提到的,特征重要性方法决定了原始输入对ML模型的重要性。找到相关的特征组合是一个独立的问题,而不是本文在角色2中概述的问题,通常涉及到在ML系统的“黑匣子”中查找(如角色4所述)或使用无监督学习方法。虽然ML可以很容易地返回有关预测关系的数字,但是在解释这些结果时一定要小心。关键的是,这些方法并没有对变量之间的因果关系做出任何声明。如果变量X预测Y,可能是因为X导致Y发生变化,因为Y会对X产生因果影响,或者因为没有观察到某个变量Z并且同时影响X和Y。此外,关于预测关系的结果可能高度依赖于ML模型中包含的其他变量。也就是说,对于任何回归方法,包括简单模型,都存在同样的可解释性问题。确定ML模型中特征的重要性并不是确定变量之间预测关系的唯一方法。例如,信息论有互信息的概念。互信息还决定了一个变量对另一个变量的信息量,有时不需要对数据的形式进行假设。相互信息的明确含义使这一指标具有吸引力。然而,对于高维数据集(如尖峰列),在不假设数据形式的情况下,计算相互信息可能非常耗时,并且可能需要收集更多的数据。生物科学中建模的目的很多,而ML模型并不能满足所有这些目的。特别是,许多生物物理模型包含了关于生物机制的特定假设。Hodgkin–Huxley模型是这种类型的典型模型,因为方程本身规定了离子通道运动学如何导致尖峰。另一方面,机器学习方法主要是为了预测,而且大体上不会自动建立输入与输出之间如何关联的机械假设。在模型可解释性方法取得进展之前,ML模型在这方面不能取代更简单的模型。简单的假设驱动的模型只有在正确的程度上才有意义。人们可以很容易地从模型的预测性能(例如R2)来检查模型的准确性。然而,通常很难知道噪声源对模型系统性不足的误差有多大。这是ML可以提供帮助的地方。它可以作为一个简单模型应该解释的数据结构的近似上限。如果人工生成的模型比训练在同一任务上的ML方法的精确性差得多,那么这个人工模型很可能缺少重要的原则。另一方面,如果一个直观的模型与ML的性能相匹配,则更有可能(但不保证)假设的概念确实有意义。因此,本文认为,如果一个假设驱动的模型是可信的,那么它必须至少能够与在同一个任务上训练的ML方法的预测精确性相当。这种方法与当前通过将模型与以前的(简单)模型进行比较来测试模型的范式形成了鲜明的对比。如果两个模型都离最大似然预测性能的峰值相差甚远,那么这种比较可能就没有意义了。即使一个新的模型比以前的模型更准确地解释了数据,也有可能两个模型都忽略了重要的现象。如果不改变范式,我们就会冒着无法识别可预测复杂性的风险。使用ML进行基准测试可以检查这个陷阱。在神经科学之外,有很多此类基准测试的例子。在医疗保健中,患者结果的模型必须具有足够的可解释性,以便看护者了解什么可以改善结果(而不仅仅是预测结果)。然而,预测尽可能准确也是很重要的。因此,当研究人员建立新的、可解释的肺炎风险和医院再入院模型时,他们将可解释模型的性能与ML基准进行了比较。在心理学方面,研究人员将人造模型与ML基准进行了比较,以了解当前行为模型的局限性。这种方法在神经科学中也应该是有利的。最后,本文要指出的是,可以将模型与数据子集上的基准进行比较,这可以帮助研究人员确定模型的哪些方面需要改进。作为一个抽象的例子,假设我们有一个关于任务A和任务B期间大脑区域活动的简单模型。该模型接近任务A的ML基准,而不是任务B。这告诉我们需要修改模型以更好地考虑任务B。因此,使用基准测试还可以告诉我们模型的哪些组件需要改进。神经科学研究的一个重要部分是建立神经活动的简单模型以解释神经活动如何导致行为。一个经典的例子是如何用LGN接受野的前馈投射来解释V1接受野。另一个经典的例子是产生移动的“种群向量”。也就是说,如果将单个运动皮层神经元作为指向其偏好运动方向的向量,它们的向量总和将产生输出的运动方向。当提出这些类型的模型时,将它们的预测性能(预测神经活动或行为的好坏)与ML模型进行比较是有益的。这个简单的补充比较可以提供关键信息,说明有多少神经活动或行为仍有待解释。不幸的是,新模型的基准数据在神经科学中并不常见。最近的研究表明,在预测性能方面,ML基准测试在神经科学中通常显著优于简单模型。特别是,神经网络被证明经常比传统的简单模型更好地描述神经活动。神经网络能更好地预测视网膜神经节细胞、灵长类动物V4和IT以及听觉皮层的活动。这些结果简单地证明了先前模型的缺陷。使用ML作为简单模型的基准的另一个好处是,这些比较有时可以揭示当前模型的不足之处。例如,如果简单模型是静态线性方法(如种群向量示例中所示),而RNN的ML方法提供了更好的性能,那么更新简单模型以包含动态或非线性可能很重要。机器学习也可以帮助对描述神经解剖学的简单模型进行基准测试。例如,许多模型已经被提出来描述神经元形态的复杂性。有一些简单的模型描述了分支点处节段直径之间的关系,分支直径对其长度的线性依赖关系,以及神经元的分形维数及其自相似性。在所有这些示例中,可以对原始数据使用ML技术来创建这些模型性能的上限。这将使解剖学建模更有意义。将简单模型的精度与ML模型匹配本身并不能保证简单模型捕获数据中可解释的结构。ML模型也可能遗漏一些重要的方面。出于这个原因,我们应该采取与我们在角色1和2中概述的相同的预防措施来防止ML表现不佳。过拟合、模型选择和数据集大小都是重要的考虑因素。虽然ML模型不是金标准,但是如果要认为简单模型是完整的,那么它至少应该与ML的性能相匹配。ML基准测试不是评估简单模型是否捕获数据的可解释方面的唯一方法。有时候,最好的基准根本不是一个模型,而是一个生物系统。例如,如果一个人在一个可视任务上对人的绩效进行建模,那么更直接的做法是将任务上的实际人员绩效作为基准,而不是视觉的ML模型。在这种情况下,模型的必要标准是它再现了人类的行为。与ML基准进行比较并不是确定简单模型应该解释的最大信号量的唯一方法。我们可以将一个实验重复几次,观察结果的变化程度,然后假设实验中的相似性是信号,而差异是无法解释的噪声。例如,在模拟神经活动如何随刺激变化时,通常会多次呈现单一刺激。神经记录的各个方面在重复之间的变化被认为与刺激无关。然而,对于神经活动来说,重复的行为本身可以改变反应,这种影响必须被建模。此外,通常很难向移动的动物提供相同的精确刺激。这个缺点对于这种估计噪声的方法来说是普遍的:因为准确的噪声测量必须保证每次迭代都是相同的。最后,需要注意的是,预测性能只是使模型有效的许多方面之一。当然,应该考虑这些方面,比如生物合理性。高精度并不保证模型是真实系统的正确表示。可能有许多模型可以达到类似的性能。因此,获得最大的预测性能是模型有效性的必要标准,但肯定不是充分的标准。大脑的计算模型的作用不仅是预测,而且是作为人类可以理解的大脑工作原理的提炼。最近,一种更流行的观点认为,深层神经网络是大脑的良好模型,尽管处于高度抽象状态。虽然在十年前,鉴于当代神经网络的超简化形式,这一想法对该领域的吸引力似乎降低了。但是,最近大量的实证研究指出,大脑和训练在行为相关任务上的神经网络之间存在着意想不到的相似性。本文回顾了这些有启发性的研究,并讨论了人工神经网络正在成为更好的生物模型的各种方式。虽然令人兴奋,但仍需要大量的工作(并且正在进行中)来评估目前的神经网络在多大程度上是大脑的良好模型,以及在什么水平上。本文讨论的神经活动和神经解剖学没有分离,因为这两个方面往往是整合在一起的大脑的ML模型。为了与这篇综述的主题保持一致,本文重点回顾了以有监督学习为中心的工作,而忽略了其他基于学习的大脑模型,如无监督学习或强化学习。最近,由于神经网络在识别图像等行为任务方面取得了巨大成就,将训练后的神经网络与大脑进行比较的趋势再次升温。有趣的是,这些网络在视觉上与腹侧流有许多相似之处。这些网络是明确的分层和多层的。来自图像像素的信息通常通过十几层“神经元”或节点进行处理。除了它们相似的组织,它们的激活也是相似的。例如,已经观察到早期节点具有类似Gabor的感受野,这让人想起V1中的边缘检测器。此外,这些网络的早期/中期/晚期激活分别对V1/V4/IT反应(单个神经元和功能磁共振成像反应)做出了极好的预测。最近的研究进一步扩展了这种相似性。深层神经网络在对象识别中对视点具有相似的不变性,对图像的响应类似,并产生类似类型的错误。这一系列的相似性比任何竞争性的模型都要高,而且在视觉皮层的范围更广。受过训练的神经网络和大脑之间的相似之处不仅限于视觉系统。这些研究的形式,几乎是普遍的,可以比较大脑区域的内部反应特性和神经网络在与大脑区域相关的行为任务上的反应特性来实现这一观察。30年前发表的一项开创性研究表明,后顶叶神经元和一个训练有素的神经网络在视觉场景中定位物体之间存在相似性。最近,经过场景识别训练的网络可以准确预测枕部区域的反应。经过语音识别和音乐类型预测训练的网络的活动类似于听觉皮层。经过训练重现猴子运动的循环神经网络包含了与初级运动皮层神经元选择性非常相似的活动单元。接受导航任务训练的循环网络单元具有类似于内嗅皮层和海马体的网格和定位细胞的激活。人工神经网络和大脑响应特性之间的相似性表明,这些模型可能捕捉到大脑计算的重要方面。这些模型的一个共同缺点是,尽管它们能很好地预测活动,但它们不能揭示正在进行的神经计算的细节。如果用一个同样复杂的难以理解的神经网络来取代我们无法真正理解的大脑,那将是令人担忧的。在某些情况下,也可能会梳理出神经网络学习到的东西,并将其与生理学联系起来。例如,最近在视网膜上的研究已经将适合于神经节细胞的双层网络的活动与特定的细胞类型联系起来。然而,总的来说,网络的不可解释性带来了许多问题,也因此理解神经网络的内部工作方式变得非常有吸引力。最近许多工作都是通过可视化方法来表征在卷积神经网络中不同尺度的特征和信息,以帮助理解递归神经网络中的动态过程。事实上,研究人员也在开发更容易解释的新模型架构。此外,在神经网络上进行受神经科学启发的实验是可能的,而这在生物大脑上是不可能的。例如,研究人员最近测试了神经网络中单个单元的调整对分类泛化是否重要。在学习层面,大脑和神经网络没有那么明显的相似。大脑是否有能力像目前的神经网络一样,以一种类似的有监督方式学习,这是一个开放和有争议的问题。许多人认为,训练神经网络的方法反向传播(Backpropagation)不是一种生物学上合理的资源分配机制。然而,这是一个有争议的话题。最近的一篇论文表明,随机反馈权重仍然允许成功学习,解决了反向传播的一个不合理的方面。其他工作提出了基于顶端/基底树突的网络来解决资源分配问题。但许多生物激励的深度学习算法不能很好地适应大数据集。这场争论的最终解决方案将揭示上述反应模式的相似性是来自相似的学习规则,还是仅仅是认知问题的类似解决方案。将人工神经网络视为大脑模型的另一个担忧是,它们在生物学上并不现实。然而,最近有很多工作试图创建生物性的神经网络,这些神经网络的特征在生物学上更为可信。创建生物学上合理的神经网络的一个重点是具有峰值(二值),而不是连续的单元。许多最近的研究论文已经开始创建能够成功解决典型机器学习(ML)问题的尖峰神经网络。最近也有研究开发出更具生物学真实性的架构,例如受皮层微电路启发的架构。在生物学上更近似的深度学习方面的工作将有助于解决人工网络可以在多大程度上被视为大脑的模仿模型。神经网络只是在一定抽象层次上的大脑模型。这一水平是多少,包括多少大脑功能,这是一个关键的争论问题。当然,正如Lake等人所指出的,大脑可以做一些通过反向传播训练的神经网络无法做到的事情。例如,神经网络需要大量的数据来训练,而大脑往往可以从少数例子中学习。另一个常见的突出功能差异的例子是“对抗性例子”的存在,这些“对抗性例子”被神经网络误分类,但没有被人类错误分类。因此,即使在功能层面上,也存在显著差异。但神经网络和大脑的反应特性之间的相似性也在某种程度上令人惊讶,因为它们表明这两个系统不仅都能正确地分类对象,而且以相似的方式进行分类。也就是说,它们对给定函数有类似的实现。然而,在实现的层面上,众所周知,神经网络和大脑在许多方面是不同的。神经网络在一系列独特的细胞类型、神经调节、突触特异性适应和短期可塑性,或精确的尖峰时间方面没有类似物。同样重要的是要记住,尽管形式不同,几种神经网络结构都可以很好地预测活动。这些不同之处表明,我们只能将深层网络作为高功能水平大脑实现任务处理的良好模型,而不是将其与大脑的实现过程进行直接的近似比较。这些差异使得神经网络在何种程度上是大脑的良好模型变得很难精确。在学习、生理学和解剖学的每个领域,答案都略有不同。那么,推动下一个十年研究的核心问题将是,确定生物学神经网络的哪些细节可以有效地抽象出来,哪些细节添加了与目前神经网络所包含的功能根本不同的功能。本文认为有监督机器学习(ML)在系统神经科学中有四个主要作用;(1)解决工程问题;(2)确定可预测变量;(3)为简单模型设置基准;和(4)作为大脑的模型。从目前ML在神经科学中的应用趋势来看(图1),本文认为ML对神经科学的影响将会继续增长。本文希望提醒读者,在解释ML模型时要谨慎。高可预测性并不意味着因果关系。这一点尤其重要,因为在神经科学中有很多未被观察到的变量。此外,模型的高准确度并不意味着它实际上是对大脑中发生的过程的真实模仿。高精度是模型正确性的必要条件,但不是充分条件。有大量的潜在模型可以很好地解释数据,因此不能把一个模型的学习到的关系就确定为真实的关系。虽然这是用ML建模大脑和识别预测变量的难点,但并不影响ML在工程或基准应用中的使用。作者也指出,随着ML变得更容易使用,ML的使用也将继续扩大。应用ML已经变得相当简单。在应用时,仅需要一个训练特征矩阵和一个已知标签向量。考虑到合适的软件包的可用性,一般情况下,只需几行代码就可以训练任何ML系统。事实上,最近已经有关于自动ML的研究,使用户不需要对使用的具体方法、如何预处理数据、如何优化超参数做出任何决定。因此,对神经科学家来说,了解单个方法的细节变得不那么重要了,这也使他们可以把精力集中在ML能够回答的科学问题上(但是这样可能会导致更多的问题,使用一个自己不怎么明白的模型可能会导致许多问题)。
最后,作者指出,很长一段时间以来,神经科学家一直致力于改进ML技术,许多ML技术的灵感来自于大脑和神经计算。随着ML领域的发展,信息的流动呈现多向性。当神经科学继续激发ML的发展时,ML也正在成为神经科学的中心工具和概念之一。