迈向解释神经影像机器学习模型的统一框架(一)

  Abstract 

机器学习是用于创建将大脑功能与行为联系起来的计算模型的强大工具,并且其在神经科学领域的应用日渐广泛。但是,这些模型很复杂,而且通常很难解释,因此很难评估它们的神经科学有效性和理解大脑。为了能够解释基于神经影像的机器学习模型,它们应该(i)对人类是可理解的,(ii)提供有关特定的大脑通路或脑区表征了哪些心理或行为构造的有用信息,以及(iii)证明它们基于相关的神经生物学信号,而不是假象或混淆(artifacts or confounds)。在此协议中,我们引入了一个统一的框架,其中包括模型、特征和生物学水平的评估,以提供互补结果,以支持对模型工作方式和原因的理解。尽管该框架可以应用于不同类型的模型和数据,但该协议为实用的MRI数据集和基于多元模式的预测模型提供了实用的工具和所选分析方法的示例。协议的用户应该熟悉MATLAB或Python中的基本编程。该协议将帮助建立更多可解释的基于神经影像的机器学习模型,有助于对脑机制和脑健康的理解。尽管此处提供的分析构成了一组有限的测试,并且需要花费数小时到数天才能完成,具体取决于数据的大小和可用的计算资源,我们将模型的注释和解释过程视为一个开放式过程,涉及多个研究和实验室之间的协作。

Introduction

机器学习(ML)和预测建模(包括ML的许多用例来预测个体观察指标)提供了开发潜在的临床、表现和其他结局的大脑神经系统模型的能力,并以定量评价那些模型来验证或歪曲它们为生物标记的性能。由于这些特点,ML已迅速普及在基础和转化研究和形成了几个现在常见的方法的核心,包括脑解码、多元模式分析、基于信息的映射和基于模式的生物标记物的开发。通过使得能够同时(i)比传统的大脑映射更精细和更精确以及(ii)分布在多个大脑脑区和体素上的大脑信息的研究,在神经成像实验中使用ML为许多持久的研究提供了新的答案问题。

但是,这种普及率的上升是伴随着ML模型的“黑匣子(blackbox-ness)”的关注。对于基础神经科学家而言,如果模型依赖于不能向研究人员解释的隐藏的或复杂模式,则不清楚ML模型如何促进我们的神经科学知识。对于处于应用环境中的用户,尚不清楚复杂的机器学习模型是否以及在什么条件下足够可信,以有助于在医疗和法律环境中每天做出的改变生命的决定。如果不知道模型为什么以及如何工作,就很难知道该模型何时会失败,该模型适用于哪些个人或亚组以及如何促进我们对临床和行为表现基础的神经生物学机制的理解。此外,某些模型在神经生物学上看似合理,并且捕获了脑功能的重要方面,而其他模型则利用了诸如头部运动之类的混淆。这些模型不能对我们对大脑的理解做出同样的贡献。因此,迫切需要这样的方法可以帮助理解和解释模型决定及为神经影像ML模型提供神经科学验证。

在神经影像研究中解释预测模型的方法必须解决几个关键问题。首先,神经科学对理解单个大脑区域或连接的局部功能有着长期的兴趣,而ML通常专注于开发高度复杂且难以理解的综合大脑模型(例如,使用全脑激活模式)。第二,存在实现高的预测精度与提供机制神经基础或疾病过程的目标之间的平衡。理想情况下,模型可以实现这两个目标,但是这些目标通常并不能同时实现。生物上可行的模型,例如生物物理生成模型或生物合理神经网络模型使用生物约束(例如,成像数据或文献中的结果)并基于神经生物学原理构建。预测性能通常较少受到关注;相反,目标是捕捉并表现出类似人的行为,另一方面,仅专注于预测性能的模型可能会达到较高的准确性,但通常是人类无法理解的,并且很少揭示所涉及的潜在神经机制。尽管神经科学的解释和预测的准确性是不同的目标,但它们并不矛盾,为预测而开发的模型可以在多个抽象化水平提供生物学见解。例如,受过训练以进行精确图像分类的深层神经网络与人类视觉系统具有共同的属性,并被用于理解离散大脑区域中表示的信息类型。预测模型还可以受到神经科学的研究结果的启发,图像识别深层神经网络就是如此。第三,机器学习以及传统的统计方法可能对与感兴趣的结局相关但没有因果关系的变量敏感,因此可能对系统噪声和数据混杂(例如头动、眼动、生理噪声)敏感。使用混淆变量进行预测的模型不仅无法解释,而且在新样本中的行为也无法预测。

因此,要使基于神经影像的ML模型在应用环境中可为神经科学家和用户所理解,则模型应(i)对人类可读和理解,(ii)提供有关在特定大脑通路或脑区中表征了哪些心理或行为构造的有用信息,并且(iii)证明它们基于相关的神经生物学信号,而不是混淆。这些目标要求优先考虑模型的简单性和稀疏性,而不是完整描述脑功能。最具解释性的模型不一定是最“正确的”模型——大脑和人类的行为本质上是复杂的、高维的,从而在生物学精度和可解释性之间不可避免地产生了折衷。然而,正如George Box写到,“所有模型都是错误的,但有些模型是有用的”。另一方面,必须谨慎地权衡这种折衷。更复杂的模型可能会更好地反映潜在生物学机制的结构;因此,优先考虑可解释性可能会以生物学的现实主义为代价,削弱了我们对大脑运作方式的理解。正如Albert Einstein所说,“一切都应该变得尽可能简单,但不要简单”。

无论模型选择了何种复杂程度,用于解释模型的工具都可以通过证明模型可以为更复杂的生物学机制提供有用的近似值来提高其实用性。但是,神经影像数据的性质使模型的解释具有挑战性(Fig.1a)。神经影像产生的高维数据具有低信噪比和特征之间的强相关性。此外,与特征数量相比(在全脑功能磁共振成像( fMRI)基于激活模式的模型中p =〜10e5),神经影像学研究中的观察值数目(样本大小n,通常为几十或几百)通常较小。应用p >> n数据建立的模型容易过拟合并且通常不能很好地泛化。许多研究都集中在减小数据维数或解决p >> n问题上,以此来增强可解释性。例如,通过施加稀疏正则化的模型参数常常被认为是用于增强模型解释性关键策略之一,因此已经开发了许多不同的正则化方法。但是,这些统计方法没有提供可与一组异质方法和算法一起使用的统一框架,以评估和改善基于神经影像的ML模型的可解释性。另外,ML算法本身并不提供与神经科学解释和有效性相关的任何约束。因此,解释神经影像ML模型是一个复杂的问题,在算法层面无法解决。它需要一个多层次的框架和一个多研究的方法。

在此协议中,我们首先基于模型水平、特征水平和神经生物学水平评估,提出一个可解释神经影像ML模型的统一框架。然后,我们提供了一个工作流,该工作流说明了如何将此框架应用于预测模型,以及使用样本fMRI数据集对每个评估水平进行分析的实际示例。尽管这些方法原则上可以用于任何类型的模型和数据(例如,根据结构神经影像数据或功能连接性模式预测人格或临床症状的个体差异;预测个体内的逐次试验响应),但我们的示例代码重点研究基于与多个参与者的数据相结合的全脑、与任务相关的fMRI激活模式的分类模型。然而,分析可以容易地适应于基于回归的问题(例如,预测任务刺激的等级),并且可以扩展到基于其他特征类型(例如结构数据或功能连接性数据)的模型。

Fig. 1  Model complexity in neuroimaging and the model interpretation framework

Overview of the framework

在本节中,我们首先为提议的框架建立更广泛的背景。在此框架的基础上,我们提供了一个协议,其中包括从每个评估水平中选择的一些分析方法。如Fig.1b所示,所提出的框架包括三个评估水平:模型、特征和生物学水平的评估。Table 1提供了每个评估水平的子类别的描述和示例方法。

Model-level assessment

模型水平评估将模型作为一个整体进行处理和评估,并根据其在不同测试环境和条件下的响应模式来表征模型。例如,这包括各种模型性能度量。敏感度和特异度涉及模型在存在真实信号(例如,发生感兴趣的结局)时是否显示正响应,而在没有真实信号时是否显示负响应。泛化性涉及模型是否在不同环境或不同程序中准确执行,例如,未用于模型训练的样本外个体数据或来自不同实验室、扫描仪、人群和实验范式的数据。这些类型的测量性能进行严格评价,以了解该模型真正的测量,以及如何在不同的测试环境中执行。更广泛地说,这些分析可以看作是模型的行为分析——研究多个实例和示例上模型行为的模式(例如,模型决策和响应)。这类似于使用心理测验研究人类行为。例如,先前的研究使用针对ML模型设计的行为实验和测量方法检查了模型的“隐性偏差” 。在另一项研究中,研究人员开发了一种新的ML模型,该模型可以学习其他ML模型的内部状态(例如,机器心理理论)。对于适应性模型,可以研究模型行为和随着时间的推移学习变化,这类似于人类发展心理学的研究。

另外,表征相似性分析(representational similarity analyses)可以用来检验模型的内部表征和他们不同的模型与不同的大脑脑区的关系。表征相似性分析可检查一组实验条件或两种多元测量值上的刺激之间的相似性,例如,人工神经网络中各个单元的向量表征或fMRI活动的多体素模式。例如,以前的研究检查了包括深度神经网络以及颞下皮质的活动模式在内的多种计算模型之间的表征相似性和差异。

最后,在模型水平最重要的评估之一是检查噪声和滋扰变量(nuisance variables)对模型及其预测的潜在贡献。许多不同的混杂因素,如需要特别注意生理和运动相关的噪声在神经影像学数据中是普遍的,是目前具有挑战性的问题。这些混杂因素会渗入训练数据中,并被预测模型用来增强其性能。问题在于,如果模型依赖于混杂变量中的信息,则该模型就无法在不同环境中保持鲁棒,因为在没有相同混杂条件的样本中或方法改进(例如,更好的噪声消除技术)缓解它们的情况下,模型将失败。更重要的是,那些依赖滋扰变量的模型将不会告诉我们关于目标结局的神经生物学的任何知识。因此,研究人员应提供证据表明他们的模型不受混杂因素和滋扰变量的影响。一种方法是测试并显示模型预测、特征或结局是否独立于滋扰变量。例如,例如,可以测试是否基于滋扰变量(例如扫描仪内运动参数)的ML模型可以预测(i)感兴趣的模型做出的响应/预测,或者(ii)感兴趣的结果。如果滋扰模型无法预测这些因素,则模型性能不太可能由这些滋扰变量驱动。

该协议包括多个模型水平的评估步骤,包括模型性能和泛化性(Steps 2 and 3 and Steps 8–10)、混杂因素的潜在影响(Steps 4–6)以及基于他们性能表现的多个预测模型的表征相似性分析(Steps 12-15)的评估。

Feature-level assessment

特征水平评估包括评估在预测中使用的个体特征(例如体素、脑区或连接)的重要性的方法。可以将这些方法大致分为:(i)评估特征稳定性的方法,(ii)评估特征重要性的方法和(iii)可视化方法。

评估的特征稳定性的方法测量每个特征的贡献(或预测重量)是在使用重采样方法或交叉验证数据集训练的多个模型中如何保持稳定。例如,在 bootstrap tests中,数据被替换随机地重采样,并且在重采样的数据上训练模型。重复此过程多次(例如10,000次迭代),然后可以使用基于预测权重采样分布的平均值和标准偏差的z和P值评估预测权重的稳定性。经过多重比较校正后,可以选择预测权重基于P值显著不同于零的特征,并在标准脑部空间中对其进行可视化。

评估特征重要性的方法着重于特征对预测的影响。这些包括直接使用预测系数的大小的方法(例如,递归特征消除(RFE))、使用预测的特征分解的方法(例如,层相关性传递(LRP)和Shapley值)以及使用扰动或特征的“损伤”(遗漏)的方法(见Table 1)。例如,在RFE中,特征的重要性通过其相应预测权重的绝对值来估计,而不太重要特征(即,具有低预测权重)将被递归消除。“虚拟病变”分析47也已用于评估功能的重要性。在“虚拟病变”分析(‘virtual lesion’analysis)中,研究人员首先定义有意义的特征组(例如,大脑分割或功能网络),在每次迭代时从模型中删除每组特征,并测试简化模型的预测性能。模型性能的大幅降低表明,虚拟损伤特征对于模型的良好运行必不可少。在LRP,非线性分类器(例如,神经网络)的预测得分被分解并递归传递回输入特征水平,使得每个特征的到最终预测的贡献可以定量识别和可视化。这些方法无法完全解释复杂的模型,因为孤立的特征通常不足以预测结局或完整的模型性能,但是它们可以帮助解释驱动模型预测的因素。

可视化方法提供了使模型可读的方式,从而增强了模型的可解释性。在线性模型的情况下,重要特征的可视化非常简单,因为显著的预测权重可以直接显示在特征空间(例如脑图)上。对于非线性模型,可视化特征水平的解释并不简单,但是可以可视化在特征空间上在特征水平上计算的显著性或稳定性得分(例如,使用热图或显著图(heat map or saliency map))。人工神经网络的另一种可视化技术是通过调整输入模式以最大化目标单元或层(例如DeepDream)的激活来检查网络中代表的各个单元或层。Table 2提供了一些选定的特征水平评估方法的更多详细信息。

在此协议中,我们提出了四个用于特征级别评估的选项(协议的Step 7):线性模型的bootstrap tests、RFE和“虚拟病变”分析以及用于解释非线性模型的LRP。我们在标准大脑空间上可视化重要特征(或在LRP情况下为特征相关性评分)。

Biology-level assessment

生物学水平的评估旨在基于其神经生物学的合理性为模型提供额外的验证。合理性基于来自其他类型的神经科学数据的融合证据,这些数据包括先前的研究、其他数据集或其他技术,尤其是那些提供更直接的脑功能测量或对脑回路进行直接操纵的技术(例如,颅内记录、光遗传学)。出于至少两个原因,这种验证很重要。首先,它有助于阐明在预测模型中捕获了哪种类型的心理和行为表征。其次,它在ML模型和神经科学之间架起了一座桥梁,帮助基于神经影像的ML模型有助于理解心理过程和行为。

但是,在识别基于神经影像的ML模型的神经生物学机制并针对其他技术和数据集进行验证方面存在固有的挑战。大多数ML算法没有与神经科学合理性相关的内在约束。此外,通常会开发ML模型以最大化模型的性能,同时不了解其神经生物学含义和有效性。在许多情况下,可能无法为生物学水平的评估提供明确的答案。相反,评估应被视为需要长期共享和测试已建立模型的属性的开放式研究。这是一个多研究、多技术和多学科的过程。

检查ML模型的神经生物学合理性和有效性的一种方法是,根据各种模态和物种的神经科学文献,评估特征和模型水平评估的结果。例如,Woo等建立了基于功能磁共振成像的ML模型来预测疼痛,并检查了模型中一些关键脑区(包括基底神经节和杏仁核)的预测权重的局部模式图,发现它们的预测权重的局部模式与先前的发现基本上与啮齿动物和非人类灵长类动物以及人类文献一致。此外,一个可以检查一个ML模型可以使用表示什么(“解码”的模型)的meta分析方法——例如,基于术语的具有自动meta分析工具解码(例如,neurosynth.org)和使用开放的神经影像数据库进行基于地图的解码(例如,openneuro.org或Neurovault.org)。另一种可能性是在相对于当前ML模型检查先前建立的大型静息态大脑网络或现有的基于多元模式的神经影像标记物。下面的协议为生物学水平评估指定了两种选择:根据Yeo等人所定义的大规模静息态网络的重叠模型分析和使用Neurosynth的基于meta分析的解码(Step 11)。

其它类型的生物验证超出当前协议的范围,但是重要的,特别是,搜索采用在动物或人类分子、生理和干预为基础的方法侵入性研究的证据研究的综合证据。有些方法可能无法广泛用作预测模型,因为它们更具侵入性,只能在特殊人群中进行测试,或者根本无法在人类中进行测试。但是,它们可以提供有价值的融合证据,从而加深了我们对模型测量结果的理解。例如,Hultman等最近开发了利用小鼠局部场电位对抑郁症易感性的电神经成像生物标记。然后,他们使用多种生物学方法(包括基因过表达(分子)和药物注射(基于生理和干预方法))评估了他们的模型,并表明他们的模型对多种诱导抑郁症易感性的方式做出了反应。对于人类而言,研究人员不能轻易使用侵入性方法,但是在某些情况下,也可以使用非侵入性干预措施,例如经颅磁刺激,以及一些更具侵入性的方法,例如脑电图或尸检。

尽管从现有研究和理论中收集的证据可以帮助验证模型,但即使是未被现有神经生物学知识证实的模型,也可以通过促进神经科学领域的新发现和理论构建而发挥重要作用。例如,基于神经影像的疼痛ML模型可能会在以前不被理解为“疼痛加工”区域的脑区中揭示新的疼痛感知基础,从而导致新的潜在脑靶点发现以进一步研究和干预。因此,生物学水平的评估不必限于当前可用的理论。而是,研究人员应开放建立受ML模型启发的新假设和理论,然后可以使用侵入性方法或其他方式对其进行测试。

Development of the protocol

所提出的框架和分析已被开发,并在我们的研究小组的多个以前的出版物中讨论了,在此我们开发了几个不同目标结果的基于fMRI-ML模型。这些先前的研究使用不同的方法和方式来验证和解释模型。在这里,我们旨在将这些各种方法统一到一个框架中,并实现可指导模型验证和解释的工作流(Fig.2)。为了实际演示工作流程的使用,我们将其方法应用于已发布的fMRI数据集。在fMRI实验中,参与者(N = 59)完成了躯体疼痛任务和社交排斥任务。在躯体疼痛任务中,参与者经历了痛苦的热或非痛苦的温暖,而在社交排斥任务中,参与者查看了其前伴侣或朋友的照片。我们使用这些数据来构建和解释分类模型。尽管此协议仅提供了一些选定分析的示例,并且仅涵盖了非侵入性方法,但应使用其他可用的验证方法和步骤。此外,尽管我们研究小组的先前研究通常使用线性模型,但是此框架可以应用于任何类型的ML模型,包括深度学习模型。

Fig. 2  A proposed workflow for the procedure

Comparison with other methods

先前许多提高可解释性的方法都集中在模型稀疏性或约束模型以包含少量变量的方面。各种正则化技术已用于此目的。例如,最小绝对收缩和选择算子(LASSO)和弹性网络回归施加非结构化稀疏性,而在考虑将变量包括在内时,对如何对变量进行分组没有限制。(图网络)GraphNet和分层区域网络稀疏性是施加结构稀疏性的方法的示例,这些方法将脑解剖专业知识的先验知识纳入模型选择过程。这些结构化方法可将体素分组成几个簇,并且比非结构化稀疏模型更易于解释。但是,施加稀疏性可能并不总是与建立神经生物学有效的大脑模型有关:稀疏解决方案可能无法提供涉及复杂生物系统的许多不同参与者之间复杂相互作用的全貌。

其他研究还考虑了超出预测准确性的其他目标函数。模型的稳定性或样本间模型参数的可重复性对于可解释性很重要:具有不稳定参数的模型没有一致的生物学特征可解释。例如,Rasmussen等表明,在预测精度和模型的空间可重复性之间需要权衡取舍,并得出结论,应该考虑模型的可重复性和可解释性来选择正则化参数。Baldassarre等也研究了几种正则化方法对模型稳定性的影响,并建议可以通过添加可重复性作为模型选择标准来增强模型稳定性。

增强模型可解释性的另一个重要方法是降维。主成分分析或独立成分分析经常被使用,并且它们可以与施加稀疏方法组合。然而,目前,主成分分析和独立成分分析也用于提取单模态或多模态神经影像数据特征。

但是,这些研究大多数仅集中于模型解释的一个或少数方面,这些方面可以部分提高解释性。我们旨在提供一个统一的框架,以多种方式评估模型的可解释性,并提供具体的示例分析。

Limitations

该协议旨在为模型解释的不同水平提供最小组件集的具体分析示例。但是,在神经影像学中解释ML模型本质上是一个开放式过程,因此此处提供的协议不能涵盖所有可能的方法。除了提出的方法外,协议的用户可能还希望例如通过全面的文献综述或进行额外的实验来支持其模型的生物学解释,这些实验使用侵入性动物和人类研究,着眼于模型的潜在神经生物学机制。

在此协议中,有时我们会根据先前的研究来选择算法和参数,尽管某些决策可能会对模型的性能和解释产生直接影响。我们建议研究人员不要盲目使用我们的选择作为默认设置。对于许多应用程序,我们使用的算法(例如,支持向量机(SVM))不是唯一的,甚至不是最好的。我们实施的验证和过程可用于多种算法选择(包括回归和分类算法)、多种结局(例如,解码刺激条件、预测人内行为或预测人际临床特征)以及多种类型的数据(例如,结构图像、与功能任务相关的图像、功能连接或动脉自旋标记/正电子发射断层扫描/磁共振波谱图像)。但是,对于所有这些选择,额外的针对数据和结局类型的特定验证程序可能会有用。因此,该协议是一个有用的起点,但不应作为对所有算法、数据类型和结局类型的验证步骤的完整描述。研究人员应仔细选择算法和参数,以回答他们的研究问题。此外,尽管我们的模型解释框架可以应用于多种类型的模型和数据(例如,fMRI连接、结构MRI和其他成像模态),但我们并未为所有可能的应用提供示例代码。

该协议提供了用于非线性模型和线性模型的特征水平评估的分析示例。对于非线性模型,我们使用LRP,但以前只有一项神经影像学研究使用了此方法。尽管在我们的分析中,非线性模型的方法产生的结果与线性模型的方法相似,但此处介绍的非线性模型的方法应作为示例,并在以后的研究中进一步研究。此外,尚未使用非线性模型测试模型水平评估的其他组件(例如,噪声分析和表征分析)。

最后,该协议仅包括两种简单的生物学水平评估方法。但是,在实践中,生物学水平的验证应涉及使用多种模态和方法进行的实验以及多个实验室之间的共同努力以寻找综合的证据。我们在上面强调了这些方法的重要性,但是不能在一个协议中完全总结这些方法。

总体而言,该协议应作为该框架的示例实际实现。可以有多个同等有效的分析选项,可以实现相同水平的模型解释。我们鼓励研究人员使用此处提出的分析方法和工作流程,但也要使用适合他们研究目标和实验环境的不同方法和工作流程。

Overview of the procedure

在此协议中,我们提供了可指导框架的实际实现的工作流(Fig.2)。为了实现工作流程的大多数组件,我们使用CANlab交互式fMRI分析工具(Box 1),该工具是基于MATLAB的分析工具,可公开获得。Table 3中列出了该协议中使用的CANlab工具的函数列表。

工作流程的第1步是模型构建。这是先决条件步骤,没有包含在模型解释框架内,但是此步骤的成功和正确实现定义了以下模型解释方法的成功。步骤1中的关键点是将数据分为训练集和测试集,以在步骤2和3中执行交叉验证(有关更多详细信息,请参阅步骤1A)。然后,步骤2-15可以分为三个部分:模型开发(步骤2-6)、特征水平评估(步骤7)以及模型和生物学水平评估(步骤8-15)。

在模型开发阶段,第2步和第3步以及第4步至第6步会根据新模型的预测能力和混杂因素的潜在作用来评估其内在质量。更具体地说,步骤2和步骤3评估了模型的准确率、敏感度和特异度。在这些步骤中,至关重要的是使用交叉验证来获得模型性能的无偏估计(尽管在某些情况下交叉验证很容易产生偏倚)),理想情况下,仅在单个最终模型上测试保留(held-out)的测试数据。在本协议中,我们提供了留一被试(LOSO)和8折交叉验证的示例。如果模型显示出良好的性能,则可以进行下一步。步骤4-6旨在确保模型独立于潜在的混杂因素。但是,要获得对该问题的明确答案是具有挑战性的(例如,可能无法衡量潜在混杂因素),因此,这应该是一个开放性研究。尽管这些分析步骤的顺序是灵活的,但在步骤2–6上应该从逻辑上先于其他分析,因为它们可以验证模型的质量。

步骤7包括用于模型的特征水平评估的方法。我们提出了几种识别重要特征的选项,可以根据模型的类型(例如线性或非线性)或所需的属性(例如稳定性或重要性)来选择这些选项。在本协议中,我们描述(ⅰ)bootstrap tests作为线性模型特征稳定性评价的一个例子,这在我们以前研究中使用过;(ii)RFE作为神经成像中常用线性模型中特征重要性评估的示例;(iii)“虚拟病变”分析,其中特征是定义感兴趣区体素或网络组。我们还将描述(iv)LRP 作为非线性模型中特征重要性评估的示例。还有许多其他方法可以识别模型中的重要特征,因此我们鼓励研究人员使用其他适合其目标的方法。有关可能选项的列表,请参见Table 1。在可视化重要特征时,研究人员需要根据先验领域知识检查识别出的重要特征是否有意义。例如,重要特征不应位于大脑外部,如果某种状况涉及视觉过程,则某些重要特征应位于视觉皮层中。

在对模型进行特征水平评估之后,研究人员应检查新模型是否可以在个人和人群、不同的扫描仪和测试环境中进行泛化(步骤8-10),以及该模型在生物学上是否合理(步骤11)。这两个分析的顺序并不重要,但是这两个分析对于评估该模型对于应用和神经科学的鲁棒性和实用性至关重要。这些步骤也应该是一个开放的过程;对于步骤8-10,可泛化性测试可以从在本地收集的几个独立数据集上测试模型开始,但是应该将测试扩展到来自更广泛情况的新数据,例如来自不同实验室、人群、扫描仪和任务条件的数据,并提高证据水平。对于步骤11,研究人员需要不断从相关文献和侵入性研究中寻求具有不同实验模态和多种物种的融合证据,以了解该模型的神经生物学含义。在当前协议中,对于步骤8-10,我们提供了一个示例,用于测试两个先前开发的疼痛预测模型的泛化性:神经痛标志(NPS)和刺激强度独立疼痛特征1(SIIPS1),来自先前出版物的示例性fMRI数据。对于第11步,我们提供了两个基本分析:第一,基于大型meta分析数据库的基于术语的解码——Neurosynth;第二,与Yeo等人确定的大规模网络的比较。

表征性和行为分析可以进一步加深我们对模型的理解(步骤12-15)。例如,通过检查多个实例和示例上的模型行为(例如,决策和响应)的模式,可以更好地理解模型的决策。研究人员还可以通过直接比较权重向量或测量不同模型之间的表征距离来分析模型表征。在此协议中,我们提供了使用两个先验预测模型应用于样本数据集的表征性分析的示例。

Level of expertise needed to implement the protocol

就编程能力以及统计学和机器学习知识而言,创建自己的代码以执行下述分析是一项艰巨的任务。但是,我们提供了CanlabCore工具,这是基于MATLAB的fMRI数据交互式分析工具。借助CanlabCore工具,您可以轻松运行所描述的大多数分析。为了成功使用CanlabCore工具,用户应该熟悉MATLAB编程环境,并且他们应该能够使用预定义的函数和不同的变量类型(例如,对象,结构和胞数组)来实现简单的代码。为了实现非线性模型和LRP分析,用户应该熟悉Python和Python中的一些深度学习库,例如Tensorflow和Keras。

编译不易,如果各位朋友觉得对您有帮助,烦请各位积极转发,收藏,并点击文末右下角“ 在看”,让更多人看到。
(0)

相关推荐

  • 精神病学研究中如何进行中小型数据的深度学习

    现在的精神病学必须更好地了解精神疾病基础的.常见的和独特的病理生理机制,以便提供更有效的,更针对个人的治疗方案.为此,使用常规统计方法对"小"实验样本的分析似乎在很大程度上未能捕捉 ...

  • 别转性格测试了,来聊聊个性到底是什么?

    2021-06-16 19:35 来自加州理工学院神经科学,心理学和哲学领域的研究员在<Nature Human Behaviour>期刊上发表了一篇名为<Personality b ...

  • 发现机器学习中的未知未知数

    视频介绍:发现机器学习中的未知未知数 机器学习 (ML) 模型的性能取决于学习算法以及用于训练和评估的数据.算法的作用得到了很好的研究,并且是众多挑战的焦点,例如SQuAD.GLUE.ImageNet ...

  • 有监督机器学习在系统神经科学中的作用

    在过去的几年里,机器学习(ML)在神经科学中的应用迅速增加.本文回顾了ML在系统神经科学的多个领域中的已实现和潜在贡献.本文描述了ML在神经科学中的四个主要作用: (1)提供工程问题的解决方案: (2 ...

  • TF之AutoML框架:AutoML框架的简介、特点、使用方法详细攻略

    TF之AutoML框架:AutoML框架的简介.特点.使用方法详细攻略AutoML框架的简介AutoML官网:https://www.automl.org/自动化机器学习,简单来说就是一种自动化任务的 ...

  • The Neuroscientist:区域和连接:表征大脑组织和功能的互补方法

           功能磁共振成像已被证明是描述人类大脑活动时空模式的有力工具.分析方法大体上分为两大阵营:总结区域属性的方法和衡量区域间相互作用的方法.在这里,作者提出了一个在该领域未被重视的问题:研究基 ...

  • 从神经行为学角度评价脑性瘫痪动物模型的实验方法

    脑性瘫痪是发育早期阶段各种原因所致的非进行性脑损伤,临床主要表现为中枢性运动障碍和姿势异常.这种运动障碍常伴感知觉及言语交流障碍.智力发育迟缓.行为异常.癫痫及继发性肌肉骨骼异常.成功建立类似于人类脑 ...

  • Google重磅推出首个用于训练量子机器学习模型的开源框架TensorFlow Quantum

    谷歌今天宣布推出TensorFlow Quantum,将公司的机器学习和量子计算计划整合在一起.该框架可以构造量子数据集.原型混合量子模型和经典机器学习模型,支持量子电路模拟器,训练判别和生成量子模型 ...

  • 【原创】机器学习从零开始系列连载(8)——机器学习中的统一框架

    [公众号后台回复 Loss 获取本文涉及的两篇论文] 机器学习中的统一框架 很多机器学习问题都可以放在一个统一的框架下讨论,这样大家在理解各种模型时就是相互联系的. 目标函数 回忆一下目标函数的定义: ...

  • YYDS !机器学习模型可解释了!

    大家好,我是宝器! 导读: SHAP是Python开发的一个'模型解释'包,是一种博弈论方法来解释任何机器学习模型的输出.本文重点介绍11种shap可视化图形来解释任何机器学习模型的使用方法.具体理论 ...

  • 基于机器学习的多模态神经影像学与自主神经活动参数或可预测疼痛

    目前临床疼痛评估主要依赖于主观自我疼痛评分,其本质上是主观的,且受多维变量的显著影响.虽然疼痛的客观生物标志物可以在很大程度上帮助疼痛诊断和新疗法的开发,但目前尚无临床疼痛预测的可靠标志物.本研究通过 ...

  • SHAP | 机器学习模型解释库

    作者: khuyentran 原文链接 https://towardsdatascience.com/shap-explain-any-machine-learning-model-in-python ...

  • 机器学习与神经影像:评估它在精神病学中的应用

    摘要 精神疾病是复杂的,涉及不同的症状学和神经生物学,很少涉及单一的.孤立的大脑结构的破坏.为了更好地描述和理解精神疾病的复杂性,研究人员越来越多地将多元模式分类方法应用于神经成像数据,特别是监督机器 ...

  • 儿童癫痫的神经影像学表现

    每年新发儿童癫痫病例约3万多人,大约25%的病例为药物治疗效果不佳,给患童的父母造成巨大的压力.对于难治性癫痫,神经影像学对于准确定位可能的手术切除癫痫灶,以治愈病人非常关键.但不是所有的儿童癫痫的基 ...

  • 机器学习模型评估教程!

    文章译者:追风者 内容来源:Datawhale 如何在投入生产前评估机器学习模型性能? 想象一下,你训练了一个机器学习模型.也许,可以从中选几个候选方案. 你在测试集上运行它,得到了一些质量评估.模型 ...

  • Neurology病例:成人型亚历山大病的神经影像学表现

    35岁女性,表现为步态不稳,全身僵直,吞咽困难和膀胱失禁3年.神经系统查体提示所有4个肢体深腱反射活跃和双侧Hoffman征阳性.患者有一兄弟在28岁时通过基因检测诊断为成人型亚历山大病(Adult- ...