2009年,美国国家精神健康研究所推出了研究领域标准,试图通过结合不同水平测量(如脑成像和行为)的神经生物学构建中建立基础精神病学,从而超越传统的诊断类别。然而,能够整合此类多模态数据的统计方法往往容易过度拟合、泛化能力差,并且结果难以解释。本文提出了一个创新的机器学习框架,将多个保持和稳定性标准与正则化多元技术相结合,例如稀疏偏最小二乘法和典型相关分析,用于识别跨模态关系的隐藏维度。为了说明这种方法,我们在一个广泛表型的发育样本中对345名参与者(312名健康人和33名临床抑郁症患者)进行了全脑的灰质密度-行为关联研究。大脑数据由基于全脑体素的灰质体积组成,行为数据包括不同项目的自我报告问卷以及智商和人口统计学测量指标。稀疏偏最小二乘法和基于核函数的典型相关分析都捕捉到了大脑-行为关系的两个隐藏维度:一个与年龄和饮酒相关,另一个与抑郁相关。我们使用的机器学习框架表明,这些结果是稳定的,并能很好地推广到新数据。事实上,本文所确定的大脑-行为关联与文献中先前关于年龄、饮酒和抑郁症相关的脑容量变化的发现也是一致的,这更加证明本文方法的稳定性。以上结果表明,本文所使用的多元表征的机器学习框架(如稀疏偏最小二乘法和基于核函数的典型相关分析)是将行为和/或症状与神经生物学联系起来的有前景的工具,有很大潜力为精神疾病的生物学基础定义做出新的贡献。本文发表在Biological Psychiatry杂志。(可添加微信号siyingyxf或18983979082获取原文及补充材料)。注释:偏最小二乘用于查找两个矩阵(X和Y)的基本关系,即在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。相比之下,标准的回归在这些情况下不见效。稀疏偏最小二乘(SPLS)回归是一种用于提升偏最小二乘法的改进方法,由于偏最小二乘的每个新成分都是原来所有预测变量的线性组合,当预测变量数较大时,这会给模型解释带来负面影响,也不利于最重要预测变量的寻找.稀疏偏最小二乘是偏最小二乘的改进,它能在偏最小二乘的基础上对估计系数进行收缩,并使那些较小的系数(绝对值意义下)恰好收缩到零,从而使与之对应的变量能够从模型中剔除,类似于L1范数正则化的效果。典型相关分析(Canonical Correlation Analysis)是对互协方差矩阵的一种理解。如果我们有两个随机变量向量 X = (X1, ..., Xn) 和 Y = (Y1, ..., Ym) 并且它们是相关的,那么典型相关分析会找出 Xi 和 Yj 的相互相关最大的线性组合。当下的精神病诊断方案(如DSM-5 (1), ICD-10)都缺乏神经生物学的证据。为了解决这一问题,美国国家精神健康研究所于2009年推出了研究领域标准(RDoC) (6),这是一个整合了多层次信息(从基因组学和电路到行为)的研究框架,旨在探索涵盖人类从正常到异常的所有行为的基本功能维度。RDoC代表了精神病学的范式转变,强调需要纳入基因、大脑和行为的测量来理解精神病理学。RDoC被构造为具有4个维度的矩阵,包括:1)功能域(例如,积极-消极的效价系统),其被进一步划分为不同子领域(例如,注意力、知觉),2)分析单位(例如,基因、回路、行为),3)发育方面,和4)环境方面。然而,分析包含多种不同模态信息的数据会带来统计方面的挑战。因此,在本文中,我们提出了一个新的框架,该框架经过验证后表明,可以对一些由高维神经生物学数据产生的典型问题(如过拟合、泛化能力差以及结果的可解释性)具有稳健的解决能力。因子分析及相关方法(如主成分分析法)在统计学和心理学中有着悠久的传统。这些技术将一套单一的衡量标准(如自我报告问卷)分解为简约的潜在维度的数据表示。这些方法的应用包括一般智力、五大人格模型和许多其他方法。然而,因子分析不能整合不同的测量/模态的集合(例如,调查大脑-行为关系)。因此,寻找一种模态(或数据类型)与另一种模态(或数据类型)相关的潜在维度的一种有用的方法是使用偏最小二乘(PLS)或典型相关分析(CCA)。McIntosh等最早将PLS引入神经影像学领域,并得到了广泛的应用。然而,神经影像数据的高维数使得PLS和CCA模型容易过度拟合;此外,对所识别的潜在维度的解释通常是困难的。但对PLS和CCA算法的正则化方法可以有效解决这些问题;两种流行的选择是lasso(即L1范数正则化)和弹性网络正则化(即Elastic Net,实际上是L1,L2的综合),它们可以通过约束的优化方法来选择最相关的变量,从而减少模型的过拟合。稀疏CCA和稀疏PLS (SPLS)最初在遗传学中提出,此后被用于认知、工作记忆、痴呆、青少年精神病理学、精神障碍和药物干预。然而,这些研究大多采用选择正则化参数(模型选择)和推断所识别关系的统计显著性(模型评估)的方法,并未考虑结果的可推广性和稳定性。在本文中,我们提出了一个创新的计算框架,该框架结合了稳定性和可推广性,适用于两种正则化方法的PLS和CCA方法。至关重要的是,它通过以下方式提高了这些模型的再现性和可推广性:1)将稳定性/再现性可以应用于不同的模型选择,2)使用独立于训练数据的样本的相关性来进行模型评估。为了证明这一新的框架,我们研究了基于全脑体素的灰质体积与自我报告问卷的项目级测量之间的关联。图1说明了如何使用PLS/CCA模型识别大脑-行为关系的潜在维度。PLS/CCA可以最大化大脑和行为变量的线性组合之间的关联(PLS的协变和CCA的相关性)。模型的输入是多名受试者的大脑和行为变量(例如,体素水平的灰质体积和项目水平的问卷)。对于每个大脑-行为关系,其输出是大脑的每个体素和行为的每个item的权重、大脑和行为的得分以及表示相关性/协变量强度的值。
图1 偏最小二乘/典型相关分析(PLS/CCA)的模型概述大脑和行为权重与它们各自的数据具有相同的维度,并且量化了每个大脑和行为变量对所识别的大脑-行为之间关联的贡献。一旦找到具体权重,就可以为每个受试者分别计算作为其大脑和行为变量的线性组合(即加权和)的大脑和行为得分。然后,大脑和行为评分可以结合起来,在样本中创建大脑-行为关系的潜在空间。此外,可以从数据中移除某个大脑-行为关系(通过一个缩放方法)以寻求新的关系。接下来,我们简要介绍了PLS/CCA和其他一些潜在变量模型,以使我们的建模方法符合实际情况。本质上,所有这些模型都是使得数据集(例如,大脑和/或行为)在所获得的权重向量上的投影具有最大方差(PCA)、相关性(CCA)或协方差(PLS)。请注意,PCA仅限于查找一个数据集中的潜在维度(例如,行为)。虽然其主成分可用于多元回归(称为主成分回归),例如预测脑变量,但PCA识别的高方差方向可能与脑变量不相关,而相对低的方差成分可能是有用的预测因子。因此,CCA和PLS可以被看作是主成分回归的扩展,用来发现两组数据之间的潜在联系在CCA/PLS的正则化版本中,对模型的优化项中添加了约束(由正则化参数控制),以控制CCA/PLS模型的复杂性并减少过拟合。Hardoon等人提出了CCA的正则化版本,其中有两个正则化参数可以控制相关性最大化(即类似CCA的最小正则化解)和协方差最大化(即类似PLS的最大正则化解)之间的平滑过渡。我们提出的(基于核函数的)KCCA的实现是这种正则化CCA的扩展,其中核函数的利用使得算法在计算上更高效。如果您对脑影像机器学习及数据处理感兴趣,欢迎浏览思影科技课程及服务(可添加微信号siyingyxf或18983979082咨询):
第十五届脑影像机器学习班(南京,4.18-23)
第四十届磁共振脑影像基础班(南京,4.24-29)
第二十届脑网络数据处理班(上海,5.12-17)
第一届脑网络数据处理提高班(上海,5.22-26)
第十七届DTI数据处理班(上海,4.25-30)
第三届DWI数据处理提高班(南京,5.17-22)
第八届小动物脑影像数据处理班(上海,5.6-11)
第四十二届磁共振脑影像基础班(上海,6.5-10)
第四十一届磁共振脑影像基础班(重庆,5.9-14)
第十三届脑影像结构班(重庆,6.8-13)
数据处理业务介绍:
Witten等人提出了2种方法来有效的使用SPLS(稀疏偏最小二乘)模型:1)先验地固定数据的正则化参数并执行用于模型评估的置换检验;2)使用相同的置换检验来重新选择正则化参数并进行评估模型。在置换检验中,对原始数据集和置换数据集(即,在随机混洗数据集之一之后)都进行SPLS(稀疏偏最小二乘)模型的拟合;通过比较原始数据和置换(空)数据的SPLS模型相关性来计算p值。该框架也可以用于选择正则化参数,对正则化参数的每个组合重复相同的过程(对于每个数据集,例如,大脑和行为,有一个正则化参数),并且选择导致最小p值的正则化参数。许多其他研究遵循类似的方法,或者固定正则化参数,或者基于置换检验来选择正则化参数。当样本量很小时,这个框架可能更好;然而,由于它不测试所识别的关联是否能推广到新的数据集,因此这种方法可能会对数据进行过度的正则化。Monteiro等人提出了一个更好的框架来优化正则化参数,并测试了优化后的SPLS模型的可推广性(图2)。这个框架符合在优化集(例如,80%的数据,即机器学习中的训练集)上建立SPLS模型,并在保留数据集(即测试集)上评估所识别的多元关联(例如,数据的20%)。正则化参数的选择是通过进一步将优化集分解为训练集和验证集,并在验证集上选择泛化性能更好(通过样本外相关性来衡量)的参数组合来完成的(这一整套方案即嵌套交叉验证方案)。为了进一步测试SPLS模型的鲁棒性,整个过程会重复10次。该框架超越了许多其他SPLS方法,该方法只将数据分割一次(或在训练集上使用交叉验证)以选择正则化参数,但只在独立测试集上评估模型的可推广性(即在独立测试集上的模型性能)。尽管该框架提供了对模型可推广性的良好测试,但在选择正则化参数时,并未考虑不同数据分割下模型的稳定性。
图2 Monteiro等人提出的模型泛化性验证方案本文提出的框架与Monteiro等人的框架相似,但它使用稳定性和可推广性作为联合优化标准来选择正则化参数,将Baldassarre等人的工作扩展到正则化PLS/CCA模型。本文的泛化性度量是在独立测试集上获得的样本外相关性度量的平均值。稳定性是通过不同分割之间的权重的平均相似性来衡量的,也就是说,模型(根据不同的数据子集进行训练)选择相似的大脑和行为变量的频率。这两个参数提供的联合标准应能够识别稳定的大脑-行为关联,并能很好地推广到新数据。本研究共纳入345名来自神经科学与精神病学网络(NSPN)项目(59名)的参与者(312名健康参与者,平均年龄= 19.14±6±2.93岁,156名女性;抑郁症患者33例,平均年龄= 16.50±1.23岁,23名女性)。所有参与者都完成了一项简短的智商测试和广泛的自我报告问卷,评估了幸福感、情感症状、焦虑、冲动和强迫、自尊、自我伤害、反社会和冷酷-非情感特征、精神病症状、某物的过度使用、与同龄人和家人的关系以及创伤经历。我们在这些问卷中增加了3个人口统计学变量(年龄、性别和社会经济地位指数),总计364个变量,为简单起见,我们称之为行为数据。将这些人口统计学变量明确纳入SPLS模型,可以调查这些变量是否与大脑行为关系相互作用。在3个地点的相同3T西门子Magnetom Tim Trio系统(西门子,Erlangen,Germany)上采集了结构成像扫描。当前分析仅包括基线研究随访时的扫描。使用一个标准的采集方案获得结构扫描(19分钟)。使用SPM 12(https://www . fil . ion . UCL . AC . uk/SPM)进行结构磁共振成像数据预处理,包括分割、归一化、下采样和平滑。然后,我们对所有参与者应用了一个灰质概率仅为10%的体素的mask来去除那些概率较低的体素,得到总共219,079个体素(脑数据)。所有数据集都去除了两个混杂因素(即回归方法):总颅内容积和数据收集点。SPLS(稀疏偏最小二乘)在我们的样本中确定了大脑行为关联的两个显著的潜在维度。因为所提出的框架使模型适合不同数据的维度的分离,因此我们给出了所有的结果,该结果给出了可推广性(通过保持集上的样本外相关性来衡量)和稳定性(通过优化集之间的权重相似性来衡量)的最佳组合。第一个维度的大脑行为关系(p = .001)记录了年龄、饮酒习惯和一组广泛的额顶叶颞皮质区之间的关联,包括前额内侧(扣带回中部和后部以及眶内皮质)、下顶叶皮质、眶额皮质、前额叶背外侧皮质、右侧额下回和颞中回(图3A)。使用补充表S4中的解剖图谱进一步汇总了这些区域的脑体积。如预期的那样,SPLS权重是稀疏的,该维度选择了2%的行为变量和22%的大脑变量。第二个维度的大脑行为关系(p = .014)捕捉到了抑郁、自我伤害相关的行为项目与一小群皮下区域(包括海马、海马旁回、岛叶、杏仁核、苍白球和壳核)中的灰质体积之间的关联(图3B)。与抑郁相关的行为变量包括感觉自己毫无价值、恨我自己、感觉抑郁等项目,与自我伤害相关的行为项目包括想过自杀和想过死亡。同样,SPLS得出了相当稀疏的权重,选择了2%的行为变量和5%的大脑变量。这说明,正则化操作是有效的。(需要注意的是,在实际的训练中,作者使用了10折交叉验证,为了获取最稳定和最优的模型表现,作者在这10折交叉验证中获得了模型的最终正则化参数,每一则验证的权重图在附件材料中,如需要进一步的对这个过程进行了解,请加微信:18983979082)
图3 SPLS模型获得的两个显著的脑-行为关联维度通过稀疏偏最小二乘法识别的两种显著的脑-行为关系的脑和行为权重。脑体素按权重值进行颜色编码,为可视化目的进行了标准化,并在MNI152模板上分别显示皮质下(包括海马)和皮质区域。行为变量按权重排序,用红色编码表示正权重。(A)第一个大脑-行为关系的大脑和行为权重。(B)第二个维度的脑-行为关联的权重。l,左;r,右。我们可以通过大脑和行为评分的散点图来检查大脑-行为关系在整个样本中是如何表达的(图4)。第一个多变量关联效应明显与年龄相关,而第二个多变量效应捕捉到了从健康到抑郁的大脑-行为关联,抑郁症受试者表现出较高的大脑和行为评分。
(A)第一个维度的大脑和行为评分的散点图,按年龄进行颜色编码。(B)第二个维度的大脑和行为评分之间的关系的散点图——采用临床诊断进行颜色编码。
为了进行比较,还进行了2项额外分析。首先,考虑到抑郁症受试者更年轻,我们将年龄添加到SPLS分析的混杂因素中,以减少任何抽样偏倚。在这种情况下,我们确定了1个显著的脑-行为关系,与主分析的第二个抑郁相关联想效应非常相似(p =.047)。第二,我们利用KCCA用另一种正则化方法来进一步测试这个框架。在使用KCCA算法的时候,我们确定了两个与SPLS算法确定的非常相似的显著大脑-行为关系(第一个仍旧是年龄占据行为的主要权重(但其次的权重主要为与情绪相关的条目)和广泛的大脑额叶内侧区域及颞顶区域之间的相关效应:p = .001,补充图S6A;第二个仍旧是和抑郁相关的行为与大脑的皮下结构之间的显著相关效应,补充图S6B)。
补充图S6 KCCA识别的脑-行为关联的潜在空间。(A) 以年龄为颜色编码,所有受试者在第一个维度的大脑-行为关系的评分散点图。(B)以临床诊断为颜色编码,所有受试者在第二个大脑-行为关系维度的大脑和行为评分的散点图。通过两种方法的比较分析可以说明,本框架下使用SPLS和KCCA方法获取到的脑和行为之间的关系是相对稳定的,并且在独立的测试样本中获得的稳定的预测性能表明该方法的泛化性能。本文提出的这个新的框架说明可以将稳定性和可推广性结合起来作为正则化多元方法的优化标准,例如使用SPLS和KCCA,这些操作降低了它们检测虚假关联的风险,尤其是在高维数据中。此外,本文的结果证明了这个框架可以识别适应发育变异以及从正常到异常功能变异的大脑-行为关系。如SPLS和KCCA,产生了可以推广到独立测试数据的稳定结果。两种方法确定的多变量脑-行为关系与文献中关于年龄、酒精使用和抑郁症相关的脑容量变化的许多既定发现一致。尤其令人鼓舞的是,尽管只有少数受试者接受了MDD治疗,但我们的抑郁症相关结果与更广泛的文献一致。抑郁症相关维度也主要包含抑郁症的认知和行为方面,而非其生物学特征。总之,本文的方法为如何应用SPLS/KCCA来研究大脑行为关系的基本维度提供了一种有原则的方法,并有很大的潜力为精神疾病的生物学基础定义做出贡献。