人类影像遗传学作为理解大脑神经表型的分子基础的重要方法,一般流程是通过候选基因研究,在全基因组水平研究一个或多个等位基因变异与一种或多种影像表型(IDP)变化的相关性。这项工作的假设普遍是与IDP相关的变异会影响基因表达或蛋白质丰度,进而改变细胞功能并最终影响所研究的IDP。但是,多种环境因素和其他因素会影响基因活性,同时许多与IDP相关的指标影响表型变异的机制尚不清楚。此外,许多基因的表达水平在大脑区域之间存在很大差异,而这些空间变化不能仅从DNA测序中推断出来。基因表达测定提供了基因功能更直接的量度,其中艾伦人类大脑数据集(AHBA)提供了整个大脑的高分辨率覆盖,包括从3702个空间不同的组织样本中提取的20,000个以上的基因的表达量。至关重要的是,样本已映射到标准空间中,从而使研究人员可以将基因表达与IDP中的空间变化直接相关。这种将分子功能与宏观大脑组织联系起来的空前能力已经引起了影像转录组学的新生领域。影像数据和基因表达数据在分析之前都要经过大量处理,数据处理方法的选择对神经影像分析结果具有极大的影响,目前尚未对可影响转录组图谱及其与IDP关系的分析的许多处理方法进行比较。在本文中,我们为处理AHBA基因表达数据的一些关键步骤提供了参考,并研究了每个步骤可用的方法选择的潜在影响。本文发表在NeuroImage杂志。(可添加微信号siyingyxf或18983979082获取原文及补充材料)注:Allen脑图谱(https://human.brain-map.org/)是目前进行全基因组和脑影像数据关联分析的最优选择,除了人脑数据以外,还有小鼠全脑的全基因组数据。目前,使用该图谱做的相关研究都发表在高质量期刊中,我们曾解读过使用该图谱和影像数据进行关联分析的研究,如:
溶酶体神经轻链基因表达的皮质网络与口吃皮质网络相交
基因表达定量
在AHBA中,已经使用基因芯片测量了转录活性,该芯片通过测量组织样品中cRNA(Cy3标记的RNA)与芯片上特定位置的杂交来一次量化数千个基因的表达水平。芯片通常在大块组织样品上进行,并且样品的细胞组成会强烈影响其基因表达谱。结果,具有不同细胞类型的不同密度的两个样品可能仅仅由于它们的细胞组成不同而显示出转录差异。当比较从大脑不同部位采集的样本获取的数据时,不同细胞类型的密度变化可能产生基因表达的差异。此外,组织样本的采集和处理方式,死亡年龄,性别等差异均会影响基因表达指标。艾伦研究所(Allen Institute)已采取了一系列步骤,以尽可能减轻这种差异。AHBA数据集包含来自六个成人大脑的3702个不同空间样本中的基因芯片数据。样本分布在每个大脑的皮质,皮质下,脑干和小脑区域,并量化了20,000多个基因的表达水平。AHBA还提供:(1)给定基因表达值是否超过背景水平阈值,可用于质量控制;(2)其中两个大脑中每个组织样本的RNA-seq数据,可进一步交叉验证;(3)核磁共振影像,包括所有六个大脑的T1加权像,T2加权像,T2加权梯度回波成像和FLAIR序列,以及两个大脑的扩散加权成像。图1显示了六个大脑分析覆盖范围的基因表达差异。
图1 AHBA代表基因CLRN1在六个大脑样品的表达数据示意图。
为了减少批次效应对分析的影响,需要将表达数据在单个大脑内以及两个大脑之间进行归一化处理,以最大程度地减少非生物偏差的影响,同时保持生物学相关的差异。尽管这样,我们仍发现基因表达之间仍存在较大的个体差异,与其他大脑的样本相比,来自同一大脑的样本具有更多相似的基因表达。当结合所有六个大脑的数据进行分析时,必须考虑这些差异。除了艾伦研究所采用的处理步骤外,还需要执行许多其他步骤来结合基因表达量和神经影像数据。在这里,我们整理成七个主要步骤,在以下各节中,我们概述了可以在每个步骤中方法选择,并考虑了其对分析的影响,并在结论部分总结了一些建议。
图2 结合AHBA和神经影像数据的一般工作流程主要步骤示意图。如果您对脑影像数据处理感兴趣,欢迎浏览思影科技课程及服务(可添加微信号siyingyxf或18983979082进行咨询):
第十一届磁共振脑影像结构班(南京,1.12-17)
第十五届DTI数据处理班(南京,12.26-31)
第三十六届脑影像基础班(南京,2021.1.6-11)
第三十八届脑影像基础班(南京,2.23-28)
第十九届磁共振脑网络班(南京,1.18-23)
第八届任务态功能磁共振数据处理班(南京,3.2-7)
第一届任务态功能磁共振提高班(南京,3.9-14)
第七届任务态fMRI专题班(重庆,1.14-19)
第三十七届脑影像基础班(重庆,1.23-28)
第二十届磁共振脑网络数据处理班(重庆,2月27-3月4日)
第十四届脑影像机器学习班(重庆,3.12-17)
尽管AHBA提供了将探针映射到基因的注释表,但随着每次测序数据库的更新,此信息已过时。准确的注释对于获得生物学上有意义的发现至关重要。因此,有必要使用最新的可用信息将探针重新分配给基因。可以使用多种方法和工具箱进行重新注释,我们使用Re-annotator工具包,通过所有可用的60 bp的AHBA探针序列,我们发现45821个探针(占78%)被唯一地注释到一个基因,并且能关联到NCBI entrez ID;共有19%的探针未定位到一个基因,只有不到3%的探针被定位到多个基因,不能被明确注释。在没有明确注释基因的探针中,有3438个(75%)注释与AHBA提供的注释有所不同:1287个探针被重新注释为新基因,而2151个探针先前未分配给任何基因。此外,初始AHBA数据集中的6211个(约10%)探针的基因名称,ID或信息不一致。下面所有分析均使用重新注释的45821探针,对应于20232个单一基因。芯片实验容易产生背景噪音,通常可以通过删除固定百分比的最低强度探针或仅使用与背景相比在统计学上具有显着差异的探针来解决。使用基于t检验的AHBA标准定义的指标IBF对每个样本中的每个探针进行分析,用于指示表达信号是否超出背景水平,我们排除了在至少50%的皮质和皮质下样本中表达量不超过背景的探针,则排除了30%的探针。为了进一步研究IBF的影响,我们研究了过滤对由多个探针同一基因定量的表达值之间的平均相关性的影响。应用IBF过滤后,共除去6579个基因,同一基因探针间相关性提高,这与基因表达信号增强一致。应用IBF过滤也可以提高在相同大脑中芯片获得的基因表达和RNA测序的平均相关性,这表明芯片测量数据的有效性提高了,具有远超背景噪声的探针显示出与RNA-seq表达量的更高相关性和差异稳定性。基因得分重采样(GSR)分析能够识别过表达的基因集,结果表明IBF过滤掉与大脑特定的细胞、免疫和代谢过程无关的基因。我们的结果表明,IBF能够有效提高芯片表达量的准确性。
图3 基于信号强度的过滤(IBF)与真实表达增加一致,增加了单个基因的探针间平均相关性。使用多个探针来测量单个基因在不同外显子上的表达水平,可以提高检测的可靠性。我们希望测量同一基因表达的探针应显示出一致的表达模式,但并非总是如此。我们发现,即使在IBF之后,对于超过20%的基因,测量同一基因表达水平的探针之间的相关性也是ρ<0.3。为了评估在不同的探针选择方法对基因表达量结果的影响,我们使用多个方法估计了每个多探针基因的表达量。然后,针对每种方法计算了它们之间的Spearman秩相关系数。图4A显示了使用不同方法的表达量之间的平均相关性,这些表达量值是由多个探针分析的17769个基因的平均值。不同方法之间的平均相关系数在0.5 <ρ<0.98之间,这表明探针筛选方法可能会对表达估计产生重大影响。现在缺少合适的标准对不同的探针之间进行选择,其中一种方法是使用RNA-seq数据作为参考,选择与RNA-seq相关性最高的探针,从而提供了一种额外的质量控制通过交叉验证进行探针的选择。考虑到芯片数据中20232个基因中的17609个具有RNA-seq数据,我们首先评估去除其中没有RNA-seq数据的基因是否会过滤与大脑相关的基因。我们使用ORA验证了去除的基因并未富集脑特异性功能,而是与septin蛋白的组装以及RNA剪接的负调控等。然后,我们检查了112个脑区芯片和RNA-seq共有的17609个基因的相关性。大多数相关性很低,只有23%的基因显示出较高的相关性。使用GSR分析,我们发现芯片与RNA-seq之间具有较高相关性的基因富集在神经元连通与通信相关的过程。该分析表明,RNA-seq数据可以用作筛选与大脑相关且可靠的基因的参考。与其他探针选择方法相比,RNA-seq与DS(细胞膜荧光探针的一种)显示出最高的相关性。鉴于RNA-seq数据仅适用于有限的基因,并且仅来自AHBA的六个供体大脑中的两个,DS可能是AHBA的合理的探针筛选方法。
图4 不同探针选择方法对最终的基因表达分析有很大的影响。
(A)不同探针选择方法之间的相关性,(B)探针与RNA-seq平均相关性分布,(C)不同探针选择方法与RNA-seq的相关性。
AHBA为多个空间定位的组织样本提供了基因表达数据。当将这样的数据与IDP相关联时,必须在每个组织样本的空间位置映射到IDP的空间单元。AHBA提供了包括每个样本的MNI坐标(和体素坐标),以及每个大脑样品的MRI数据。每个组织样本还与解剖结构ID相关联,从而可以在不同的分辨率下识别大脑结构。现有研究已使用多种方法将组织样本映射到ROI。其中一种方法是根据给定的解剖样本名称与结构匹配,使用AHBA提供的解剖结构名称,但这些区域并不直接对应于影像分析中通常使用的体素,因此很难与影像数据精确对应。另一种方法是使用每个样本的MNI(或体素)坐标,可以将样本分配到标准空间中定义的脑区,或者根据每个AHBA大脑区域将样本映射到脑区。不同大脑的这些差异将影响标准化的准确性,而样本数据处理过程中发生的组织变形差异也会加剧这种差异。为了克服这些问题,可以使用不同的分割方案应用于每个单独的大脑。该方法可以更准确地处理解剖学上的个体差异,但是需要在原始空间和MNI空间之间生成适当的转换以进行准确的分割。对于皮层,通过对表面进行分割和归一化可以大大提高准确性,而非皮质区域的分割需要体积归一化。在我们自己的工作中,我们已经能够以合理的准确度(通过视觉检查评估)对六个AHBA大脑的皮质表面进行分割,并且我们使用FreeSurfer向每个大脑提供了四个以不同分辨率映射的不同体积体素。将组织样本映射到分割的最近区域,样本与区域之间的距离通常估计为3D空间中的欧几里得距离。在将样本映射到脑区的过程中,如果未针对(i)解剖位置(皮质,皮质下,小脑等)(ii)左右半脑进行映射,则可能会发生错误。为避免潜在的错误,应去除映射错误的样品。第二个考虑因素是设置将样本分配的距离阈值,以确保不会分配到距离较远的位置。在分割过程中样本分配到距离体素不超过2毫米的比例提高到几乎90%,而距离阈值继续增加只会使分配的样本数量产生较小的收益。因此,我们在分析中使用2mm作为距离阈值。此外,还有一个重要考虑因素,六个大脑中只有两个大脑是从两个半脑中采样的,而四个大脑中只有左侧是采样的,合并数据时应仔细考虑这种稀疏抽样。可以根据数据模型推断缺失的表达值。例如,使用最近样本的加权线性组合建立了高斯过程回归模型,以推断特定位置的缺失表达值。
图5 将局部组织样本映射到脑区的方法受到(A)样本区域距离的定义、(B)样本解剖注释的使用以及(C)使用的距离阈值的影响。
AHBA通常用于表示成人大脑的一般转录组概况。但是,它包含了来自不同年龄,不同种族,性别等人的数据,其中许多因素都会影响基因表达。解决此特定于大脑的差异的方法之一是在每个大脑中分别进行分析。但是,AHBA中不同大脑区域的空间覆盖因人而异,整合所有大脑的样本以得到具有最大空间覆盖范围的基因表达谱。在这种情况下,需要对特异性转录组模式进行适当的校正。艾伦研究所应用了一系列数据标准化程序来消除批次效应和个体差异。尽管如此,仍存在剩余的个体差异影响,必须考虑才能进行有效的数据汇总。解决供体特异性效应的方法有留一法分析或者数据标准化。大多数使用AHBA的研究都使用z分数归一化,而大脑样本中的基因表达分布通常是非对称的,并且可能包含异常值,这可能会使数据产生偏差。我们关注Fulcher和Fornito使用的SRS归一化方法,这种方法基于S型函数对基因表达值进行归一化,此归一化对异常值具有鲁棒性,并使每个人的表达值具有相同的缩放比例。消除供体特异性影响的其他策略包括使用应用于交叉组合个体数据的线性模型,并使用R limma包通过线性建模将其去除。尽管此方法消除了基因表达之间的个体差异,但线性模型对异常值敏感。此校正之后可以进行SRS归一化,可以最大程度地减少离群值的影响。为了解释潜在的样本间基因表达差异,在对所有样本进行归一化处理之前,可以应用样本内交叉验证归一化来量化给定样本内基因的相对表达水平,从而将这些影响降至最低。
图6 适当的标准化可以消除个体特异性基因表达的差异。
(A)未归一化,(B)z分数,(C)SRS归一化,(D)limma + SRS归一化后的PCA结果。(E)z分数与SRS归一化后ZZZ3基因表达相关性。
另外一个考虑因素是,AHBA中各个大脑之间的组织样本的空间分布不均匀。这样,不同的大脑可以为任何给定的大脑区域贡献不同数量的样本。鉴于这种差异,我们推荐在样本间分析前先进行样本内脑区平均,可确保每个供体对均值做出均等的贡献,前提是所有基因均已标准化至相同规模。前六步产生了转录水平的脑区×基因矩阵,可用于进一步分析,我们试图了解脑区之间相关基因表达(CGE)的空间变化与IDP的空间变化之间的关系。其中一个需要考虑的因素是相邻皮质区域可能有相似的基因表达模式。不同的空间距离定义方式对结果有很大影响,使用欧几里得距离作为空间距离,我们检查了基因表达相关的空间效应。CGE随着皮层区域之间的空间距离的增加而急剧衰减,说明CGE对距离的相关性可以近似为指数关系。将这种关系扩展到整个大脑(包括皮层和皮层下的样本),会因皮层和皮层下基因表达之间的强烈反相关而变得复杂。因此,可以应用分别针对皮层和皮层下区域进行分析,并对不同类型的区域对进行校正。
图7 不同空间定义方式及其在样本内的分布。
图8 基因表达数据相关性与空间距离的关系为指数关系。
在CGE分析中,处理基因空间关系可能更具挑战性,解决此问题的方法可以将结果与适当的空模型进行比较。尽管已发表了一些有效的方法,但是对这些空模型的全面评估是未来工作的重要途径。虽然距离可能是在表达分析中考虑校正的最明显影响,但其他因素(如细胞结构和细胞密度差异)也是相关考虑因素。影像转录组学为揭示大规模大脑组织的分子基础提供了前所未有的机会。由于该领域的快速发展及其对公开数据的严重依赖,迫切需要标准化的数据处理流程,以促进各研究结果之间的比较。我们的分析描述了基本工作流程的七个核心步骤,并演示了每个步骤的方法选择如何影响最终表达结果,并总结了一些最佳的实践建议。这是目前少有的全基因组和脑影像指标关联研究的实践性指导文章,对于发展相关领域具有重要意义。