如何在任意ERP实验中获得统计上显著的效果(以及你为什么不应该那样做)

在ERP研究中,一个被试的EEG/ERP数据往往含有很多信息,即使在进行平均后也是如此。EEG/ERP数据中所蕴含的丰富信息能帮助研究者更好地进行假设检验的同时,也增加了获得假阳性结果的概率。本文梳理了ERP研究中导致假阳性结果概率高发(如:在许多ERP研究中一个假阳性结果发生的概率超过50%)的常用和常规的数理统计方法。我们主要关注两个具体内容:
(1)根据总平均数据来选择ERP成分波幅和潜伏期的时间窗和电极点;
(2)使用单因素或多因素统计分析。并且,通过对已有数据的分析和模拟经典实验设计来呈现以上两个内容是如何增加假阳性结果发生的概率。最后,提出相应的策略来规避假阳性结果发生的概率。本文发表在Psychophysiology杂志。(可添加微信号siyingyxf或18983979082获取原文及补充材料)。
引言
在ERP研究中,发现一个在统计上具有显著差异的预期效应似乎是一件不可思议的事情。因为典型的ERP效应可能只有百万分之一伏特或百分之一秒,而且这些效应很容易被污染ERP数据的许多生物和环境噪声源所掩盖。对大量试次的数据进行平均可以提高信度和统计功效,但即使足量的试次也可能由于一些因素(如:思维游荡)导致统计误差的产生。这些不同来源的统计误差会导致当组间或条件间差异量为1 μV 或10 ms 时要达到在 0.05 水平上具有统计学上的显著差异会更难。因此,当实验中需要检验一个小但特别的效应时,需要非常谨慎,以保证真实存在的效应在统计上是显著的。
另一方面,在ERP实验中很容易发现有统计学意义但不可预测且不可复制的效应。ERP数据集非常丰富,如果进行足够的分析,数据中的随机变化很有可能在某些时间点和某些电极位置产生具有显著统计意义的效应。这些效应是假的(即不是真的),但研究人员、期刊审稿人或已发表文章的读者很难知道给定的效应是真的还是假的。这很可能会导致发表大量虚假但具有统计学意义的效应。一般来说这种情形的发生是一件低概率事件的,但越来越多的证据表明,心理学、神经科学和肿瘤学的许多已发表成果是不可重复的。许多因素导致了可重复性危机,但其中最主要的因素之一就是Simmons、Nelson和Simonsohn(2011)提出的研究者自由度(experimenter degrees of freedom。研究者自由度是指研究者可以用许多不同的方法进行数据分析。如果研究者根据研究结果的显著性趋势来选择分析数据的方法,这将极大地增加出现假阳性结果的概率。
研究者在ERP研究分析中的自由度通常比在行为学研究中的自由度更高,这很可能导致发表许多具有显著差异但实际上无意义的ERP研究文章。本文的目的是证明在ERP实验中容易发现显著但虚假的效应,并为避免这些虚假效应提供一些具体的建议。本文将使用Simmons等人(2011)的方法,我们将呈现如何对实际实验的数据进行不适当的分析,从而得到显著但虚假的效应。然后,我们将详细讨论在绝大多数研究中常用的方差分析和多因素分析是如何导致统计显著但虚假的效应。我们还将为避免发现有统计意义,但是错误的和不可重复的效应提供具体的建议。
如何在ERP实验中发现显著效应:一个实例
我们在这一节的目的是展示一个非常合理的分析方法如何导致错误的结论。为了实现这个目标,我们从实际发表的ERP研究中选取了一部分数据,并采用了新的数据分析方法进行数据分析,这些分析方法听起来合理,但实际上并不合理并且产生了虚假的效应。请注意,关于研究和再分析的所有内容都将准确描述,除了设计中的一个不真实的特征将在稍后被揭开,并且将清楚地表明,任何重要的结果在这次再分析中都是虚假的。尽管最初的研究将患者组与对照组进行了比较,但目前的再分析只关注12名对照组被试的组内效应。
研究设计和结果汇总
在这项研究中,使用的数据是12名健康成年人完成visual oddball task(如图1所示)时同步采集的脑电数据。visual oddball task中,字母和数字分别在屏幕中央呈现,参与者被要求在出现字母时用左手按,在出现数字时用右手按(反之亦然)。然而,在参与者不知道的情况下,标准刺激中有20%的刺激是之前刺激的连续重复(如图1所示,示例中字母G的重复)。本文分析的目的是确定是否检测到这些偶尔连续的重复,以及个体对重复和不重复差异处理的时间进程。以往的研究表明,重复呈现偏差刺激可以影响P3成分,但重复呈现标准刺激中对个体的影响尚不清楚。

图1. Luck等人(2009)研究的实验范式。注视时出现字母和数字,刺激持续时间为200ms,刺激开始不同步性(asynchrony)为1500±150ms。这两种刺激中的一种是偏差刺激(20%),另一种是标准刺激(80%)。参与者被要求通过不同的按键进行类别判断,刺激和按键在被试间进行了平衡。在标准刺激中,同一个字母或数字偶尔会连续重复。

任务中每个被试需要完成800个试次,其中640个为标准刺激,160个为偏差刺激。在标准类别中,每个参与者需要完成128个重复试次和512个不重复的试次。正如之前多次研究的那样,偏差刺激的N2和P3成分明显大于标准刺激的N2和P3成分。目前的分析仅集中在标准刺激,以确定在标准刺激中连续重复和不重复的ERP是否会有差异。数据使用标准记录、滤波、伪迹删除和总平均的流程(详见Luck等人,2009)。
图2显示了标准刺激中重复和不重复的总平均波形图。这些试次类型的波形有两个明显的差异:
(1)重复比不重复诱发更大的P1波,尤其是在右半球。
(2)重复在中央和顶叶电极部位引起较大的P2波。我们进行了标准分析,以确定这些影响是否具有统计学意义。
图2。标准刺激中重复和不重复试次类型的总平均波形图。标准刺激中重复在大脑后部产生较大的P2波(P2效应),在右半球产生较大的P1波(P1效应)。
我们对刺激呈现后50~150 ms 的P1平均波幅进行2(试次类型:重复、不重复)× 2(大脑半球:左半球、右半球)×5(电极位置:额叶、背侧额叶、额中、中央、顶叶)三因素重复测量方差分析。试次类型的主效应边缘显著(p=0.051),但试次类型与大脑半球的交互作用显著(p=0.011)。由于存在显著的交互作用,我们进行了事后比较,分别对左半球和右半球的数据进行方差分析。试次类型对右半球的影响显著(p=0.031),但对左半球的影响不显著。这些结果与观察到的结果一致,即重复试次的右半球电极位置的P1波幅大于非重复试次。
对刺激呈现后150~250 ms 的P2平均波幅进行2(试次类型:重复、不重复)× 2(大脑半球:左半球、右半球)×5(电极位置:额叶、背侧额叶、额中、中央、顶叶)三因素重复测量方差分析。试次类型的主效应显著(p=0.026),与在中央电极和顶叶电极上观察到重复试次的P2平均波幅比不重复的P2平均波幅更大。
总之,P1和P2的结果表明,即使任务不需要,也可以检测到标准刺激中特定样本的重复。此外,这些结果表明,个体对重复刺激的加工不仅发生在早期阶段(在大约100毫秒的刺激开始),也会持续到后期阶段(约200毫秒)。
有研究者可能会担心,纳入ERP分析的试次数量中标准刺激中重复试次的数量远远低于不重复试次的数量。然而,这实际上不是一个问题,因为是用平均振幅,而不是峰值振幅来测量ERP成分。与峰值振幅相比,平均振幅是一种无偏测量,这意味着它同样可能大于或小于真实值,并且平均振幅对高频噪声较为不敏感(见Luck,2014)。
ps:峰和成分并不是一回事,电压达到局部最大值的点并没有什么特别之处。
研究设计和虚假结果
虽然我们在数据分析中使用了常用的数据分析方法,并且可能不会在期刊的同行评审中受到质疑,但实际上我们的分析方法存在严重的问题。事实上,统计上显著的效应仅仅是数据中随机噪声的结果。通常,我们无法知道一组显著效应是真实的还是虚假的,但我们确信本实验中涉及刺激重复的任何ERP效应都是虚假的,因为实际上本研究并没有将刺激的重复性作为一个自变量进行操控。这只是我们杜撰的一个故事,让整个数据分析听起来更为合理。实际上,我们并没有操纵重复和不重复,而是将每个被试的640个标准刺激的试次随机分为512个不重复的试次和128个重复的试次。换句话说,我们模拟了一个零假设为真的实验:重复和非重复试次都是从同一个人的试次中随机选择的。因此,我们知道,关于试次类型的任何效应,零假设都是正确的,并且我们确信在P2上的试次类型主效应显著和在P1上的试验类型与大脑半球交互作用显著都是虚假效应。这也意味着研究中关于重复效应的加工和时间进程的结论是错误的。
我们在分析数据时选取数据分析方法时的问题是:根据总平均结果来选择进行ERP成分测量时的时间窗口和电极点。虽然这是一个相对简单的ERP实验,但是噪声会导致ERP成分在进行差异检验的时候虚假差异的概率会增加,因此我们能够容易找到具有统计学意义差异的ERP成分的时间窗和电极位置。这个研究没有让我们能够发现虚假差异的特别地方;几乎所有的ERP研究都会产生如此丰富的数据集,如果研究首先查看波形,找出条件之间具有很大差异的时间窗和电极点,然后在该时间窗与电极点中测量波幅或者潜伏期并将最后获得的数值用于实际的统计分析中。这通常会导致显著的差异,但它其实是由噪声,而非真实效应导致的
隐性多重比较问题

这种数据分析方法导致隐性多重比较问题(Luck,2014):研究者通过肉眼比较多个时间点和电极点上的波形,便是间接地进行了多重比较。为了使ERP研究中的隐性多重比较问题变得更清晰,我们重新分析了上述实验的数据。具体来说,我们在每个时间点和每个电极位置进行了单独的t检验,以比较重复和非重复波形。这会生成数百个单独的p值,其中许多表示重复和非重复波形之间的显著差异。众所周知,这种策略是不合适的,并且会导致很高的误报率。如果我们试图公布基于没有经过多重比较校正的数百个t值的结果,那么任一一个有经验的审稿人都会建议拒绝这一结果。事实上,当我们对多重比较进行Bonferroni校正时,没有一个差异仍然显著。

尽管研究者普遍认为,进行大量的显性统计比较会导致出现虚假差异的可能性很高,但研究人员在使用所观察到的ERP波形来指导他们选择显性统计比较时,隐含地进行多重比较却不太被广泛理解。正如我们在上述实验中所做的:我们先观察了总平均波形图,看到了一些差异,并决定使用特定的时间窗和电极位置来对P1和P2波进行统计分析,显示了条件之间的显著差异。换言之,由噪声引起的波形之间的差异导致我们将注意力集中在特定的时间窗和电极位置上,这使我们在少量的显性统计分析中发现了显著但虚假的效应。以这种方式使用总平均波形图来指导数据分析会导致与进行数百次未进行多重比较校正的显性t检验结果一样。也就是说,虚假效应的发生率很高。但是在发表ERP研究成果时,很容易让基于这种统计方法的结果“逃脱”。类似的问题也出现在fMRI研究中。

ps:说白了就是人先对部分数据进行了肉眼多次统计再用计算机对剩余部分数据进行统计与全部数据都进行计算机统计是一样的,导致假阳性增加。

如果我们提交了一篇包含前面描述的一小部分方差分析结果的论文,我们就可以给出一个合理的令人信服的故事,说明为什么我们期望P1和P2波形对检测到与任务无关的刺激重复非常敏感。此外,我们可以得出这样的结论,即在刺激后100毫秒就可以检测到重复,而且这篇论文被接受发表是有道理的。因此,虚假的差异是完全随机变化的结果,很容易达到令人信服的效果,可能会公布,特别是如果它们被描述为“预测结果”而不是事后检验的结果。

因此,如果一个不道德的研究者希望在一个给定的实验中获得可发表的效应,而不管结果是否真实,他会先观察总平均波形图,找出条件不同的时间窗和电极位置,测量这些时间窗和电极位置的效应,同时报告统计分析结果,并将数据描述为符合观察到波形后实际形成的“假设”的预测。但是,如果研究人员希望避免显著但虚假的效应,则建议他们注重于先验分析,而不使用观察到的结果来选择数据分析的时间窗口或电极位置,并且将发现的效应(即使非常显著)视为一种潜在的可能性,直到被重复。

ps:作者在这里漏掉一个问题,即若注重先验分析,对数据的利用率低,发现新结果的可能性也将减少

如何避免隐性多重比较问题和分析方法

有几种方式可以用于解决隐性多重比较问题,以避免Ⅰ类错误率的升高。但并不存在一个适用于所有研究的最佳解决方案,因此你需要根据研究的性质来选择最佳方法,并在论文的方法或结果部分提供你选择这一方法的理由。以便让审稿人和读者确信你对数据分析方法的选取是经过深思熟虑的。

先验假设

在多数情况下,研究者可以使用先前研究而不是当前研究的ERP波形来进行时间窗和电极点位置的选择。但该方法并不是万能的。例如,许多研究都是非常新颖的,以前用类似方法进行的研究无法指导数据分析参数的选取。对于这些情况,有以下几种可供选择的替代方法。

功能定位

功能定位在功能神经成像中被广泛使用。其基本原理是使用一种非常简单并被充分理解的操作来确定某一特定效应的时间进程和电极点位置,然后将其运用到实验重点关注的比较中。例如,使用N170成分来测量面孔加工中的非常微小效应(例如,男性面部与女性面部)的实验中,可以在实验中设置一个非面孔条件,通过面孔与非面孔的对比来决定N170的时间窗口和头皮分布。该方法的优点是把不同被试在N170的潜伏期和头皮分布上的差异考虑在内。但是该方法假设功能定位条件下的时间窗口和头皮分布与研究感兴趣的条件下的分布是相同的,并不是所有的研究都符合这个假设。

合并定位

合并定位是将目标条件之间的数据合并,用来确定测量的时间窗和电极点。例如:例如,在一项评估两种不同条件下N400的实验中,可以首先对这两种条件下的数据进行平均,然后在分别测量两种条件下的N400时,可以使用N400波幅最大时的时间窗和电极点。在某些情况下,这种方法可能会有问题,但当无法根据先前的研究选取数据统计分析的参数时,其通常是最好的方法。

独立于时间窗的测量

一些研究中对ERP成分波幅和潜伏期的测量十分依赖于时间窗的选择,而一些研究则可以不依赖于数据分析过程中时间窗的选取。例如,平均振幅可以根据测量时间窗的变化而变化,而峰振幅对精确时间窗的依赖性较小,尤其是在测量ERP成分的峰值时。然而,平均振幅在其他方面通常优于峰振幅,例如对高频噪声的敏感性。然而,当无法确定测量平均振幅的时间窗时,使用峰值振幅可能是合适的方法。另一种方法是证明平均振幅效应的统计显著性不依赖于特定的测量窗口。

单变量方法(the mass univariate approach)

单变量方法是对每个电极点上的每个时间点分别进行t检验,并且采用某种校正方法控制多重比较带来的I类错误。传统的bonferroni校正过于保守,现在有很多其它免费开源的校正方法,比如Mass Univariate Toolbox和FieldTrip。这些方法仍然显得十分的保守,但在没有很好的先验信息来指导时间窗口和电极点的选择,这些方法便可能是相对最好的方法。

运用数理分析分离潜在成分

另一种方法是使用数理分析的方法分离潜在的ERP成分。例如,源定位、独立成分分析和空间主成分分析等技术试图测量每个时间点的ERP潜在成分的大小,从而无需选择特定的电极位置进行分析。此外,时间主成分分析试图测量每种类型试次中潜在ERP成分的大小,从而无需选择特定的时间窗口进行分析。

重复

最后也是最重要的方法是简单、经典的重复。如果没有选择时间窗口和一组电极位置的先验依据,则可以进行第二个实验证明在相同分析参数下结果的可重复性。第二个实验通常不会完全重复第一个实验,而是会添加一些新的内容。

ps:进行第二个实验对于大部分有毕业压力的研究生来说充满了挑战

论文发表证实了测量参数选取的正确性吗?

根据心理生理学研究学会的最新出版指南,“测量时间窗和电极位置的选取必须合理”,使用刚刚描述的方法之一或其他一些明确和令人信服的方法。为了评估这一指南的执行情况,我们对2015年前6个月发表在《心理生理学》上的论文进行了非正式分析。我们选择了所有符合以下三个标准的论文:

1实证研究(不包括综述论文和方法论论文);

2)主要使用ERP指标(而不是其他心理生理指标)以及(3)使用单变量方差分析作为主要的统计方法(以便在本文的后续章节中对统计实践进行评估)。最终14篇论文符合纳入标准。其中10篇论文为时间窗口和电极位置的选择提供了明确的先验理由,或使用了对时间窗口和电极位置的选择不敏感或独立的方法。然而,其中有4篇论文没有提供任何理由或只是含糊不清的理由(例如,没有引用任何具体文献作为选取的理论依据)。在某些情况下,对观察到的波形进行目测从而明确地作为选取依据的一部分,尽管这正是大多数情况下应该避免的。

虽然我们对这些心理生理学论文的分析是基于相对较少的论文样本,但它确实表明作者、编辑和评审人员并不总是遵循必须为时间窗和电极位置提供良好理由的要求。另外值得注意的是,14篇论文中有12篇只包含了一个实验,因此无法评估观察结果的可重复性。因此,本期刊中使用重复等最有力的方法来证明其研究结果稳定性的论文相对较少

如果您对脑电数据处理感兴趣,欢迎浏览思影科技课程及服务可添加微信号siyingyxf18983979082咨询):

第二十六届脑电数据处理中级班(重庆,4.9-14)

第十四届脑电数据处理入门班(南京,5.10-15)

第二十七届脑电数据处理中级班(南京,6.1-6.6)

第十二届近红外脑功能数据处理班(上海,6.15-20)

第十三届脑电数据处理入门班(上海,4.19-24)
第十一届近红外脑功能数据处理班(上海,4.13-18)

第三届脑电机器学习数据处理班(上海,6.25-30)

第九届脑电信号数据处理提高班(上海,7.8-13)

数据处理业务介绍:
思影科技EEG/ERP数据处理业务
思影科技脑电机器学习数据处理业务

思影科技近红外脑功能数据处理服务

思影数据处理服务六:脑磁图(MEG)数据处理
思影科技眼动数据处理服务
招聘及产品:
招聘:脑影像数据处理工程师(上海)
BIOSEMI脑电系统介绍
目镜式功能磁共振刺激系统介绍
多因素方差分析和总体/实验错误概率
总体/实验错误概率的定义
除了隐性多重比较问题外,ERP研究还经常涉及多重显性比较的问题,这可能是一个非常有问题的问题,但研究者一般认为这个问题不是问题。具体来说,ERP研究通常涉及两个或多个多因素方差分析,导致几个主效应和交互效应的检验没有进行多重比较校正。在一组相关的分析中(比如单个ANOVA分析中得到的主效应和交互效应),一个或者多个效应犯I类错误的概率被称为总体错误概率(family wise error rate)。例如:一个三因素ANOVA分析包含3个主效应,4个交互作用,可能会导致犯超过30%的总体错误概率。这意味着在每个三因素方差分析的七个效应中,获得一个或多个显著但虚假效应的几率大于30%,而不是研究者所预期的5%。
同样的,在一个实验中所做的所有分析中有一个或者多个效应犯I类错误的概率被称为实验错误概率(experimentwise error rate)。本研究中报告的两个三因素方差分析,犯实验错误概率的可能性在50%以上。换句话说,尽管在本研究中评估的14个主效应和交互效应中没有任何一个真实的效应,但发现至少一个显著但虚假的效应的几率约为50%。因此,即使我们使用了一个先验的时间窗和电极位置,我们也有50%的机会发现一个显著但虚假的效应,而不是人们通常预期的5%的可能性。这并不是图1和图2中所示研究才具有的特权;因为对于任一研究中使用2个三因素方差分析进行数据分析时,实验错误概率大约为50%。这个问题似乎没有受到广泛的关注,所以我们将提供一个详细而简单的模拟验证,使问题清楚。
多重比较的事后检验
在研究生学习阶段中几乎每一门关于方差分析课程都包括对多重比较问题的讨论,以及Bonferroni和Scheffe校正。这通常是在对包含两个以上水平的因素进行事后检验分析时提出的。例如,如果一个实验的因子A有A1、A2和A3三个条件,并且发现因子A的显著影响,则可以进行事后检验,将A1与A2进行比较,将A2与A3进行比较,或者将A1与A3进行比较。这种比较进行得越多,其中一个或多个产生显著但虚假结果的可能性就越大,I类错误(即假阳性)的总概率将超过预期的0.05水平。因此,应进行校正,以便I类错误的总概率保持在0.05水平。但是,标准建议是,预期的比较不需要校正。
虽然关于多重比较问题的概念被广泛地教授,但是在具体运用中考虑多重比较问题是不常见的,因为多重比较问题是在一个单因素方差分析中产生的。例如,在因素A和因素B的简单2×2实验中,方差分析将产生三个p值:一个是因素A的主效应,一个是因素B的主效应,一个是因素A和因素B的交互作用。如果主效应和交互作用的零假设都成立,那么这个分析提供了三个获得显著但虚假效应的机会。这三种效应中至少有一种是显著的可能性不是5%而是实际上的14%。然而,研究人员通常不会对多重比较进行校正,这可能是因为方差分析中的主效应和交互作用是按实验预期进行分析的,而不是按意料之外的分析方法进行的。
ps:可能作者在写这篇论文时还在15年左右或者之前,现在的情况是,无论是ERP还是核磁研究中,“在具体运用中不考虑多重比较问题是不常见的”
 
ERP研究中多因素方差分析的效应
研究者通常不会在多因素方差分析中对多重比较进行校正,因为他们隐含的假设是所有的主效应和交互作用都是基于先验假设的比较。在两因素方差分析中,这可能是一个合理的假设,但研究者不太可能对四因素方差分析中所计算出的所有15个主效应和交互效应有先验假设。此外,随着方差分析中因子数量的增加,主效应和交互作用的数量呈指数增长,假阳性的可能性会变得非常高。如表1和图3所示,四因素方差分析中一个或多个显著但虚假效应的概率超过50%,七因素方差分析接近100%(当所有效应的零假设为真)。

图3 多重比较中比较次数(A)和用于方差分析中因子个数与总体错误概率之间的关系

表1 效应数量(主效应和交互效应)和不同因子数的方差分析的近似总体I型错误概率

如表2所示,在四因素方差分析中,有36.8%的研究产生了涉及组别因素的显著但虚假的效应。如果我们把平衡因素作为第五个变量,这个可能性会上升到58.5%。因此,即使我们只关注于组别相关效应,仍然有很高的可能性获得显著但虚假的效应。

表2 在所有零假设主效应和交互作用的模拟数据的四因素方差分析中,每个因素组合的显著效应的数量和百分比(p<0.05)
如表3所示,偏差刺激下的LPP潜伏期比标准刺激长25 ms,并且在更多的后部电极也逐渐延长。偏差刺激对潜伏期的概率效应大于标准刺激,通过刺激概率和电极位置之间所产生的交互作用。通过模拟仿真研究,我们发现,当每个实验进行一次振幅和一次潜伏期的两次方差分析时,实验性假阳性率上升到71.2%。然后我们在分析中加入平衡变量,在进行2个五因素方差分析时,实验的假阳性率达到94.3%甚至更高。因此,即使在存在多个真实效应的更现实的条件下,在很大比例的模拟实验中,零效应在统计学上是显著的。

表3 在第二次模拟中,刺激概率和电极位置的每个组合的总体平均值(振幅和潜伏期)

简言之,这些模拟仿真研究表明,如果ERP实验涉及大量的统计检验(多因素方差分析的结果),尤其是如果对一个给定的实验进行了多个方差分析,那么ERP实验将很有可能发现显著但虚假的效应。
降低总体/实验错误概率的方法
处理多因素方差分析中出现的总体错误概率的一种方法是:对多重比较进行显性校正。目前已有大量的校正方法,每种方法都有自己的假设、优点和缺点。然而,数理校正将不可避免地降低实验的统计功效,因此本节将介绍一些替代方法。
减少因素数量
另一种不降低统计功效的方法是简单地减少给定方差分析中的因素数量。例如,仅用于平衡的因素应排除在方差分析之外。
此外,通常可以排除设计中的一些因素,但这些因素不是检验研究主要假设所必需的。在本例中,我们可以剔除电极位置这个因素,而不是平均所有电极位置的测量值(或者基于先验假设在从单个电极中测量)。我们重新分析了第二组模拟的数据(如表3所示平均数据),以确定这将在多大程度上降低总体错误概率。我们只需从先前的模拟中获取单个参与者的振幅测量值,并在三个电极位置(额叶、中央和顶叶)上取平均值。然后,我们对每个模拟实验进行三因素方差分析,包括组别、刺激概率和刺激效价。由于我们合并了电极点位置,在这个模拟中唯一真实的效应是概率的主效应,我们发现在这个模拟中的主效应100%是显著的。方差分析中仅仅剩下组别主效应、刺激效价主效应、3个两因素交互作用和1个三因素交互作用。在六个效应零假设都成立的前提下,其中一种或多种效应26.8%的概率是显著的(如果我们仅关注组别相关效应,则在18.7%的概率是显著的)。但这仍然是一个相当高的总体错误概率,但它比用四因素方差分析得到的53.3%的总体错误概率(或用五因素方差分析得到的79.1%的总体错误概率)要低很多。
利用差异分数来减少因素数量
另一个方法是采取一个因素的两个水平之间的差异,并对这些差异分数进行分析。例如,在仿真模拟研究中,可以对偏差刺激减去标准刺激差异波的测量值进行方差分析,从而减少刺激概率这个因素。当我们将这种方法应用到目前的模拟中时,对电极点上偏差刺激减去标准刺激差异波进行双因素方差分析时,总体错误概率下降到14.0%(如果我们仅关注主效应时,总体错误概率则为9.6%)。目前,基于差异波的分析方法在ERP研究中已经被广泛运用。如:N2pc成分。
ps:而且这种方法可以很好的应用于神经科学中,如fMRINBS的统计分析的设计矩阵可能由复杂的A*B设计变为t检验
减少不必要的分析
在数据分析中减少因素的数量可以降低总体错误概率,而通过减少完全不必要的分析,可以降低实验错误概率。比如:同时分析振幅和潜伏期可以使实验错误概率翻倍,同时分析两个成分也一样。如果一个实验设计来就是测量P3的波幅,那么观察到的P3潜伏期的差异或者其他成分的差异就必须要小心对待,并且在报告结果时应该描述为探索性分析
减少因素数量的损失和获益
ERP研究人员应该把数据分析的重点放在对基础理论检验最重要的效应上。许多统计教学中鼓励使用层级理论,在层级理论中,首先对所有可能的因素进行总体方差分析,然后对那些在方差分析中观察到的显著效应进行事后检验。这并不是降低实验错误概率的最佳策略。相反,研究人员应该把重点放在基本理论检验的具体主效应和交互作用上,应该把任何其他的显著效应视为建议性的,而不是结论性的。编辑和审稿人也可以鼓励这种策略。通常意义上来讲,对于本文所描述的大多数虚假但有意义的结果,清晰的思维和逻辑将是一剂良药。
重复与审稿人和编辑的作用
能有效证明一个显著效应真假的方法就是证明它是可重复的。对于个别研究人员来说,可重复是需要时间的,并且短期回报率不会很高。此外,编辑和审稿人原则上可以要求研究人员对研究进行重复,因为数据分析方法可能会产生很高的实验错误概率。在一篇论文中重复ERP研究结果似乎不像人们所期望的那样普遍,至少在心理生理学方面是这样,因为在前面描述的分析中,14篇论文中只有两篇包含了不止一个ERP研究。
有些研究需要大量的时间和金钱来进行(例如,纵向研究、大型患者研究),在公布结果之前进行重复研究显然是不切实际的。然而,大多数这样的研究都可以为后续更小的、更经济研究的先验数据分析参数的定义提供一定的依据。对于这样的研究,编辑和审稿人应该要求对恰当的选取先验参数和选取的理由进行充分说明。这一点已经在心理生理学研究学会的出版指南中明确规定,但广泛使用仍需要研究人员、编辑和审稿人在实际研究中践行。
由于在选择测量时间窗和电极点时研究者自由度校稿,加上多因素方差分析的普遍使用,ERP研究中I型错误率可能会大幅增加,因此该领域(或至少是《心理生理学杂志》)需要保证研究中使用数据分析方法得到主要结果的可重复性除非作者提出令人信服的观点(例如,由于成本、高统计功效等原因)。这可能会减缓论文发表的速度,但可能会加快科学进步的最终速度,因此需要调整我们对论文发表的预期。
(0)

相关推荐