转自个人微信公众号【Memo_Cleon】的统计学习笔记:十二分重要:从模型角度理解模型效应与参数估计值。
采用SPSS进行模型拟合时,结果里面常常都会出现两个至关重要的结果:模型效应和参数估计,想要正确解释这两部分内容,最好充分理解模型中各个系数的意义。在以往的一些笔记中,笔者也有一些不恰当的理解,所以此文也是一篇修正贴。
我们曾在<<析因设计资料的方差分析>>一文最后演示过主效应、简单效应和交互作用的计算,此次笔记就以此文示例为例。含交互作用的两因素方差分析模型为:Y=μ+α+β+(αβ)+ε。SPSS的操作步骤在文中已做过详细演示,要得到参数估计值,需要在单变量方差分析对话框的【Options…】按钮中选中[Parameter estimates],其他操作步骤相同,模型效应与参数估计结果如下:
另外我们把文中的最后各因素简单效应、主效应以及交互作用的计算结果也放上来,以方便阅读。
模型效应结果(个体间效应检验的方差分析表):
“校正模型”是对整个方差分析模型的检验,H0假设是lxp、newD以及两者交互作用的系数为0,即全部考察因素及交互作用对因变量没有影响。本例F=59.306,P<0.001,意味着至少有一个因素的系数不为0;
“截距”:常数项为0的检验,即当不考虑lxp、newD因素以及两者交互作用的影响时,神经递质平均含量为0。统计学检验拒绝了这个假设,F=835.263,P<0.001,即截距不为0。但在分析中没有实际意义;lxp因素:F=152.507,P<0.001,lxp的主效应具有统计学意义;newD因素:F=12.846,P=0.002,newD的主效应具有统计学意义;lxp*newD:F=12.564,P=0.002,lxp与newD的交互作用具有统计学意义,即lxp效应在newD不同水平上是不同的(或者说newD效应在lxp不同水平上是不同的);注:校正总变异(Corrected Total)可分解为校正模型(Corrected Model)引起的变异和误差项(Error)引起的变异,其中校正模型引起的变异可分解各因素及交互作用之和。在模型效应检验结果中,各因素的H0假设是因素主效应=0,统计结论是各因素的主效应是否有统计学意义。如果不存在交互作用,说明因素间作用效果相互独立,分析各因素的主效应即可;若存在交互效应,在统计分析时需要注意分析各因素的简单效应。模型效应结果(方差分析表)给出的是各模型截距、误差、因素主效应及交互作用的统计学结果,但并未给出模型具体的参数估计值,参数估计值会在参数估计表中给出。
在参数估计表中,根据饱和模型NA=intercept+β1lxp+β2newD+β3lxp*newD+ε,
截距是lxp和newD取值都为0时的脑神经递质含量,SPSS中默认赋值高水平为参照水平取值为0,因此截距恰好是lxp=1&newD=1时的脑神经递质含量(399.167);[lxp=0]的系数为296.833表示lxp=0&newD=1时的脑神经递质含量(695.335)与截距lxp=1&newD=1的脑神经递质含量(399.167)之间的差值,即lxp在newD=1时的单独效应(SPSS中默认赋值高水平为参照水平导致与直接计算的符号相反);通过这个单独效应和截距,我们也可以知道lxp=0&newD=1时的脑神经递质含量=296.833+399.167=695.335;
[newD=0]的系数为-240.333表示newD=0&lxp=1时的脑神经递质含量(158.833)与截距lxp=1&newD=1的脑神经递质含量(399.167)之间的差值,即newD在lxp=1时的单独效应(同样SPSS中默认赋值高水平为参照水平导致与直接计算的符号相反);通过这个单独效应和截距,我们也可以知道newD=0&lxp=1时的脑神经递质含量=-240.333+399.167=158.833;
交互项[lxp=0]*[newD=0]系数为239刚好是两个因素交互作用的2倍。通过该交互项我们可以直接获得lxp在newD=0时的单独效应:239+296.833=535.834;以及newD在lxp=0时的单独效应:239-240.333=-1.333,已经newD=0&lxp=0时的脑神经递质含量=399.167+296.833-240.333+239=694.667。虽然只要你愿意完全可以通过参数估计表中的系数值推断出各因素的主效应,但含有交互项模型的参数估计表各系数代表的已不再是各因素的的主效应,而是所谓的简单效应,即一个变量在另一个变量的某个水平上的效应。需要注意的是SPSS中对分类变量进行参数估计是采用的哑变量编码(dummy coding),结果可以如此解释,而在JMP中对分类变量采用的是效应编码(effect coding),结果就是另一番理解了。很多时候,我们最终采用的模型不一定是饱和模型,如本例如果交互作用没有统计学意义,为了让模型更简洁,我们可以去掉模型中的交互项获得简约模型。当不存在交互作用时,模型参数估计表中各因素的系数值代表的是各因素的主效应,此时模型检验和参数估计的系数检验结果完全一致,模型检验采用的是方差分析,而参数估计系数检验采用的是t检验,F=t2。但在简约模型中,用于比较的个水平的均值并不完全单元各单元格的均值,而是在控制了其他因素后的边际均值(修正均值)。在过去的几篇笔记中笔者把各种模型的参数估计表中的系数作为主效应来看待,这样严格来说是不欠当的,借此纠正。
这样说来显得啰嗦,我们用回归方程进行简单的数学运算来看一下,可能会有更直观的理解。
在本例中x1是lxp,0表示不使用lxp,1表示使用lxp;x2是newD,0表示不使用newD,1表示使用newD。但由于SPSS采用高水平为参照水平,这导致取值与赋值不相同,x1=0表示使用lxp,x1=1表示不使用lxp;x2=0表示使用newD,x2=1表示不使用newD。
在不含交互项的模型中,系数表示主效应的大小。
β1表示固定或者说控制x2时,x1每改变一个单位(分类变量可以是由x1=0变成x1=1),Y的变化量。简单地计算就可以得知,此时x1的简单效应和主效应是一致的,x1简单效应=β1,x1主效应=2β1/2=β1。同样的β2表示控制x1时,x2每改变一个单位,Y的变化量。
在含有交互项的模型中,系数代表的是简单效应。
在加入交互项后,x1每改变一个单位(分类变量可以是由x1=0变成x1=1),Y的变化量不仅取决于β1,还取决于β3和x2。某个因素的回归系数解读需要加入一定的限定条件,比如“相对于其他因素取某个值时”,也就是说某个因素对结局变量的影响随着另一个因素的变化而变化,其影响的是方程的斜率。
当x2=1,x1每改变一个单位,Y的该变量△y=β1+β3;当x2=0,x1每改变一个单位,Y的该变量△y=β1。本例x2是newD,对于不使用newD的小鼠,lxp每改变一个单位(由使用lxp变为不使用lxp),脑神经递质含量增加量为(β1+β3);对于使用newD的小鼠(x2=0),lxp每改变一个单位(由使用lxp变为不使用lxp),脑神经递质含量增加量为β1。这样β3的含义就很明确了:lxp每改变一个单位(由使用lxp变为不使用lxp)时,使用newD和不使用newD的小鼠脑神经递质含量增加量的差值,或者说差值的差值。当然,交互项可以衡量newD对【lxp与脑神经递质含量关系】的影响,也可以衡量lxp对【newD与脑神经递质含量关系】的影响,取决于研究目的的侧重点在哪里。β2系数的意义推导同上,不再赘述。
转自个人微信公众号【Memo_Cleon】的统计学习笔记:十二分重要:从模型角度理解模型效应与参数估计值。
… E N D …