SAS系列39:Logistic回归的交互效应(二)
五、Logistic回归模型的交互效应
研究受教育程序和社区成员政治参与的关系,假设相对了教育程度低的人而言,教育程度越高的人更有可能参与投票,以及这种关系在不同种族中是否有区别。研究者就调查了美国黑人、西班牙裔和白人的教育程度和投票行为,因变量是是否参与投票。教育年限(定量变量)为关键自变量,种族(定性变量)是调节变量。所有种族在分析中要设为哑变量,Raceblack和Racehispanic,白人是参照组。种族的哑变量和教育年限(Education)交互产生两个乘积项,那么在Logistic回归模型中就有5个自变量:Raceblack、Racehispanic、Education、Raceblack*Education、Racehispanic*Education。表11-11列出了Logistic回归模型的回归系数、OR值及其95%的可信区间。
表11-11 定性和定量变量交互效应
表11-11中的模型1是以白人为参照组的Logistic回归模型。模型中的教育年限是关键自变量,种族是调节变量。模型中的截距项对应的OR值是5.3026,指一个受了10年教育的白人,参与投票的概率是不投票概率的5.3026倍;
教育年限的回归系数是0.4556,此时回归系数不能理解为“主效应”,而理解为“条件效应”,即调节变量为0时的效应;OR值是1.5772,意义是指相对于白人,教育年限每增加一个单位,投票的发生比是原来的1.5772倍,其95%CI是(1.3003,1.9129),没有包含1,说明教育年限的作用是有统计学意义的。
当Logistic回归模型中含有定量(关键自变量)、定性变量(调节自变量)、以及定量/定性变量的交互效应时,那么定量变量的Logistic回归模型的OR值是一个乘积因子,其意义是指定量变量每增加一个单位,定性变量的参照组发生比的变化速度。如对于一个白人来说,教育年限增加一个单位时,投票的发生比为5.3026/1.5772=8.3633;如果增加两个单位时,投票的发生比为8.3633/1.5772=13.1906。
如果要研究教育年限对投票的作用在三个种族中是否相同,可以重新定义参照组,再进行变量赋值,生成新的交互项,再构建Logistic回归。表11-11中的模型2和模型3 分别以西班牙裔和美国黑人为参照组构建的模型。如果教育年限的效应对三个种族是一样的,即不存在交互效应,那么3个种族的乘积因子也应当相同。如果乘积因子相同,那么两个乘积因子的比值应等于1或接近1,如果越远离1,他们的相差就越大。
表11-12 3个种族乘积因子及其95%可信区间
表11-12列出了3个种族的乘积因子及其95%可信区间,通过计算2个种族间乘积因子比值可以比较两者之间的差异,例如:
美国黑人与白人:1.2919/1.5772=0.8191
西班牙裔与白人:2.4942/1.5772=1.5814
白人与与西班牙裔:1.5772/2.4942=0.6323
美国黑人与西班牙裔:1.2919/2.4942=0.5180
白人与美国黑人:1.5772/1.2919=1.2208
西班牙裔与美国黑人:2.4942/1.2919=1.9306
由以上计算结果可以知道计算的比值与模型1、模型2、模型3中的交互效应的回归系数相同。模型1为例,美国黑人的乘积因子与白人的比值是0.8191,接近于1,其OR值的95%可信区间为(0.6522,1.0288),包含了1,说明这两个乘积因子的差异没有统计学意义。由此可知,在变换参照组后,交互项的回归系数相应改变,但是多项交互效应的多层检验结果不会改变。
SAS系列推文
----------------------------------------------
----------------------------------------------
精鼎特邀