SAS系列37:Logistic回归模型与SAS实现(二)
上一期介绍了非条件Logistic回归的SAS实现,今天介绍条件Logistic回归的SAS实现。
三、Logistic回归模型的SAS实现
2. 条件Logistic回归模型
某北方城市研究喉癌发病的危险因素,用1:2匹配的病例-对照研究方法进行了调查,现选取了6个可能的危险因素并节录25对数据(数据来源于孙振球主编《医学统计学》第四版)。各因素的赋值说明见表11-7。
表11-7 喉癌危险因素赋值表
/*PHREG没有DES选择项,将CASE转换成对照为1,病例为0,这样可以求出CASE=1的概率*/
DATA LOG2;
SET LOG1;
CASE=1-CASE;
RUN;
PROC PHREG DATA=LOG2;
MODEL CASE=PHARYNGITIS SOMKING SOUND VEGE FCH/TIES=DISCRETE RISKLIMITS;
STRATA CODE;
RUN;
图11-22 条件Logistic回归模型检验结果
图11-23 条件Logistic模型最大似然估计结果
条件Logistic回归模型的过程步一般应用生存数据风险回归分析的PROC PHREG过程步。该数据应用逐步回归筛选了4个变量进入模型。图11-11的回归模型检验结果显示:自变量吸烟、声嘶史、摄食新鲜蔬菜、癌症家庭史对喉部的影响有统计学意义,其中摄食新鲜蔬菜是保护因素。
四、Logistic回归模型的注意事项
数据必须来自于随机样本;因变量Yi与被假设为K个自变量xki的函数;logistic回归的多重共线性问题;logistic回归的因变量是分类变量,自变量可以是连续变量,也可以是离散变量或虚拟变量;不要求自变量间存在多元正态分布,但是,自变量间存在多元正态分布能够增加模型的功效。
Logistic回归的所有统计推断都建立在大样本基础上,因此要求有足够的样本含量。经验上来说,病例和对照人数应至少各有30~50例,模型中的自变量越多样本量也越大。对于配对资料,样本量应是纳入模型中自变量个数的20倍以上。也有人提出,多元Logistic回归模型的样本含量应是模型中自变量个数的10~20倍。
当因变量是多个类别时,需要要对所拟合的模型进行平行性检验,即检验各个自变量在不同累计概率的回归系数是否相同。SAS软件采用似然比方法检验不同累计概率曲线是否平行。当平行性假设不能满足时,说明资料不适合大序Logistic回归模型,应采用多分类Logistic回归模型。
研究者通常通过在模型中纳入一系列自变量,再通过剔除统计学上无统计学意义的变量或系数接近于零或影响甚微的变量,从而找到最简洁且能够解释因变量的模型。但是在删减变量时一定要谨慎,删减变量的好处在于节约了一个自由度,得到了更简洁的模型,但其缺点是可能导致模型设定错误,从而影响回归系数的解释。因此,在样本量很大时,节约几个自由度带来的统计力的提高就不那么重要了,而模型设定错误带来的风险更需要重视,在这种情况下删减变量必须十分谨慎。
分析非实验数据时,在回归模型中加入交互效应是一种常用的方法。在Logistic回归模型中加入交互效应最常用的方法就是加入一个乘积项。当Logistic回归中含有虚拟变量的交互项时,虚拟变量的系数就不再是传统意义上的“主效应”,而是指当调节变量取值是0时,该虚拟变量中赋值为1的组与对照组的发生比值比,交互项系数的指数值则是两个优比的比值。
Logistic回归模型在医学研究中应用非常广泛,常用于流行病学的病因学研究筛选危险因素,校正混杂因素,预测疾病或事件发生的概率,判别分类,分析药物或毒物的剂量反应关系等。
整理不易,欢迎点亮再看哦!
参考文献:
[1] 高惠璇. SAS系统SAS/STAT软件使用手册[M]. 北京:中国统计出版社, 1997.
[2] 孙振球, 徐勇勇. 医学统计学[M].北京:人民卫生出版社, 2014.
[3] 张家放. 医用多元统计方法[M]. 武汉:华中科技大学出版社, 2002.
[4] 武松. SPSS实战与统计思维[M]. 北京:清华大学出版社, 2017.
SAS系列推文
----------------------------------------------
----------------------------------------------
精鼎特邀