如何开展线性回归分析? |
多因素线性回归是通俗的说法,更专业的是多重线性回归。现况调查和队列研究,以及实验性研究,多因素回归都是重要的手段,相比,单因素回归,它的结果距离因果关系的目的更进一步了。因此,一般情况下,统计分析只有在进行了多因素回归之后,才说自变量是影响因素,更准确地说是独立的影响因素,而单因素只能探讨相关性,或者探索因果关联性的可能性。
现况调查的分析过程及多因素回归分析的位置
本文结合实例来分析,为什么多因素回归的结果才能拿过来下统计结论?为什么单因素回归和多因素回归结果会不同。
实例分析
例1:研究究高血压患者血压与性别、年龄、身高、体重等变量的关系,随机测量了32名40岁以上的血压y、年龄X1、体重指数X2、性别X3,试建立多重线性回归方程。数据文件见mreg.sav。
1
统计分析策略本研究既然研究多个影响因素,那么必然要考虑多因素的线性回归分析。
(1)多因素线性回归介绍相对简单线性回归(又称单因素线性回归),多因素线性回归,常用的说法包括多重线性回归、多变量线性回归,还有个常用但是不太正确的说法是多元线性回归。
多因素线性回归公式如下:对于样本,
对于总体,
其中,bk、、βk:在多重线性回归中,被称之为偏回归系数(即部分回归系数),表示每个自变量都对y部分的产生了影响。意义与简单线性回归结果相似,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量。
ϵ为残差,无法解释的变异部分。多因素线性回归,参与了更多的自变量来解释y的变异,因此一般残差能控制在较低水平。
(2)能否用多因素回归分析?
对于能否采用回归分析,采用什么样的回归方法,受到以下基本条件制约:自变量x和应变量y理论上有没有因果关系、结局y的资料类型,以及x、y是否存在着线性关系。当然,回归分析必须满足更多的条件。
线性回归总的条件如下:
自变量x和应变量y理论上一般应有因果关系。结局y是定量变量 。各x与y存在着线性关系。此外,还有正态性、独立性方差齐性的条件。本文同日文章进行介绍。
上述高血压的案例上述条件都满足。因此,可以开展多因素线性回归,探讨各个因素对血压的影响。
多因素线性回归SPSS操作
1
线性回归分析入口
线性回归分析SPSS分析入口:分析-回归-线性
2
线性回归主界面
①血压是结果变量,放入因变量②年龄、性别和体重指数是原因变量,放入自变量③选项可以计算预测值和残差
33
多因素线性回归分析的结果
(1) 模型总体评价的调整R^2
模型拟合优度情况的检验,结果显示,决定系数(调整R2值)为0.775,说明对真实世界模拟度还算不错。
(2)模型总体评价的方差分析回归模型的假设检验结果,显示F=36.542,P<0.001,说明所建立的回归模型是有统计学意义的,至少有一个自变量的回归系数不为0。
(3)线性回归方程及其回归系数的评价:
对于本结果,
①回归系数b值,统计学上称为偏回归系数②回归系数的抽样误差,即标准误③Beta值,它是标准化b值,标准化回归系数。可以用来比较各个自变量x对y的影响程度。它回答以下问题:年龄、性别和体重指数,到底谁对y的影响更大。在本例中,年龄对血压的改变影响最大(它解释了血压最大程度的变异)。④t值,是各个回归系数进行假设检验的检验统计量,线性回归检验统计量为t值。⑤显著性:即P值。P<0.05说明自变量与因变量回归关系成立,有关系,有影响。
本研究结果显示,年龄对血压的影响的存在着统计学差异(b=0.99,t=3.22,P<0.001);这意味着年龄每增加一个单位(在本研究中一单位等于一岁),血压将上升0.99个单位
本研究结果显示,BMI对血压的影响的存在着统计学差异(b=1.08,t=2.14,P=0.041);这意味着BMI每增加一个单位,血压将上升1.08个单位
本结果,难以理解的是性别(b=-9.327,P=0.002)。b=-9.327代表什么?到底是男性相对女性,还是女性相对男性?初学者可能比较困惑。b就代表着自变量x每增加一个单位,y改变的量。要理解b值的意思,就需要结合性别在本数据库中的编码。在本例,性别在数据库赋值分别是1和2,也就是x只改变一次,也就是从1到2,b值改变了9.327单位。由于数据库赋值1是男性,2是女性,因此结果是女性相对男性,血压更低;男性是高血压危险因素。
因此,如果自变量是分类数据,一定要观察数据库是如何赋值的,赋值增加一个单位意味着什么,如此才能看懂回归分析结果。
(4)可以通过下表来看预测值和残差结果
在数据库中,可以发现增加了PRE_1(预测值)和RES_1(残差) ,两组相加,刚好是y“血压值”。
上述就是多因素线性回归最基本的SPSS教程,更多的操作,更多的结果解读(比如R^2值,ANOVA分析),请关注后续若干篇文章。
42
多因素回归分析结果表达纳入年龄、体重指数和性别构建多因素线性回归方程。结果发现,不同年龄(岁)对血压的影响有统计学差异(b=0.99,t=3.22,P<0.001),不同的性别(男性较女性)对血压的影响有统计学差异(b=-9.33,t=3.22,P=0.003),不同的体重指数对血压的影响有统计学差异(b=1.08,t=2.14,P=0.041)。
注意,本表其实最好添加b值的95%CI的置信区间。SPSS操作如下:
更多关于多因素回归
1. 为什么多因素回归分析结果和单因素回归分析结果不一致?对于同个自变量,单因素回归和多因素回归结果是不同的。
因此,经常有人问,为什么单因素回归分析P<0.05,多因素回归分析回归系数发生了明显变化,甚至P值甚至变得大于0.05了呢?
这个问题,一直以来困扰着大多数研究者。我今天不成熟地来谈一谈常见的原因(其实很复杂)。
造成该现象的原因在于,多因素回归分析时自变量直接存在相关性,或者很多时候我们说是多重共线性(即使程度很轻)。变量与变量复杂的关系,将影响模型构建的成功率,造成回归系数变动。
单因素线性回归的回归系数,解释是反映的是x对y的影响力,是当X每改变一个观测单位时所引起y的改变量。而多因素回归分析的回归系数解释略有区别,指的是在其它自变量不变的情况下,当x每改变一个观测单位时所引起y的改变量。
若变量之间没有相关,对于某一个自变量而言,多因素和单因素回归分析结果一致;若存在着关系,当控制其它自变量不变时,多因素回归分析结果与单因素回归存在着一定的差异。
比如,对于本例,探讨BMI与结局的关系,单因素结果如下:b=1.506,P<0.001
纳入年龄后,结果截然不同:b=0.564,P=0.064
为什么b发生了巨大改变,而P值从<0.05变为>0.05了呢?
对体重指数来说,年龄是控制变量。它不在回归模型中时,体重指数建立与血压的建立了回归关系,但它们之间关系不一定真实,事实上本例中二者背后因为年龄默默地搭了线(年龄对BMI有影响,同时年龄对血压也有影响),而多因素回归当控制年龄不变时,两者之间的关系就不复存在。年龄就像一个快递员,建立了两组的关系,当快递员罢工时(当控制年龄不变时) ,体重指数和血压再也联系不上了。医学上称年龄为混杂因素。
因此,多因素回归法分析较单因素回归更能有效控制混杂因素,从而更为准确地探讨自变量对因变量的影响。
除了年龄作为混杂因素,干扰了BMI和血压的关系之外,另外一种重要的关系变量,是中间变量或者中介变量。
比如,对于本例,探讨性别与结局的关系,单因素结果如下:b=-14.49,P=0.003
如果纳入BMI后,回归系数发生了改变:b=-11.04,P=0.004
这一现象的发生也是源于自变量BMI与性别之间存在着相关。但这种关系背后,BMI指数不再是混杂变量,而是中介变量。性别对血压的作用一定程度上通过BMI发挥作用,性别改变BMI从而改变血压。BMI是性别和血压因果关系链上的中间变量。BMI是拦路虎,当控制BMI不变时,性别与血压的关系通道将被堵死!
因此,自变量之间的关系造成了单因素回归结果不同于多因素回归结果,主要原因是第三变量的干扰,干扰因素可以分为混杂和中介两种类型。今后诸位如果构建回归方程如果碰到单因素和多因素不一致时,可以从这两个角度来分析原因。
我将在后续文章中,讨论如何在考虑混杂和中介的情况下,构建一个合适的回归模型,敬请留意。
2. 为什么要采用多因素回归,而非单因素回归?
主要原因,有2点:第一,单因素回归无法有效预测结局。线性回归重要的作用是通过回归根据各原因变量预测结局y。我们都知道,真实世界中,一个现象的发生背后原因非常之多,单因素回归,远远不能解释结局发生的变异性,因此,无法有效预测结局变量的y大小,造成遗留的无法解释的残差变异度很高。要预测现象的发生,尽量可能把更多的原因纳入线性回归模型,这样更多的自变量一起,更能够全面描述结局变量的变异性产生原因,从而更好地预测结局。
第二,单因素回归的回归系数不代表真实的x与y的因果关系。回归分析在医学上,另外一个重要功能是探讨影响因素。探讨影响因素,意味着我们希望解释某一个现象发生的原因是什么?有哪一些?影响程度有多大。单因素回归也在探讨以一个候选的、理论上具有因果关系的变量,实际上能否通过回归模型进行验证。但是,单因素回归的回归系数以及P值是一种探索性的分析,不代表着两者真实的因果关系。
实际分析中,单因素回归分析结果和多因素分析结果往往是不同的。因为多因素回归分析结果,是排除了其它干扰因素(主要是混杂因素,但不是中介变量)影响后,自变量对因变量的作用。因此多因素回归,我们可以说自变量是因变量独立的影响因素。这意味着它能够在其它变量不变的情况下,单独地、而非借助第三变量的“光芒”,对结局y产生了影响。
3.线性回归分析要求的条件不少本文提到了线性回归,要求变量之间应具有因果关系、定量数据、线性关系。数据不符合要求者,谨慎开展线性回归分析。除此之外,线性回归还要求正态性、独立性、方差齐性三个条件。我将在后续展开介绍。