Logistic回归模型为什么要先做单因素,然后做多因素
关键词:logistic回归模型,二元logistic回归模型,单因素logistic回归,多因素logistic回归
有的文献上是直接做卡方检验有意义的再进入回归模型,但是有的是Logistic 单因素分析,然后在进行多因素分析,不知道这个操作过程在SPSS中如何实现? 还有这两种方法的区别是什么,还有我不知道Logistic 回归单因素分析怎么在SPSS中操作.
logistic回归在分析时是否必须按照“单因素—多因素”的分析过程,是否必须先进行单因素分析,然后才能进行多因素分析?单因素分析是否必须的?
这一问题是一个很实际的,许多人在分析时总是不知道如何下手?以下阐述一下我个人的意见,不一定正确,纯属个人心得。
理论上讲,在样本足够大的情况下,最好把所有的因素都放到方程中,以矫正所有可能的混杂因素,但这是有条件的,即必须所有的这些因素之间无相关,且样本足够大。而实际中,因素之间不可能是毫无相关的。当然,这种相关程度也不一样。如果所有的因素之间相关程度都非常低,最好是没有相关,那这时我可以把所有的变量都放在方程中同时进行分析,可以不做单因素分析。
如果你的例数不够多,比如,你有100例,但是有20个因素,那这时你如果把所有因素放在方程中,结果肯定要出问题。这种情况下,最好先进行单因素分析,筛选出一部分变量,将有意义的变量放入方程进行多因素分析。当然,单因素分析时最好将p值放宽一些,比如0.1或0.15等。避免漏掉一些重要因素。
真正进行多因素分析时,是很复杂的,需要仔细验证各个因素之间的关系,一旦发现因素之间有关系,需要仔细分析。如果某一因素放入方程中后,前面的几个变量变化比较大,那就需要小心了。仔细探讨因素之间存在何种关系。
总之,如果样本不多而变量较多,可以先进行单因素分析,筛掉一些可能无意义的变量,然后进行多因素分析,这样可以保证结果更加可靠些。即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,弄清楚自变量进入方程的形式,这样才能有效的进行分析。
不论任何情况,分析时必须具体问题具体分析,不能一概而论,更不能套用。即使目的相同、变量相同的数据,也不一定分析结果会一样,因为总会有抽样误差存在的,设计的好坏是不一样的。所以千万不要看一篇类似的文章,然后照搬上面的分析步骤和分析方法,这是不可取的。