问卷调查常用的SPSS数据分析方法(上篇)
在介绍了问卷设计应注意的问题、量表类问卷及非量表类问卷题项设计后,接下来面临的将是问卷数据分析问题,有很多非统计专业的同学也都在问这个问题,爱马君将结合实例详细讲解问卷数据常用的SPSS统计分析方法,并初步介绍分析时的SPSS软件操作步骤,以便各位同学能够在理解分析方法的同时加以运用。
一、样本描述性分析方法
描述分析包含频数分析与描述性统计分析分析,具体介绍如下:
1.频数分析。显示数据文件中由用户指定的变量的特定值发生的频数,获得某些描述统计量和描述数值范围的统计量,包括有效样本、频数、百分比、累计百分比、有效百分比等。一般适用于单选题、多选题、排序题的分析。如样本背景信息题目(性别、年龄、职业、收入等)多采用频数分析方法进行分析。具体操作方法可参考《SPSS科研统计:频数分析》,多选题频数分析可参考《多重相应分析:问卷调查中多选题的分析方法》。
2.描述性统计分析。描述性分析通常会涉及样本的平均值、算术和、中位数、标准差,最大值、最小值、方差、范围和平均数标准误等,一般适用数值类题目,具体操作方法可参考《SPSS科研统计:描述性统计》。
3.交叉列联频数分析。解决对多变量的各水平组合的频数分析的问题。适用于由两个或两个以上变量进行交叉分类形成的列联表,对变量之间的关联性进行分析。比如要知道不同工作性质的人上班使用交通工具的情况,可以通过交叉分析得到一个二维频数表则一目了然。具体操作方法可参见《SPSS科研统计:列联表分析》。
二、样本信度与效度分析
1.信度分析。主要研究数据是否真实可靠,即被调查者是否真实的回答了问卷的问题。信度分析只能分析量表题项。主要包含克伦巴赫系数、删除后的科克伦巴赫系数、校正的项总计相关性,克伦巴赫系数又称信度系数,该值一般要求不低于0.7(Nummally,1978),如果低于0.7,说明数据的内部一致性不足。删除后的克伦巴赫系数指删除某一变量后计算剩余变量的信度系数,多用于预测试中,如果提出某一数据后发现信度系数提高的话,可根据实际需要考虑是否需要删除该变量。同时,如果要净化题项的话,我们可以利用每个项目和总体的相关系数(校正的项总计相关性,即CITC),在实际应用中,该值至少要大于0.35,如果小于0.35的话,则考虑把该题项删除。也就是说,CITC如果比较小且剔出后会使信度系数值增加的题项则在一定程度上要删除(Yoo & Donthu,2001)。
2.效度分析。效度分析是研究题项是否有效的表达研究变量或者维度的结构效度,一般只能分析量表题目,包含内容效度、结构效度(探索性因子分析与验证性因子分析)。内容效度一般找相关行业类的专家通过文字对问卷内容的合理性、科学性进行说明。结构效度通常采用探索性因子分析与验证性因子分析进行分析,如果数据分析结果与预期基本一致,说明问卷的结构良好。
三、因子分析
因子分析是研究数据结构效度重要方法之一,在统计研究中具有非常重要的地位,分为探索性因子分析与验证性因子分析。以下将分别介绍两种方差的分析思路。
1.探索性因子分析。探索性因子分析法(EFA)是一项用来找出多元观测变量的本质结构、并进行处理降维的技术,能够将具有错综复杂关系的变量综合为少数几个核心因子。多运用于如顾客满意度调查、服务质量调查、顾客及产品行为分类等方面的探索性研究。具体的操作步骤参考《探索性因子分析的原理及步骤》、《调查问卷的SPSS因子分析》。
2.验证性因子分析。验证性因子分析(CFA)是测试一个因子与相对应的测度项之间的关系是否符合研究者所设计的理论关系。在社会调查研究构成中,研究者首先开发调查问卷。对应于每一个研究者所感兴趣的理论变量,问卷中往往有多个问题。比如,研究者对顾客的忠诚度感兴趣,忠诚度可能用购买频率、主观评估、消费比例等多个问题来衡量。这个理论变量就是因子,这些个别问题是测度项。验证性因子分析就是要检验购买频率、主观评估、消费比例是否真的可以反映忠诚度。通常情况下,验证性因子分析主要有以下6个步骤:
(1)定义因子模型。包括选择因子个数和定义因子载荷。因子载荷可以事先定为0或者其它自由变化的常数。或者在一定的约束条件下变化的数(比如与另一载荷相等)。这是和探索性因子分析在分析方法上的一个重要差异,我们可以用一个直观的比喻,也就是说探索性因子分析是在一张白纸上作图,而验证性因子分析是在一张有框架的图上完善和修改。
(2)收集观测值。定义了因子模型以后,我们就可以根据研究目的收集观测值了。这一点与探索性因子分析有一定的相似之处。
(3)获得相关系数矩阵。与探索性因子分析一样,分析都是在原始数据的相关系数矩阵基础上进行的,所以首先就要得到相关系数矩阵。实际上方差协差阵、相似系数矩阵和相关阵之间是可以相互转化的。
(4)根据数据拟合模型。我们需要选择一个方法来估计自由变化的因子载荷。在多元正态的条件下,最常用的是极大似然估计,也可采用渐进分布自由估计。
(5)评价模型是否恰当。这一步可以说是验证性因子分析的核心。当因子模型能够拟合数据时,因子载荷的选择要使模型暗含的相关阵与实际观测阵之间的差异最小。最好的参数被选择以后,差异量能被用来作为衡量模型与数据一致的程度。最常用的模型适应性检验是卡方拟合优度检验。模型评价指标参考值详见下表: