方法论衡 | Kennedy等:让IP地址拯救我们的网络问卷
文献来源:Ryan Kennedy et al. (2020). The shape of and solutions to the MTurk quality crisis, Political Science Research and Methods, 8:614–629
主要作者简介:Ryan Kennedy,休斯顿大学政治学系副教授。
引言
除非是拥有固定项目资金来源的团队,想要实现大规模的社会调查是一件费时费力且费资金的事情。同时,高拒访率和自然条件的限制(比如道路、天气包括大规模疫情等)也进一步限制了社会调查的实地执行。互联网调查的兴起方便了社会科学研究者,如美国的MTurk平台,通过在网上征募答题者,并以一定的报酬作为激励手段,让研究者不需要采用面对面访谈的方式收集问卷,既节省了时间,也回收了相对质量较高的数据。
尽管有诸多便利,网上问卷收集平台却会出现各种问题。首先,从网上收集而得的问卷虽然比便利取样要好,但是其样本也不具有普遍的代表性。同时,由于研究者无法控制回答过程,因此应答者是否认真回答问卷并不可知。且在2018年,MTurk出现大量低质量的应答问卷,有研究者怀疑这些问卷是由机器人或者是自动化脚本生成的,相关的问题对网络问卷调查产生了极大冲击。因此,作者通过本文来探究网络问卷调查的质量是否真的会对研究产生影响以及相应的应对措施。
质量危机与影响
作者对来自三个作者的37份研究进行分析,并使用IP Hub对应答者的IP地址进行监测,判断应答者是否来自美国境内(对虚拟服务器VPS进行判断)。对24610名应答者的IP地址进行分析显示,自2018年以来,来自美国境外的应答者迅速增长。图A和图B显示出这种趋势。他们设计了一些问题来识别特定的国籍(比如印度人更倾向于称eggplant(茄子)为brinjal,因此使用茄子的图片来判断应答者是否是印度人),图C是部分应答者的国籍比例。图D则是来自印度和委内瑞拉的应答者数量增长趋势。
显然,上图能够明显地反映出自2018年以来的网络平台问卷调查的质量危机。当然,并不能说来自美国境外的应答者就一定会提供质量较低的回答,而且也有一些情况是部分海外的美国公民使用VPS来回答问卷。但是的确有研究显示,来自不同IP地址的问卷,质量参差不齐。其中问题包括对英语使用得不熟练,确实相应的文化底蕴以及随机应答。因此,作者对问卷进行质量控制检验,包括注意力检验,一致性检验以及开放问题的应答检验。
检验一
作者从MTurk中征募了607名应答者,收集了576份有效问卷。问卷内容包括一些社会人口学变量、意识形态、政治知识、质量控制题项以及一个问卷实验。在注意力检验上,首先,作者在问卷卷首让应答者选择出生年份,卷尾让应答者填写年龄,如果二者不匹配,则归类为低质量问卷。同时,作者让应答者选择他们的居住地(州),并填写居住城市,如果二者不合实际,则归类为低质量问卷,然后作者在卷尾也设置了居住城市的下拉选项,如果答案和作者前面填写的不一致,同样也视作低质量问卷。再次,作者设置了题目让应答者提供一个合理的问卷描述,如果没有设计具体的问卷内容,也视作低质量问卷。最后,作者询问应答者对研究者的看法,那些回答不知所云的都视作低质量问卷。通过五个质量控制设定,作者筛选出了39份(6.8%)低质量问卷。
IP地址识别出了一定数量的VPS使用者和美国境外应答者,对这些来自不同类别的问卷质量进行统计,结果如上图所示,显然,来自美国境内(Valid)的问卷质量普遍较高,使用VPS和来自美国境外的问卷存在近1/4的低质量问卷。
作者发现,平均来说,对一些关于政治和文化知识问题的回答,美国境内的应答者能够答对2.7题,VPS使用者答对的数量更低,而其他类型应答者答对数量和Valid组近似。但是当作者检验答题时间时,Valid组平均应答时间为30秒,VPS使用者和Foreign组应答时间远远超过30秒,说明尽管作者要求应答者不能查询资料,但是他们依然存在欺骗行为。
美国民众的党派归属和意识形态具有很大关联,但是非美国民众则不尽然。Valid组的两个题目相关系数为0.86(强相关),而VPS和Foreign组则只有0.45左右。这一结果也能反映那些非美国的民众和美国民众存在显著的环境差异。
在问卷实验上,作者设置题目让应答者在一些简短的文字段落(Vignette)描述条件下对6个人进行评价,每个文字段落包括10组条件(有一组是控制组)。对九个处理效应的定序最小二乘回归结果如下图所示,左侧为非Valid组的样本对有效样本的图示,右侧为全样本对有效样本的图示。作者的零假设是非Valid样本没有影响(即图中拟合的虚线)。但是实际结果显示,非Valid样本的估计显然是有偏的。而对全样本来说,估计依然是有偏的(斜率为统计显著的0.871)。因此,作者认为,MTurk在质量控制上出现的问题能够显著影响研究者的数据分析。
检验二
作者进一步在MTurk上收集了1440份有效问卷,并设定了注意力检验问题,即让应答者选择特定的答案,如果第一次选错则会收到提示,如果第二次选错则会直接结束问卷。结果显示只有51.9%的人直接通过检验,16.8%的人两次都选错。在剩下来的人中,1053个人在美国境内(Valid组)下图反映了注意力检验与数据质量检验的结果,来自美国境内的低质量问卷数显著小于其他三组。
使用IP Hub的质量控制
作者非常推荐使用IP Hub(商业软件),因为它能够明确定位VPS使用者。相比于IPVOID等软件来说,它不容易被一些运营商通过某些手段避开。其次,IP Hub每日允许1000份免费寻呼,数量上远超其他软件程序(例如AbuseIPDB)。再次,IP Hub返回的数据非常容易处理。最后,IP Hub会直接提供IP地址(包括国家信息)、网络服务提供商和是否是VPS使用的标签。作者也为R和Stata分别开发出了程辑包来方便其他研究者的数据分析。下图是作者提出的算法框图,让研究者在使用MTurk时通过下图的算法来进行质量控制,提升回收问卷的质量。
结论
尽管MTurk在2018年以后出现大量的低质量问卷,这些问卷大多数来自印度和委内瑞拉,然而因为这一原因而放弃MTurk却并不是一个明确的选择。很多研究者受益于这一问卷调查平台,转向另一替代的成本过于高昂,因噎废食并不可取。尽管存在各种问题,但是作者发现了IP地址的影响,并对相关问题进行探索。他们发现来自非美国境内的问卷更有可能存在质量问题,低质量的问卷会导致估计的偏差和错误。因此,作者推荐使用IP Hub来对IP地址进行检测筛选,进一步提高分析结果的有效性。
编译:刘天祥 审读:陆屹洲 编辑:康张城
【政文观止Poliview】系头条号签约作者
你在看政观么