被访者驱动抽样的评估、批评和改进
社论前沿
关注国际顶级刊物,聚焦前沿理论方法。07-23 09:19
摘要:RDS是一种广泛使用的网络抽样方法,它采用链接跟踪设计来提供统计推断的基础。关于RDS的文献很多,但许多重要的研究问题仍然没有解决,包括如何在可选的RDS估计方法中进行最佳选择,如何改进现有的估计方法减少对与事实相反的假设的依赖,以及如何最好地计算估计值的变异性。
这是社论前沿第S1704次推送
微信号:shelunqianyan
介绍
被访者驱动抽样(RDS)是Heckathorn提出的一种网络抽样形式,它结合了多样性和链式追踪方法。它之所以变得流行,是因为提供了一种手段,通过该手段可以对样本进行数学(参数)调整,以补偿由网络结构产生的偏差,从而获得某种形式的概率样本。
RDS大受欢迎在很大程度上要归功于这样一个事实,即它是对难以接触到的人群进行抽样的一种具有成本效益的快速手段,这一问题在社会科学和卫生科学领域受到了越来越多的关注。本期推送集中于RDS评估方法的优缺点、方法创新,以及未来工作重点。
被访者驱动抽样
RDS是在滚雪球抽样受到挑战的背景下发展出来的一种新的链接追踪方法。最初的RDS论文采用同伴招募过程的马尔可夫模型,模型使用来自同伴招募数据来估计跨组招募的概率。这些概率被组织到招募矩阵中,指定每个组的成员的概率,从他们自己组和每个其他组招募成员。这些概率作为马尔可夫模型的转移概率。
模型表明,当样本一层一层地推广时,它接近一个与起点无关的平衡,也就是说,它与开始时的指定种子的方便样本无关。这意味着,如果层数足够大,任何种子的选择最终都会产生相同的平衡样本组成。
因此,RDS基于这样一种观点,即初始样本是否随机并不重要,只要层数达到足以消除初始选择种子的偏差的恒定值,而且,分析表明,种子的偏差是按年龄而不是算术速率减少的,这一特征加速了偏差的减少。
然而,该方法的一个重要限制是:招募层数实际上总是受限的,这意味着只有在同质性不极端的情况下,才会达到平衡。也就是说,当群体间的边界几乎无法跨越时,即使同质性条件被证明是相等的,也应该使用RDS从这些群体内提取样本,而不是跨越它们。
Heckathorn在2002年介绍了一种新的RDS人口估计方法。估计者不仅根据招募矩阵的数据,而且根据自我报告的网络规模,既补偿了不同群体之间同质性的差异,也补偿了不同群体之间平均度(即个人网络规模)的差异。这是通过所谓的互惠模式实现的。基本的想法是,在RDS中,受访者招募熟人、朋友和亲戚,因此他们的关系往往是互惠的。因此,连接任何两个群体的纽带在两个方向上的数量必须相同。
Heckathorn在2004导出Salganik-Heckathorn RDS估计量,证明了当满足1/[样本大小]的方法假设时,该RDS估计量是渐近无偏的,并且在相当大的样本中偏差较小。为使该方法产生渐近无偏总体估计所必须满足的假设规范,需要六个假设:
1.受访者彼此认识,是目标人群中的一员。
2.目标人群的网络形成单一。
3.采样与替换同时进行。
4.受访者可以准确地报告他们的个人网络规模。
5.受访者从个人网络中随机招募。
6.被调查者只招募一名员工,所以招募效果在不同的群体中是一致的。
前五个假设为RDS何时是合适的方法和合适的研究设计提供了指导。第六个假设经常是反事实的,因为一些群体比其他群体招募更有效是很常见的。因此,这些假设已经成为许多研究工作讨论的主题,以便能最小化或消除潜在偏差。
RDS现有估计方法
1.Volz-Heckathorn:RDS II
Volz和Heckathorn在2008的一篇论文中进一步发展了RDS方法。他们基于网络原理导出了Volz-Heckathorn RDS估计方法。开创性的见解是,当招募模式在不同群体中统一时,受访者被按照他们的度(即他们的网络规模)成比例地抽样,因此可以通过他们的度的倒数来加权。结果是一个类似于多重性方法的估计方法,但有一些显著的区别,即来自种子的度数据被视为缺失,因为它们通常由方便的样本组成,而不是由同行招募的。为了区别于原来的RDS估计方法,新的估计方法被命名为“RDS II”。
2.基于逐次抽样的估计量
Gile提出了RDS II估计量的一个扩展,它的优点是可以从采样替换假设中控制偏差。鉴于上述假设3总是与事实相反,消除这一偏差来源的估计方法具有明显的价值。
Gile的连续抽样(SS)估计方法是基于顺序抽样的。为了说明其工作原理,可以以电话簿中抽英文姓名做例子。在顺序抽样中,每次选择姓名后,从电话簿中删除该姓名时,要重新计算电话簿的姓名数量和每个姓名的度。这样,无论抽样比例是多少,从样本中得出的估计值都是无偏的。例如,当已经选择了大多数名字时,其余的名字将倾向于具有较少的字母数量,这不会以任何方式偏离任何的顺序抽样估计。
但该方法的局限性在于它需要知道样本的大小和度分布。当应用于隐藏的人群时,根据定义,其规模是未知的,因此,这一假设是有问题的。Gile进行的敏感性分析表明,如果人口规模估计的误差在20%或更少,偏差就很小。然而,对隐藏人口的研究有时表明,关键线人的估计可能不那么准确。
顺序抽样估计方法的第二个限制是,对于相当小的抽样比例(即20%或更低),无替换假设产生的偏差可以忽略不计,而对于较大的抽样比例(即40%或更低),偏差对总体估计的方差贡献很小。这些研究说明了RDS估计者不需要从采样与替换假设中控制偏差的情况。
3.Gile-Handcock模型辅助估计方法
当样本链条不够长或同源性太严重时,Gile-Handcock模型辅助估计方法可以控制对种子选择过程的依赖,从而减弱种子对样本组成的影响。模型辅助方法采用指数随机图模型,合并了底层网络群体的节点度、属性值和同质性。网络模型以从RDS样本估计的网络特性为条件,并且RDS点估计基于从网络模型估计的采样权重。
4.双组件(DUAL-COMPONENT)RDS
有种情况,一些群体比其他群体招募更有效,因此他们独特的招募模式在样本中被过多地反映出来。更正式地说,差异化招募偏差(DRB)是当一个群体比其他群体招募更有效的时候出现的,这种差异化招募有效性(DRE)与差异化招募模式(DRP)相结合,例如偏爱组内招募而不是组外招聘。因此,DRB的两个条件是DRE和DRP的组合。对DRB的控制是通过将RDS抽样权重W除以n个基于个体的度(称为度组件(DC))和基于组的权重(RC)来实现的。
双组件模型的一个好处是,它消除了上述第六个假设。第二个好处是,它通过在度估计中控制DRB来改进对组网络大小的估计。这涉及用RDS方法特有的多重性和联系追踪方法的组合取代先前的多重性方法来估计度。第三个好处是,它还减少了对RDS研究设计的限制,允许多阶段设计更有效地对社交网络的低密度部分进行采样。
5.链接的自我网络
链接的自我网络方法从每个被访者那里收集关于其自我网络变动数据。RDS提供了一个估计包含概率的框架,而链接的自我网络方法将这种计算扩展到计算每个新招募的变动概率。不是仅仅依赖于观察到的招募模式,而是使用自我网络组成、使用自我报告的计数或比例数据来计算转移概率。
链接的自我网络估计控制了差异化招募,并且对有偏差和漏报的变更具有相当的稳健性。链接的自我网络方法的局限性是假设受访者可以正确地报告其同龄人的状态。虽然可以准确地报告各种人口统计和身份属性,但通过自我网络调查可能无法获得有关健康或私人行为的信息。如果可行,链接的自我网络估计方法可以与其他RDS估计方法同时使用。
RDS的评估、批评和改进
越来越多的文献评估了可用的RDS估计方法,确定了偏差的来源,批评了现有的研究设计,并提出了新的改进措施来解决未解决的问题。最初的RDS文章包括一个来自两个相邻城市的数据集,这些城市只有微弱的网络连接-不到网络连接的1%。这产生了极高的同质性断裂点。同质性如此极端,以至于接近平衡将需要70多次招募层数。
这种高度同质性断点被称为瓶颈。Gile等人提供了一种有用的手段来确定这种瓶颈,称为瓶颈图。本质上,它分析了每一组链条的平均组成,因为它从一层扩展到另一层。在存在瓶颈的情况下,一些链条将会聚在相当不同的平衡点,这表明它们正被困在不同的群体中。相反,在没有瓶颈的情况下,所有的种子都将在大致相同的聚合点收敛,这表明每个链条的子样本来自相同的群体。识别这样的瓶颈非常重要,它们甚至可能扭曲对数据集中其他变量的估计。
第二个建议是严格限制分支机构,即限制招募配额,使每个受访者只能招聘有限数量的同行。但是,这个建议的有用性取决于系统的同质性水平。Goel和Salganik使用每组90%的组内招募的假设数据集发现,将配额从1改为0到4的范围极大地扩大了估计的置信区间,以至于有效样本量减少了70%以上。换言之,设计效果提高了两倍多。
此外,相对于基于模型的Salganik-Heckathorn估计,Volz-Heckathorn度估计的性能更优越。这是他们构建的网络中招募方式的产物,在RDS模拟研究中很常见,他们使用单一的非分支招募链。这具有排除差异招募的效果。从双组件模型的观点来看,招募构成必须具有中性值,因此抽样权重完全取决于度构成,在这种情况下,Volz-Heckathorn估计量将与基于Salganik-Heckathorn模型的估计量收敛。Salganik-Heckathorn模型所依赖的额外数据只会在估计中充当潜在的噪声源。
对RDS的常见批评是,它的有效性取决于多个假设,而这些假设在该领域往往不成立。最近的一篇论文说明了如何通过在RDS估计方法中进行适当的调整来减少对反事实假设的依赖。第一种是开发一种不参与估计方法,它控制所谓的不参与的偏差,即受访者接受招募优惠券,但随后决定不参与研究。参与的差异可能由多种因素引起,例如当交通工具有限时,到面试地点的距离不同,或被认为对某些受访者群体构成威胁等等。这个问题的解决依赖于开发一种可以并入估计方法的不参与率的度量方法。
第二种是开发不对称性估计方法,控制因地位差异导致招募模式不对称时的偏差。例如,地位高的受访者可能是不愿接受地位较低者的招募,或者某些团体可能不愿意被其他团体招募。这些方法可以用来减少由于违反RDS模型中的其他假设而产生的偏差。
讨论
RDS发展还处于初级阶段,因此,许多重要的研究问题仍然悬而未决。目前,对于哪种替代点估计方法是最好的,还没有达成共识。考虑到不同的估计方法基于对数据集结构的不同假设,并且依赖于不同类型的数据,很可能没有一个单一的估计方法在所有情况下都是最优的。
关于RDS最大的悬而未决的问题是方差估计。基于不同形式的自助法(Bootstrap)或分析方法,已经提出了几种不同的方案。研究RDS估计量方差的一个重要工具是使用人工数据集。当使用从隐藏总体中提取的实际数据集时,不可能知道特定方差估计的有效性和可靠性。相反,通过使用具有已知参数的人工收缩网络,可以绘制多个模拟的RDS多重采样。然后,根据多重采样集合计算的点估计的方差,提供评估RDS样本方差的黄金标准。
然而,它是否能达到这一标准取决于提取子样本的网络结构是否在本质上与RDS通常应用到的隐藏人群的结构相对应。尽管如此,这些结果还是有指导意义的,至少它们提供了比较计算方差的其他方法的手段。虽然重要的未决问题仍然存在,但RDS在方法创新方面的推动,仍然使其成为隐藏人群最实用的抽样方法。
文献来源:
Heckathorn, D. D., & Cameron, C. J. (2017). Network Sampling: From Snowball and Multiplicity to Respondent-Driven Sampling. Annual Review of Sociology, 43(1), 101–119. doi:10.1146/annurev-soc-060116-053556.