有趣的统计学小知识——误差

视听率调查在我国已有二十余年发展历史,借助于统计学的创立和日臻成熟,视听率调查得以借助较少的样本对一个城市、省乃至全国的受众的视听行为进行推断。可以说,在视听率调查的整个流程中,统计学的理论和方法贯穿在从样本量确定、抽样方法的制定、抽样的执行乃至于数据处理的每一个环节中,在接下来的几期中,我们即以此为切入点,对视听率调查中蕴含的统计学小知识加以介绍。

本期介绍的概念是误差。传统收视率调查是一种抽样调查,是从研究对象的全部单位中抽取一部分单位进行考察和分析,并用这部分单位的数量特征去推断总体的数量特征的一种调查方法[1]。与抽样调查相对应,近年来随着数据技术的迅猛发展,大数据日益融入受众的生活日常。大数据的“大”不仅是就其数据量本身而言,更重要的是其所宣扬的“要总体而非样本”的数据采集理念。抽样调查由于只抽取部分样本对总体进行推断,因而不可避免存在着一定的误差;而大数据因为强调的是全量调查,所以有大数据搜集者宣称其已经没有误差。但是事实真是如此吗?

伴随着抽样调查方法、大数据运用等在社会统计中的适用范围不断扩大,研究者一直致力于调查质量的不断提升,而在各种调查方法中,基于不同的操作和原因,会产生如下三种误差[2]。

第一种误差是抽样误差(Sampling Error)。抽样误差是由于只抽取部分群体进行调查(非普查)而造成的误差,抽样误差不可避免,但是可以通过科学的抽样设计和样本量的提升将其控制在允许的范围之内,并且抽样误差是可以计算的。

第二种误差是覆盖误差(Coverage Error)。覆盖误差主要是指在确定抽样框时,因一些目标群体没有被包括进抽样框而造成的undercoverage。

第三种误差是无应答误差(Nonresponse Error)。无应答误差是指当应答者和无应答者之间存在差异的时候所造成的误差。无应答分为两种情况,受访者拒访的“个体无应答”,受访者不愿意回答某些题目的“项目无应答”。

可以看到,在传统的小样本抽样调查中,第一种误差(抽样误差)是不可避免的,但可以通过抽样设计的精进和样本量的提升大大降低抽样误差,如CSM所采取的多阶段、PPS、整群抽样较简单随机抽样能进一步提高精度,且近年来CSM也一直致力于不同调查区域样本量的提升,许多单城市的样本量已经达到500-1000户,实际的抽样误差远低于3%这个成本与精度的平衡标准。相对而言,号称全体数据的大数据,其数据量的急剧增加所能降低的抽样误差其实是比较有限的,较抽样调查而言并不经济。

而大数据也并非如传说中的完美无瑕。实践中,大数据中出现第二种误差(覆盖误差)的情况并不少见,最著名的如当年美国“兰顿总统”事件由于调查的1000万人与研究总体不对应而产生的覆盖偏差。“数据规模N=全部”并不成立,我们能获取到的数据,仍然只是一些有着或多或少偏差的样本数据[3]。大数据的“大”更容易使人忽视抽样框(大数据使用者往往称其为全体)选择不当而导致的代表性问题。尽管传统抽样调查也可能产生覆盖误差,但科学的抽样设计在一定程度上能减少这种误差,但是大数据的覆盖误差问题比传统抽样调查更严重、更隐蔽。

在大规模的以人群为基础的调查研究中心,项目无应答现象普遍存在,第三种无应答误差也不可避免,如调查对象拒绝回答或忘记某项或某些问题、结局变量的缺失、回答变量不可用等,这在一定程度上会导致估计偏性或降低统计效率[4]。收视率固定样组调查,成功建立的固定样组,相当于已经将不愿意配合或参加调查的群体排除,且随着技术的发展而不断更新的收视测量设备,不断降低被调查者配合的难度,大大减少了无应答误差。在实际应用中,成功回传数据的样户比例达到一定的标准(通常在90%以上),才生成商业化的视听率数据,同时通过后期的加权也可以降低无应答带来的偏差。而大数据是对痕迹的自动记录,本身不具备甄别和筛选功能,不仅会受到大量没有实际意义、无价值甚至虚假信息的干扰,同时对于研究有重大意义的个体或者项目信息的缺失也无从得知,误差更加难以控制。

上述三种误差是传统抽样调查数据和当前发展得如火如荼的大数据都不可避免存在的误差,第一种误差属于抽样误差,可知可控但不可避免;后两种误差则都属于非抽样误差,相较于抽样误差而言更加复杂且难以测量。仅以数据量的大小来评判数据本身的优劣,难免有失偏颇,而通过更加严谨的方法和手段尽量减少各种误差,提高分析和预测的精度才是数据分析的应有之义。

[1]百度百科:https://baike.baidu.com/item/%E6%8A%BD%E6%A0%B7%E8%B0%83%E6%9F%A5%E6%B3%95/1337766

[2]整理自《Internet, Phone, Mail and Mixed-Mode Surveys: The Tailored Design Method》第一章,2014年第四版,by Don A. Dillman。

[3]https://blog.csdn.net/a_step_further/article/details/51043238

[4]刘世炜王春平杨功焕:《调查研究中心项目无应答误差的识别与处理》,《中国卫生统计》,2008年第2期。

《有用的统计学》: 抽样调查与误差

(0)

相关推荐

  • 统计学基础知识

    本篇归纳统计学基础知识,包括一些基础理论.概念.方法等,作为数据分析的前置知识. 概述 统计学的概念 什么是统计学? 统计学是关于收集.处理.分析.解释数据并从数据中得出结论的科学 数据收集也就是取得 ...

  • 有趣的历史小知识!(76)从游戏中寻找那...

    有趣的历史小知识!(76) 从游戏中寻找那些有意思的历史小知识 老刘家的复仇 西晋的开国皇帝晋武帝司马炎在代魏的过程中打着为汉朝报仇的口号,当然最终还是自己称帝登基,一统天下. 西晋统一没多久就发生了 ...

  • 有趣的历史小知识!(75)从游戏中寻找那...

    有趣的历史小知识!(75) 从游戏中寻找那些有意思的历史小知识 武经七书 <武经七书>是北宋朝廷作为官书颁行的兵法丛书,是中国古代第一部军事教科书.它由<孙子兵法><吴子 ...

  • 有趣的历史小知识!(74)从游戏中寻找那...

    有趣的历史小知识!(74) 从游戏中寻找那些有意思的历史小知识 李杜 提到李杜,除了大家熟知的诗仙李白和诗圣杜甫之外,还有被称为小李杜的李商隐和杜牧.不过在东汉时期,也有李杜CP,他们就是时称小李杜的 ...

  • 有趣的历史小知识!(73)从游戏中寻找那...

    有趣的历史小知识!(73) 从游戏中寻找那些有意思的历史小知识 五废六立 五废六立说的是晋惠帝司马衷和前赵末帝刘曜的皇后羊献容的人生经历. 羊献容出身泰山羊氏,晋惠帝司马衷的皇后,八王之乱时期,几经废 ...

  • 有趣的历史小知识!(72)从游戏中寻找那...

    靖康之耻 靖康之耻是北宋末年,金朝南下攻取北宋首都东京,掳走徽.钦二帝,导致北宋灭亡的历史事件. 北宋宣和七年,金军分东.西两路南下攻打宋朝.东路由完颜干离不领军攻燕京.西路由粘罕领军直扑太原.东路金 ...

  • 有趣的历史小知识!(71)从游戏中寻找那...

    有趣的历史小知识!(71) 从游戏中寻找那些有意思的历史小知识 三藩之乱 三藩指清初吴三桂.耿精忠.尚可喜三位藩王所辖藩镇.清朝初年,由于清朝统治者力量尚不足以直接控制南方各省,因此将汉人降将有功者分 ...

  • 有趣的历史小知识!(70)从游戏中寻找那...

    从游戏中寻找那些有意思的历史小知识 龙阳之癖 龙阳之癖,指代男子对同性的爱好,典故出自<战国策·魏策>中魏安釐王与龙阳君的一段记载. 魏王与龙阳君为同性恋者,同床共枕,甚为宠爱.一日,魏王 ...

  • 有趣的历史小知识!(69)从游戏中寻找那...

    有趣的历史小知识!(69) 从游戏中寻找那些有意思的历史小知识 战国四公子 战国四公子指孟尝君田文.平原君赵胜.信陵君魏无忌与春申君黄歇.战国时代末期,秦国越来越强大,各诸侯国贵族为了对付秦国的入侵和 ...

  • 三个让人觉得很有趣的书法小知识!

    (一)龙眼和凤眼: 所谓"龙眼""凤眼",是一些故弄玄虚的说法,实际上是最要不得的. "龙眼"执法,是食指.中指只用指尖作弧形攥住笔管前面, ...