统计学基础知识
本篇归纳统计学基础知识,包括一些基础理论、概念、方法等,作为数据分析的前置知识。
概述
统计学的概念
什么是统计学?
统计学是关于收集、处理、分析、解释数据并从数据中得出结论的科学
数据收集也就是取得统计数据
数据处理是将数据用图表等形式展示出来
数据分析则是通过统计方法研究数据
并从数据中提取有用信息以帮助决策
数据分析方法可分为描述统计方法和推断统计方法。
描述统计内容包括如何收集、整理数据,如何用图表展示数据,如何用特征值综合、概括与分析所研究的数据
推断统计内容包括如何利用样本数据来推断总体特征的综合方法。包括参数估计、假设检验、方差分析、相关与回归分析和时间序列分析等等。
统计分析方法应用于各行各业和各个领域。
统计数据的类型
1.按照所采用的计量尺度不同,统计数据可以分为分类数据、顺序数据和数值型数据。
分类数据: 只能归于某一类别的非数字型数据;
顺序数据: 只能归于某一有序类别的非数字型数据;
数值型数据: 按数字尺度测量的观测值。
其中:
分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,也可称为定性数据或称为品质数据;
数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也称为定量数据或数量数据。
2.按照统计数据收集方法,可分为观测数据和实验数据。
观测数据:通过调查或观测而收集到的数据;
实验数据:在实验中控制实验对象而收集到的数据。
3.按照被描述的现象与时间的关系,统计数据分为截面数据和时间序列数据。
截面数据:在相同或近似相同的时间点上收集的数据:
时间序列数据:在不同时间上收集到的数据。
区分数据的类型十分重要,因为不同类型数据,需要采用不同的统计方法来处理和分析。
统计中的几个基本概念
总体: 统计所研究事物的全体。
即包含所研究的全部个体(数据)的集合。
组成总体的每一个个体(元素)称为总体单位。
总体根据其所包含的单位数目是否可数,可分为有限总体和无限总体。
样本: 从总体中抽取的一部分元素的集合。
构成样本的元素的数目,称为样本量或称为样本容量。
从总体中抽取一部分元素作为样本,目的是要根据样本提供的有关信息去推断总体的特征。
参数: 用来描述总体特征的概括性数字度量。
所关心的参数通常有总体平均数、总体标准差、总体比例等。
总体参数通常用希腊字母表示,如 δ。
统计量: 用来描述样本特征的概括性数字度量。
是根据样本数据计算出来的一个量,它是样本的函数。
通常关心的统计量有样本平均数、样本标准差、样本比例等。
样本统计量通常用英文字母来表示。如x-(x bar)、S、P 等。
抽样的目的就是要根据样本统计量去估计总体参数。
除了以上的统计量外,还有一些是为统计分析的需要而构造出来的统计量,比如用于统计检验的 Z 统计量、t 统计量、F 统计量等。
变量: 说明现象某种特征的名称。分为:
分类型变量
顺序型变量
数值型变量。
数值型变量根据取值不同,可分为离散型变量和连续型变量。
离散变量: 只能取有限个值,而且取值都以整数断开,变量值可以一一列举;
连续变量: 取值是连续不断的,可以在一个或多个区间中取任何值,而且取值可以用小数断开,变量值不能一一列举。
多数情况下,所说的变量主要是指数值型变量,大多数统计方法所处理的也都是数值型变量。
数据收集
数据来源
数据的间接来源: 从使用者角度看,来源于别人调查或实验的数据,也称为第二手数据。
主要是公开出版或公开报道的数据
主要来源于报刊、杂志、图书、广播、电视和网络等。
数据的直接来源: 从使用者角度看,来源于直接的调查和科学实验的数据,也称为第一手数据。
主要是通过统计调查的方法获得直接数据。
实际中常用的统计调查方式主要有抽样调查、普查、统计报表等。
抽样调查: 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。
其特点: 经济性、时效性强、适应面广和准确性高。
普查: 为特定目的而专门组织的全面调查。
它主要用于收集处于某一时点状态上的社会经济现象的数据。
目的是掌握特定社会经济现象的全貌,为国家制定有关政策或措施提供依据。
统计报表: 按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的调查方式。
在我国已经形成了一套比较完备的统计报表制度,已成为国家和地方政府部门统计数据的主要来源。
调查方案的结构
在收集数据之前,需要制定出一个收集数据的计划,这个计划称为调
查方案。调查方案的结构大体包括:
调查目的。
是调查所要达到的具体目标, 它所要回答的是「为什么调查?」要解决什么样的问题等。
调查对象和调查单位。
调查对象是根据调查目的确定的调查研究的总体或调查范围。
调查单位是构成调查对象中的每一个单位,它是调查项目和调查内容的承担者或载体,也是我们收集数据、分析数据的基本单位。
调查对象和调查单位所解决的是“向谁调查”,由谁来提供所需数据。
调查项目和调查表。
调查项目要解决的问题是“调查什么”,也就是调查的具体内容。
在大多数统计调查中, 调查项目通常以表格的形式来表现,称为调查表
就是用于登记调查数据的一种表格,一般由表头、表体和表外附加三部分组成。
在一般的市场调查中,调查的内容则主要是通过问卷调查完成。除上面的几项以外,调查方案还应明确调查方式、方法,调查时间、调查组织实施和具体细则等。
数据质量
为确保数据的质量,在数据的收集、整理、分析等各环节都应尽可能减少误差。
数据误差。通常是指统计数据与客观现实之间的差异,其类型主要有抽样误差和非抽样误差两类。
抽样误差主要是指在用样本数据进行推断时所产生的随机误差。
这类误差通常是无法消除的,但事先可以进行控制或计算。
非抽样误差是调查过程中由于调查者或被调查者的人为因素所造成的误差。
这类误差理论上讲是可以消除的。
数据质量要求。一般概括为6个方面:
(1) 精度
(2) 准确性
(3) 关联性
(4) 及时性
(5) 一致性
(6) 经济性,即最低成本。
数据的图表展示
数据的预处理
数据的预处理是数据整理和分析的先前步骤,它是在数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。
数据审核。
审核就是检查数据是否有错误。
对于原始数据主要从完整性和准确性两个方面去审核
对于二手数据应着重审核数据的适用性和时效性。
数据筛选。筛选包括两方面内容:
一是将某些不符合要求的数据或有明显错误的数据予以剔除
二是将符合某种特定条件的数据筛选出来,而对不符合特定条件的数据予以剔除
可借助计算机自动完成
数据排序。
排序是按一定顺序将数据排序,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。
排序还有纠错和归类、分组等作用。
分类数据的整理与图示
频数与频数分布表、累积频数和累积频率表(顺序数据)
条形图、柱形图、对比条形图、饼图、累积频数分布图、环形图等
数值型数据的整理与展示
变量分组。分为单变量分组和组距分组。组距分组的相关概念、原则、步骤、次数分布表
直方图、茎叶图、箱线图、线性图、散点图、气泡图、雷达图等
合理使用图表
鉴别图形优劣的准则:一个好的图形应当具备(五个准则)
(1)精心设计、反映实质
(2)简明、高效
(3)信息充足
(4)美观、多維
(5)真实、确切
统计表形式结构:
(一般由4部分组成) 表头、行标题、列标题和数字资料
统计表设计要求: 科学、实用、简练、美观。