【UN】Excel数据清洗之一 基础
什么是数据清洗
数据清洗是我们在进行任何数据汇总分析之前的必备工作。
很多人已经认识到了,在我们拿到的原始数据中有大量的错误数据和不规范数据。也有很多人没有意识到这个问题。如果我们直接拿这样的原始数据进行分析,会导致数据分析工作不能顺利进行,不断返工,效率低下,甚至会得到错误的分析结果。
为了保证分析工作的顺利进行,我们就需要纠正数据中的错误,去除不规范的数据。这个过程就叫做数据清洗。
什么样的数据是错误数据?
数据中的错误(包括不规范数据)类型非常多。一般来说,我们可以将这些错误分为三类:
格式错误
分类数据不一致
数值错误
首先来看第一类:
格式错误
这里所说的格式错误并不是字体颜色,单元格填充等。而是会影响后续分析的格式。主要包括两种:
空行或空列
数据中的空白行会给分析工作带来很大的不方便合并单元格
很多源数据中往往有合并单元格,一般在前几行(标题行)或前几列。这些合并单元格也造成了后续分析工作的困难横表存储
这是一种被忽视的错误。很多时候,横表存储让数据处理变得更加麻烦。错误值
数据中包含#N/A,#Value等错误值。这将导致直接使用很多函数时不能得到正确的结果。
一般来说,他们的处理都比较简单。
再来看第二类:
分类数据不一致
所谓分类数据是指在分析工作中需要用来对数据进行分组的数据。比如,客户名称,产品名称,SKU,客户编号,合同编号,产品类别,地址,省份等。由于各种原因,在同一份数据的同一列上,这些数据往往不一致。例如:
下面的数据很明显是说的同一个客户编号:
但是,对Excel来说,无论是通过数据透视进行分析,还是使用函数来汇总,这些都是不同的编号,会被归为不同的类别。
这是很常见的错误类型,但是被很多人忽视。产生这些错误的原因很多。下面是这些错误类型的一个不完全列表:
手误造成的拼写错误
例如,“回归线”写成了“北回归线”,"Excel"写成了"Exccl"多余的空格
例如,下面的两个单元格的文字看上去是一样的,但是实际上是不同的相同的文本,使用公式"=len(A2)"计算后得到的长度是不同的,这是因为第二个文本实际上在后面包含了5个空格
多余的回车(换行)
回车(换行)在Excel中也很常见。多余的前缀和后缀
下图列出了几种不同的多余的前后缀方式:这里的前缀和后缀要么是我们在分析报告中不希望出现的,比如“临时”,“副本”,“Copy of“,要么是会造成不一致的结果,比如,“CA011010-NO”和“CA011010”应该是一个客户,但在在分析结果中会被归为两个不同的客户。
不一致或不正确的大小写
例如,“Tropic”,“tropic"。严格的说,这种大小写不一致的情况一般不会影响分析结果,但是我们进行可能会影响我们进行其他数据清洗的结果。不可打印的字符
这是很常见的情况了,会造成分析结果错误以及VLOOKUP函数等的匹配不成功现象错误的日期数据
日期经常会被当作分类数据,例如每月的销售额汇总。错误的日期数据导致错误的分组。数值类型的ID
数值类型的ID会将两个相同的ID错误的归为两类,例如,“10110“和”000010110”
接下来看最后一类:
数值错误
数据的错误会造成统计结果的错误。这里的错误类型有很多。
重复行
重复行会让汇总结果产生错误文本类型的数值
如果数据中含有文本类型的数值,会造成错误的汇总结果。因为这些文本类型的数值不参与计算,无论是用函数,还是数据透视表异常值
异常数据是指那些明显偏离其他数据的结果,例如,平均身高列中,所有人都是170左右,突然出现一个17000的数据,基本上就可以认为是错误的了。
数据清洗的方法和基本步骤
在Excel中提供了非常多的工具和函数,可以帮助我们进行数据清洗。上面列出的每一种数据错误类型,都有相应的方法来进行处理。我们会在后续的文章中为大家详细介绍。这里首先要给大家介绍的是数据清洗的通用步骤。
假设我们拿到了要清洗的数据文件,我们可以按照如下的步骤进行数据清洗:
1. 备份数据
这是一个很多人会忽略的步骤,但是也是非常重要的步骤。一定要在每次数据清洗工作之前备份原始数据。
2. 保证数据是以数据表的形式存放
这一步的主要工作是清洗那些“格式错误”,保证数据表中没有合并单元格,并且没有空行或者空列
3. 处理分类数据,保证分类一致
在这一步中,我们要处理那些需要进行分类的数据,多数是表格中的文本列和日期列,保证分类一致
4. 清洗数值数据,保证数据准确
这一步我们需要清洗那些数值数据,保证结果一致。
在执行以上的数据清洗的步骤时,你没必要将我们前面列出的所有错误类型都进行处理,如果你有把握数据中不包含这类错误(例如,多余的前缀),就可以不去处理这些错误。
如果你的这些数据清洗操作需要周期性的执行,那么有必要将这个过程自动化,以便提高效率。这时,可以使用Power Query来完成这个工作。我们在本系列后面的文章中会详细介绍。