【UN】Excel数据清洗之一 基础

什么是数据清洗

数据清洗是我们在进行任何数据汇总分析之前的必备工作。

很多人已经认识到了,在我们拿到的原始数据中有大量的错误数据和不规范数据。也有很多人没有意识到这个问题。如果我们直接拿这样的原始数据进行分析,会导致数据分析工作不能顺利进行,不断返工,效率低下,甚至会得到错误的分析结果。

为了保证分析工作的顺利进行,我们就需要纠正数据中的错误,去除不规范的数据。这个过程就叫做数据清洗。

什么样的数据是错误数据?

数据中的错误(包括不规范数据)类型非常多。一般来说,我们可以将这些错误分为三类:

  • 格式错误

  • 分类数据不一致

  • 数值错误

首先来看第一类:

格式错误

这里所说的格式错误并不是字体颜色,单元格填充等。而是会影响后续分析的格式。主要包括两种:

  1. 空行或空列
    数据中的空白行会给分析工作带来很大的不方便

  2. 合并单元格
    很多源数据中往往有合并单元格,一般在前几行(标题行)或前几列。这些合并单元格也造成了后续分析工作的困难

  3. 横表存储
    这是一种被忽视的错误。很多时候,横表存储让数据处理变得更加麻烦。

  4. 错误值
    数据中包含#N/A,#Value等错误值。这将导致直接使用很多函数时不能得到正确的结果。

一般来说,他们的处理都比较简单。

再来看第二类:

分类数据不一致

所谓分类数据是指在分析工作中需要用来对数据进行分组的数据。比如,客户名称,产品名称,SKU,客户编号,合同编号,产品类别,地址,省份等。由于各种原因,在同一份数据的同一列上,这些数据往往不一致。例如:

下面的数据很明显是说的同一个客户编号:

但是,对Excel来说,无论是通过数据透视进行分析,还是使用函数来汇总,这些都是不同的编号,会被归为不同的类别。

这是很常见的错误类型,但是被很多人忽视。产生这些错误的原因很多。下面是这些错误类型的一个不完全列表:

  1. 手误造成的拼写错误
    例如,“回归线”写成了“北回归线”,"Excel"写成了"Exccl"

  2. 多余的空格
    例如,下面的两个单元格的文字看上去是一样的,但是实际上是不同的

    相同的文本,使用公式"=len(A2)"计算后得到的长度是不同的,这是因为第二个文本实际上在后面包含了5个空格

  3. 多余的回车(换行)
    回车(换行)在Excel中也很常见。
  4. 多余的前缀和后缀
    下图列出了几种不同的多余的前后缀方式:

    这里的前缀和后缀要么是我们在分析报告中不希望出现的,比如“临时”,“副本”,“Copy of“,要么是会造成不一致的结果,比如,“CA011010-NO”和“CA011010”应该是一个客户,但在在分析结果中会被归为两个不同的客户。

  5. 不一致或不正确的大小写
    例如,“Tropic”,“tropic"。严格的说,这种大小写不一致的情况一般不会影响分析结果,但是我们进行可能会影响我们进行其他数据清洗的结果。

  6. 不可打印的字符
    这是很常见的情况了,会造成分析结果错误以及VLOOKUP函数等的匹配不成功现象

  7. 错误的日期数据
    日期经常会被当作分类数据,例如每月的销售额汇总。错误的日期数据导致错误的分组。

  8. 数值类型的ID
    数值类型的ID会将两个相同的ID错误的归为两类,例如,“10110“和”000010110”

接下来看最后一类:

数值错误

数据的错误会造成统计结果的错误。这里的错误类型有很多。

  1. 重复行
    重复行会让汇总结果产生错误

  2. 文本类型的数值
    如果数据中含有文本类型的数值,会造成错误的汇总结果。因为这些文本类型的数值不参与计算,无论是用函数,还是数据透视表

  3. 异常值
    异常数据是指那些明显偏离其他数据的结果,例如,平均身高列中,所有人都是170左右,突然出现一个17000的数据,基本上就可以认为是错误的了。

数据清洗的方法和基本步骤

在Excel中提供了非常多的工具和函数,可以帮助我们进行数据清洗。上面列出的每一种数据错误类型,都有相应的方法来进行处理。我们会在后续的文章中为大家详细介绍。这里首先要给大家介绍的是数据清洗的通用步骤。

假设我们拿到了要清洗的数据文件,我们可以按照如下的步骤进行数据清洗:

1. 备份数据

这是一个很多人会忽略的步骤,但是也是非常重要的步骤。一定要在每次数据清洗工作之前备份原始数据。

2. 保证数据是以数据表的形式存放

这一步的主要工作是清洗那些“格式错误”,保证数据表中没有合并单元格,并且没有空行或者空列

3. 处理分类数据,保证分类一致

在这一步中,我们要处理那些需要进行分类的数据,多数是表格中的文本列和日期列,保证分类一致

4. 清洗数值数据,保证数据准确

这一步我们需要清洗那些数值数据,保证结果一致。

在执行以上的数据清洗的步骤时,你没必要将我们前面列出的所有错误类型都进行处理,如果你有把握数据中不包含这类错误(例如,多余的前缀),就可以不去处理这些错误。

如果你的这些数据清洗操作需要周期性的执行,那么有必要将这个过程自动化,以便提高效率。这时,可以使用Power Query来完成这个工作。我们在本系列后面的文章中会详细介绍。

好了,今天的分享就到这里了。请期待后续的具体数据清洗方法
(0)

相关推荐

  • Excel如何屏蔽表格数据的匹配错误

    在VLOOKUP函数的使用过程中,如果数据匹配不成功就会报错,前面的技巧中也碰到过这样的问题.本技巧将具体讲解IFERROR函数到底应该怎么使用.如图3-108所示,VLOOKUP函数匹配不成功就会报 ...

  • 函数常见错误大盘点,教你如何避坑和出坑!

    函数是Excel出镜率比较高的功能,我们在Excel中运行函数,经常会出现错误. 今天我们来学习那些常见的函数错误.可能错误的原因,以及如何解决函数出错的办法,让你避开那些坑. 01#### #### ...

  • 35个常用Excel函数的基础用法,并为...

    35个常用Excel函数的基础用法,并为大家整理成思维导图,需要的小伙伴们,收走不谢! #职场干货##职场达人炼成记# 1.ABS:求出相应数字的绝对值: 2.AND:如果所有参数值均为逻辑" ...

  • Excel数据清洗实例智能填充应用

    Excel数据清洗实例智能填充应用

  • 还在玩手机?每天20分钟学Excel,0基础学习入门excel数据分析

    还在玩手机?每天20分钟学Excel,0基础学习入门excel数据分析

  • 【217期】分手吧,数据,至EXCEL,从基础到高端,玩转数据拆分

    在职场,很多公司都有统计,当我们漂亮的文员熬出了熊猫眼,上交作业的时候,发现将名称,和工资,输入到了一个单元格,瞬间被领导一顿痛批 在办公中,当一对数据,从天而降,都是ERP导出的,面对名称和数量在一 ...

  • Excel数据清洗之二 纠正错误的表格格式

    不规范的源数据中有一类是格式错误,我们清洗数据的第一步是纠正这些错误的格式. 空行或空列 其中一种非常常见的类型就是数据之间有空行或者空列. 这份数据中,橙色的竖线表示空列,蓝色的横线表示空行. 这份 ...

  • Excel数据清洗之三 横表转竖表(逆透视)

    前面我们介绍了对格式错误进行数据清洗的步骤,得到了结果--一个横表: 实际上,有可能我们一开始拿到的就是这样的"横表" 横表的问题我们可以通过下面的数据透视来为大家展示一下: 在这 ...

  • Excel数据清洗之四 清除错误值

    错误值在Excel中非常常见.我们在以前的文章中给大家做过介绍(参见#Div/0! Excel中的那些错误值们!),这些错误值都是用公式计算时产生的,大家都司空见惯了. 正因为大家都习以为常了,所以错 ...

  • Excel数据清洗之五 去除多余的字符

    今天介绍数据清洗需要处理的第二类问题,分类要一致. 我们先看分类不一致的结果, 上图中,很明显我们看到一个编号为"CA1001101"的客户,但是分别被归类到不同的客户中. 造成这 ...

  • Excel数据清洗之六 去除不可见字符

    造成分类不统一的原因还有一种,叫做"不可见字符". 先看下面的例子.假设我们数据如下: 表中所有数据都是同一个ID,如果我们用数据透视表汇总它们的数量,我们期望会得到一个这样的结果 ...