Excel数据源获取的常见错误解决办法
嗨咯大家好,我是亮仔
今天我们来虚拟一个任务或者项目来作为制作数据可视化图表实例,逐步制作数据可视化分析报表,如果小伙伴没有基础也没关系,制作过程中用到的知识点我都会进行说明,知识点较多,制作的周期会比较长
首先我们假设领导要你做一个销售分析,我们接到这个任务时,首先和领导确认以下事项:
1、了解分析的目的,是面向哪些人,比如汇报给总裁和汇报给客户的报表是完全不同的
2、分析的大致板块、主要方向,避免数据分析的方向错误导致返工
3、完成时间,这个直接关系到自己下班是到点跑路还是决战到天明
所有的东西确认完之后,我们就开始着手准备报表制作的数据
我们的数据一般来源于3个地方:系统导出、公司内部收集及自制、网上获取。
因为数据来源的不同,数据的格式、字段表头也不一致,所以我们需要对数据源进行处理,今天先聊聊数据获取中存在的一些常见问题及处理办法
来源一:系统导出
我们从公司ERP系统中导出的常见格式一般有3种文件:
1.Excel文件(文件后缀名xlsx、xls)
2.逗号分隔值文件(文件后缀名CSV)
3.文本文档(文件后缀名TXT)
其他格式日常办公中不常用,如有需要可自行了解
1、Excel文件
目前系统导出基本是采用这种格式,文件导出后使用Excel打开
【亮仔提示】
因为数据为系统直接导出,Excel表格内单元格格式可能会全部为文本格式,可使用分列功能进行处理
2、逗号分隔值文件、文本文档
这两种文件相对于Excel来讲出现的次数会少一点,不过我们还是得了解下
CSV格式是文件我们可以直接使用Excel打开,然后另存为xlsx文件,
TXT文件使用记事本打开,有2种办法导入到Excel中
①直接复制粘贴进Excel中,所有数据会在1个单元格中,我们可以使用分列对文本进行分列,从而达到将数据导入Excel的作用
Excel高版本中复制到Excel中可自动识别,无需分列
②使用Excel中数据导入功能
因为系统导出的数据比较规范,在这不过多的阐述,主要聊聊公司内部收集和制作的数据,这部分是问题最大的板块。
来源二:公司内部收集及自制
因为每个人对数据的理解认知不同,操作习惯也不同,我们收集的数据错误会非常多,我整理了5个常见的错误,看看你有没有经历过
示例一
【问题场景】
二维表数据表,这种表格数据看起来非常的直观,一般用于报表展示,但是不利于数据分析、透视(可以试试将这类数据插入透视表,会得到什么结果)
【解决方法】
正确的做法是使用Power Query转换功能,将二维表转换为一维表,操作方法如图
GIF
最终结果如下图
【亮仔提示】
Power Query在office2013版本以上才有,2013版本需要下载安装文件,2016版本以上自带无需下载
示例二
【问题场景】
在我们的数据中经常看到数据中为了方便而进行合并单元格,但这个合并单元格在数据分析中可以说是万恶之首
【解决方法】
我们可以使用批量填充的办法解决
GIF
这个合并单元格的解决办法很多,这只介绍其中一种最简单的
关于合并单元格后期我会单独介绍
示例三
【问题场景】
示例三是关于数据缺失、数据含有非打印字符,这个是比较细小的问题,但是如果不注意,对于数据分析的结果也是很大的影响
各位小伙伴们看下图,你会发现什么问题?
这份数据可以说是很完美,因为是一维表,但是有个细节需要注意
1、在客户姓名中存在空值;
2、客户姓名中存在空格
【解决方法】
空值
先用颜色标记,然后再进行逐个解决
GIF
有空格可采取替换法
GIF
示例四、五
【问题场景】
我们很多时候向分公司、向其他部门收集报表,经常会出现这种情况,
1、一个文件(工作簿)里面有很多很多个子表,每个表的表头都是一样的
2、每个月/人一个文件,收集的压缩包里有N多个文件
对于这种分散的数据,我们是不利于数据统计分析的,需要将数据整合到一个工作表中。
【解决方法】
对于需要使用多表合并的场景,我将分享3种解决方法:1、Power Query法;2、WPS合并;3、VBA代码
由于本文知识点较多且篇幅有限,多表合并我将单独写一期