Excel数据分析(Power BI)之一 将Excel作为数据库

随着大数据的广泛应用,企业的各种业务也越来越依赖于对大数据的挖掘和利用。作为数据工作者的我们,掌握大数据技术也是一项迫切的需求。

因此,从今天开始,我们为大家介绍微软的Power BI。

争取让每个人都成为数据达人。

面向对象:熟悉Excel的所有人员

01

什么是Power BI

Power BI是微软发布的商业智能(BI)工具,主要包括四个 Excel加载项。
  1. Power Pivot —— 可以理解为加强版的数据透视表

  2. Power View —— 可以创建数据报告

  3. Power Query —— 数据ETL工具,可以加载不同数据源的数据

  4. Power Map —— 地图数据的可视化工具

关于Power BI的能力,可以参见下图(图片来自百度百科)

为了更好的进行Power BI的深入学习,我们首先需要介绍一些准备知识(这些知识基本都是Excel的内容)

02

将Excel作为数据库

作为普通的使用者,Excel的用途是多种多样的。但是,要进行认真的数据分析的话,Excel有一个基础的应用,作为数据库。

Table

Excel中的Table是我们经常用到的一个概念。所谓Table,就是Excel中的一个行列组成的特殊区域。

例如,下面的区域就是一个普通的Excel区域

选中任一单元格,按“Ctrl+T”,然后在出现的对话框中点击“确定”,你会发现这个区域发生了变化,如下图:

这个区域就是一个Table

文本文件

Excel可以打开存放数据的文本文件,并且支持各种分隔方式:逗号分隔,tab分隔和固定长度.

下图展示的是Excel可以打开的各种格式的文件。

回归线经验:当用Excel打开其他格式文件时,最好提前备份。Excel有可能会在你没有察觉时修改文件,或者造成文件损坏。

Excel打开文本文件时,会自动处理这些分隔方式。打开后,看上去就像普通的Excel数据一样。

下图是一个逗号分隔的文本文件:

用Excel直接打开这个文件时,如下图

其他格式的文件

做数据分析时,有时候很多数据是存放在XML文件中的。Excel可以导入XML文件中的数据。关于XML数据格式及导入,牵涉到一些概念,这里就不展开了。在后面适当的时候,我们会详细介绍。

我们还会遇到JSON数据。遗憾的是Excel并不能直接处理这种数据。我们在后面会提供一个转换工具。

03

使用数据菜单导入数据

从网站上导入数据
  1. 点击“数据”菜单

  2. 点击“自网站”,英文版是“From Web"

  3. 在出现的浏览器窗口中,输入你希望访问的网址,然年后点击”转到“

    这里我用的是统计局网站,网址是:

    http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/11/1101.html
  4. 选择要导入的表格,点击该表格左上角的黄底黑色箭头,在出现的对话框中选择数据所在的单元格,点击确定。(有点慢!!!)
    导入数据如下图

04

数据清洗

导入的数据很少能完全满足我们的要求,这些数据中也会包含各种各样的问题,包括:

  • 数据不完整

  • 数据格式错误

  • 数据不一致

  • ......

这些都要求我们对数据进行清洗。

大小写处理

很多英文文本(比如英文姓名)可能有不正确的大小写格式。我们可以使用函数Proper进行处理。这个函数会吧每个单词的首字母变成大写,其余的变成小写。下面是例子

转换完成后,不要忘记粘贴成数值。

分列

很多时候,多个数据放在一列中。例如英文的First Name和Last Name。货物名称和编号,名称和金额,等等。此时我们需要进行分列。

分列的方式有很多,包括:

  • 数据菜单中的分列

  • 替换

  • 函数

详细大家都已经很熟悉了。这里就不展开介绍了。

重复值

导入的数据中可能包含重复值,我们也需要进行处理,最简单的方法是使用“数据”中的“删除重复项”,大家都很熟悉,也不多介绍了。

05

总结

本节涉及的内容都是Excel中的熟悉的内容,作为准备知识,这些内容在后面使用Power BI各工具进行分析时会经常用到。更重要的是大家要建立一个基本概念,那就是将Excel当作数据库使用。需要关注数据的来源,数据的完整性,准确性和一致性。
下一节我们介绍如何建立数据模型。

END

必须要赞一个!!
(0)

相关推荐