利用 Power Query VBA 实现 CSV 数据清洗

2024-05-12 23:20:26

准备工作

CSV 格式数据文件；
Excel（Office 365）；

大致处理思路

1. 数据导入

注意：这里务必使用 Power Query 打开，而不是直接用 Excel 打开。因为后者会自动进行一些无用的格式转换，比如将长文本编号识别为数字（第一列），从而丢失源数据的精度。

2. 主要的数据转换

2.1. 转为【文本】型：

图中圈中部分可以单击，以快速转为某种格式。虽然方便，但当要处理的字段列较多时，频繁单击鼠标也很低效。这里推荐使用【快速访问工具栏】：将转为“文本”型的操作直接添加到该工具栏内，再批量选中要转换的字段列，按组合键【Alt 2】实现一键转换——

注意：这里可能是【Alt 1】，也可能【Alt 3】，具体加几，取决于命令添加后的相对位置（顺序为从左往右）。

2.2. 字段值的批量提取

对于目标数据前后存在冗余符号的情况（如下图所示）：

Power Query 的【转换】选项卡提供了多种处理途径：既可以使用【替换值】的方式，也可以通过提取【分隔符之间的文本】。不过后者更适合数据较规范的场合，否则对于匹配失败的数据行，该列的提取内容 将变为空文本。

2.3. 批量删除与撤销

选中若干列后，直接【Delete】删除选中列；任何情况下，想要撤回上一步操作，都可以通过【查询设置】工具栏内、【应用的步骤】列出的操作列表进行撤回，非常方便。

2.4. 其他转换问题

除了上述三种常规操作，实操过程中还遇到了新的转换问题，如字典值到字典码的转换（户籍类型的文字描述转为数据库中的类型码）、文本的拆分与转换（把形如 20岁的数据拆成 20 和岁，同时把单位部分转换为字典编码，比如 001）。

虽然 Power Query 也提供了添加条件列（【添加列–常规–条件列】），但设置起来相对费劲，遇到多个类似的列也很难快速套用前面的设置，无法批量操作。

起初的处理方案是使用 Excel 函数公式（如 =LEFT([@年龄], LEN([@年龄]) - 1)），但弊端也很明显：每一列都要批量复制公式，遇到字典编码转换的问题，手写公式本就很长，效率低下且容易出错。

于是想到 VBA 自定义函数，参数只要一个单元格的引用，函数名也可以任意指定。例如户籍地址类型的转换，刚开始效果就不错：

'Convert address type text into dictionary code Public Function cvtType(ByVal rng As Range) As String  Dim txt$, result$    txt = Trim(rng.Text)  Select Case txt    Case "本县区"      result = "01"    Case "本市其它县区", "本市其他县区"      result = "02"    Case "本省其它地市", "本省其他地市"      result = "03"    Case "其它省", "其他省"      result = "04"    Case "港澳台"      result = "05"    Case "外籍"      result = "06"    Case Else      result = ""  End Select    cvtType = resultEnd Function

这样，只需要使用公式 =cvtType([@地址类型]) 就能得出结果。

但使用公式会出现另一个性能问题：若遇到稍大一点的数据文件，公式批量复制、批量计算、后期批量选择性粘贴的执行速度将显著下降，严重时甚至卡死 Excel。这是频繁引用单元格区域造成的。

要想彻底解决这个性能问题，通常的做法是借助 VBA 中的数组，通过将参数批量放入 VBA 数组，实现一次读取、内存处理、一次写回，尽可能减少单元格的反复引用、计算结果的反复写入。最后，将处理逻辑写入宏过程，就能实现转换结果“一步到位”：

'Convert address type text into dictionary code:Sub cvtAddrType()    Dim rng As Range, col&, arr As Variant, i&, rowMax&, arr1 As Variant, str$        '1. Retrieve data from Range cells    Set rng = Range(ActiveCell.Address(0, 0)).Offset(0, -1)    col = rng.Column    rowMax = Cells(Rows.Count, col).End(xlUp).Row    arr = Range(rng, Cells(rowMax, col))    ReDim arr1(1 To rowMax - 1) As String    '2. Core conversion process    For i = 2 To rowMax        Select Case Trim(arr(i - 1, 1))            Case "本县区"                str = "01"            Case "本市其它县区", "本市其他县区", "本市其他区"                str = "02"            Case "本省其它地市", "本省其他地市", "本省其他市"                str = "03"            Case "其它省", "其他省"                str = "04"            Case "港澳台"                str = "05"            Case "外籍"                str = "06"            Case Else                str = ""        End Select        arr1(i - 1) = str    Next i    '3. Write back results    Set rng = Range(rng, Cells(rowMax, col))    rng.NumberFormatLocal = "@"    rng = Application.Transpose(arr1)    Set rng = NothingEnd Sub

3. 收尾工作

数据清洗结束后，应另存为新的 CSV 文件，作为文本导入工具的新数据源；
为确保导入发生未知异常时，数据库能迅速快速标识已导入的数据，还可以在主键上添加统一规则的前缀，如 jan2020_uuid 表示 2020 年 1 月的历史数据，all2020_uuid 表示 2020 年全年数据；
分批次生成导入数据的 SQL 文件，方便后期查阅，并设置统一规范；
编写数据导入说明文档，提示关键操作，避免重复采坑。

4. 小结

对于结构相同的 CSV 文件，还可以利用内置的 M 公式实现数据清洗的【格式刷】式操作；
Power Query 虽然强大，但也不是万能。需要从实际出发，选择最合适的解决方案；
实际操作过程中，面临新的问题要多问几个为什么，抓住问题的本质（如公式对性能影响的根本原因等），这样才能在实战中逐步提高；
良好的习惯需从平时培养，如英文注释、代码缩进、多留文档等。

来源：https://www.icode9.com/content-4-798851.html

从多个工作簿指定的工作表中查找指定的数据并输出到一个新的工作表中

Private Sub CommandButton1_Click() str1 = InputBox("请输入员工编号", "按照员工编号查询数据") ...
Numpy和Pandas性能改善的方法和技巧

问题设计的代码能hold住小规模数据你准备将该代码用来处理真实场景的数据但惊喜的是你的代码崩溃了问题: 你的电脑只有16G内存,但现在却要应付50G大小的数据. 硬件解决办法换装备,比如64 ...
Excel VBA 7.47将总表的数据分别按照要求填入指定的模板位置中，类似word邮件合并功能

一起学习,一起进步~~ word的邮件合并功能,相信大家都非常的熟悉了,一些固定模板的批量打印功能都会用到这样的操作,但是很多时候我们的数据是Excel中的,那么我们是否能够在Excel中实现类似于w ...
求一段excel代码。批量提取多个excel工作簿中指定字段的数据，删除其他字段

你好!楼主想要的功能,可以通过VBA程序代码实现,其程序代码如下:(写代码不易,望笑纳) Sub ChangeFile() Dim fs, fo, fi, fil, str, na, ty, k, k ...
Excel VBA 8.19 Excel一次只能按照一种分隔符拆分 VBA可以多种

Excel一次只能按照一种分隔符拆分 VBA可以多种点击上方"Excel和VBA",选择"置顶公众号" 致力于原创分享Excel的相关知识,源码,源文件打包提 ...
Excel VBA 7.27按照报表名称提取指定字段，如果你还在手工填充数据，这里有你想要的

在昨天我们分享了关于工作表数据汇总的过程中,一种非常规但是又经常使用到的一种操作,就是从不规则的报表中提取我们需要的那一段规则数据,这样对于需要详细数据参考的时候,是很有帮助的,但是有时候,可能我们并 ...
connector-x | 让数据从DB高速导入到DataFrame中

ConnectorX 使您能够以最快和最节省内存的方式将数据从数据库加载到 Python 中. 你需要的是一行代码: import connectorx as cx cx.read_sql(" ...
自动展示最近N天，其实利用 Power Query 更简单

Power BI动态显示最近N天的数据如果在报告中只需要分析最近N天的数据,其实也可以不用这么麻烦,还可以利用PowerQuery的日期筛选器,更方便的实现. 数据导入到PowerQuery后,按数 ...
学会POWER QUERY数据处理技巧，数据清洗只要一分钟！

点击上方蓝色文字关注我们吧! 送人玫瑰,手有余香,请将文章分享给更多朋友动手操作是熟练掌握EXCEL的最快捷途径! POWER QUERY是EXCEL 2016版及EXCEL 365自带的, ...
利用Power Query转换表格

常见的二维表是一种交叉表,有行.列两个方向的标题交叉定义数据的属性.二维表在工作和生活中应用十分广泛,如课程表.工资表.人员花名册.价格表等.一维表则是每一行都是完整的记录,数据属性并不需要列标题来定 ...
利用Power Query实现多个工作表合并

第一步打开1个新建的表格后,点[数据]-[获取数据]-[来自文件]-[从工作簿] 第二步通过浏览窗口导入需要合并的工作簿文件第三步在导航器中选择[工作簿名称]-[转换数据] 第四步在Powe ...
多表合并（Power Query、SQL、函数与公式、VBA四种方法）

工作中有时候需要将多张工作表合并到一张工作表,本文总结了四种方法:Power Query 工具.SQL.函数与公式.VBA,四种方法难度依次递增. 方法一:借助Power Query工具史上多表合并 ...
Excel公式？VBA？还是Power Query！

最近,一直有朋友问我到底学不学VBA,我一般不建议他们学,除非对编程很感兴趣,或者本身已经有一定的编程基础,否则,将耗费大量的精力,而收效甚微. 恰巧,最近在一本比较专业的书上找到关于Excel函数. ...
怎么用VBA删除Power Query生成的查询？

有时候,我们希望只将Power Query相关的查询结果给用户,又或者需要将查询的结果固化下来(不随新数据的加入而刷新),而被其他查询引用(比如有些工作中需要做不同阶段的数据检查.校验等),就需要对P ...
这个用Power Query操作步骤太多了，还不如用VBA？

在2017年9月份的时候,我曾经写过一篇叫做<PQ-综合实战:根据关键词匹配查找对应内容>的文章,主要是通过简单操作步骤的方式来实现关键词匹配查找的内容. 说实话,步骤真是特么多(TMD) ...
用VBA批量刷新Power Query查询

- 问题 - Excel里面怎么用VBA控制Power Query查询的批量刷新? 比如,根据查询的名称特征控制部分查询一起刷新,即纪要自动刷新多个,又不是全部刷新. - 解答 - 我们知道,通过VB ...