V咖分享会第二十三期-大数据下的数据清洗质量保证-下
跟着芒果一起好好学习,天天向上~
在上周日我们举办了V咖分享会第二十三期的分享,这是分享是这次由大咖策风小k-k神给大家分享的“大数据下的数据清洗质量保证”,传授他在多年测试职业生涯过程中实践经验的。现在就由芒果为大家整理这次分享会的知识,本次整理内容包含我们的V咖k神的分享内容,部分提问及回复。想要提问或者观看完整问题解答的小伙伴,请积极参与到我们分享会中来,我们的分享会每两周就有一次哟~
因为本次的分享时间超过30分钟,所以分为上下部分给大家介绍,这是第二部分内容:
分享人:策风小k
软件测试专家,互联网资深测试讲师,IBM认证工程师,中国高智商协会会员。
从事软件测试9年,现就职于杭州某大数据分析公司,负责质量管理平台的构建设计。TestOps推动者,擅长接口自动化测试、性能测试,爱好广泛,诙谐幽默。。
分享主题:大数据下的数据清洗质量保证
保障数据清洗的质量和效率
1.了解数据清洗到底干了哪些事儿
2.数据清洗规则在常规测试手段上的难点
3.数据工厂如何体现在数据清洗测试上
4.流程化的数据清洗校验策略
分享内容部分PPT:
答疑与讨论:
策风小k:
这边给贴个严格策略和宽松策略的案例:
干勾鱼:
验证清洗表的数据,用的什么自动化工具呀
策风小k:
@干勾鱼 一般建议这块独立开发校验脚本
可以借助一些json比对工具
但是在整个用例设计管理和调用上 最好是独立开发一个后段框架。这个有兴趣后面单独找我可以聊下方案
leon:
清洗算法测完以后,需不需要和开发根据原数据清洗完的结果数据做对比?
策风小k:
@leon 原数据全部自己构造 要比对的,但这个过程会在自动化断言中完成
@leon 因为我们每条用例只对一个jsonpath下的某字段按照规则设计用例
leon:
[语音]
策风小k:
[语音]
Eric:
金融领域测试过程测试数据准备比较耗时,有没有比较好的方法
策风小k:
[语音]
干勾鱼:
清洗表的数据一般根据业务表计算出来的,我们看的是最终的结果值,用json对比工具,咋对比呀
策风小k:
[语音]
这个可以参考一下
策风小k:
还有些朋友可以通过部署jacoco方式,把自动化代码覆盖率给顺带做了
策风小k:
就这种平台化管理各个应用的覆盖率
方便补充用例
目前可能各位只能做全量覆盖率的统计,我这边开发了增量代码覆盖率统计,你们也可以研究一下。
需要修改jacoco源码探针的逻辑
增量代码覆盖对版本迭代覆盖率的统计有好处
leon:
我们原数据也是有些不完整的,数据算法开发人员就是在这份数据上开发的
这种情况是不是只能测试这边自己mock数据来测试开发的清洗算法?
策风小k:
@leon 原始数据不完整其实还是应该做好监控 及时做增量补充
张刚强:
@策风小k 你发的是你们自己开发的testops测试平台吗,
肯肯:
还是厉害的!这几天我也要做公司的数据清洗了头疼
策风小k:
@张刚强 嗯是的。这个是自己开发的平台
张刚强:
不错,可以多学习下,最近我们公司也在开发
策风小k:
可以,除了用例管理,覆盖率查看,还可以部署监控 都可以加进去,总的来讲是一套质量管理平台,后续CICD自动化监控环节,都可以走这套
张刚强:
嗯,考虑接口全链路压测也可以做,用httprunner+locust结合
策风小k:
张刚强:
权重可以配比
集成的grafama
策风小k:
嗯,是的。常规的influxdb+grafama都可以配套去用,细的可以配合开发打埋点监控对接上。
【互联网测开社群线上分享会】是为大家提供的免费交流活动,定期均会请到大咖来和大家探讨测试技术。
分享要求:对测试类技术有一定深入理解,并且愿意与大家分享
分享形式:微信群语音分享及互动
分享报名关注我们的公众号
如果大家对于这次分享会的内容有什么特别的感受、疑问,甚至是关于测试的任何疑问都可以注册登录我们的社区http://viptest.net/发帖留言。
注册、发文、提问都有金币相送,金币可以兑换Viptest各位大佬们的书籍和视频哟~
我们的大咖分享会每两周就会有一次,下一期将在5月24号进行,敬请期待。
精益技术 赋能过程