身为数据分析师,要学会保护自己鸭~
点点写在前面:
这篇文章来自用户画像pointer 明河的分享。往期他分享过关于数据分析我们应该有一个理性的认识,既不能忽视数据分析在当今企业中发挥的作用,也不能认为数据分析万能。今天这篇文章我们来聊聊,数据分析师如何在面对大量需求时保护自己。
此外人们对做大事的人总是会给予更多的时间、资源和容忍,即使做得不好,也通常不会过分苛责。
问题在于小事。
而你甚至都无法反驳,因为这确实不是很复杂的工作,小事由于不涉及能力,犯下的错往往会被归结成态度问题。
常言道,十句“我会做”不如一句“我做过”,避免不熟悉的任务最好的方法就是让自己对它熟悉起来。
这不是一个能够速成的方法,它需要我们足够耐心和细致,把各类数据的主要获取和应用场景进行探索和整合,形成一个能够覆盖绝大部分场景的方法论体系,便于随时取用。
比如某些有大量线下门店的行业,地图可视化是一个很常见的需求。
我们如果能够在平时了解地图可视化有哪些常用的工具、系统中的哪张表有门店的坐标、这些坐标属于哪类标准,是否能直接被工具使用,如果不能的话应该用何种方式进行转换,并保存好省市县区等的常用基本地理文件,那在领导突然想看地图的时候就不会手忙脚乱。
否则短时间内要解决这些问题,是不太容易的,更有可能由于对坐标体系的不了解而导致地图出现偏移。
这类由简入繁、再由繁至简的过程其实涉及到一个更深入的话题,即数据分析的工程思维,这块内容比较大,我们有时间再聊。
当然,再如何全面的体系也不可能支持得了所有的应用场景,我们要做的是尽量全面,并且不断把新的临时需求纳入其中,避免重复造轮子。
冷静给人条理,激情给人动力,二者的平衡则是极致的专注。
人脑不是什么多核CPU,人不可能同时处理多件事情。在多件事情中的切换则有大量的效率损失。
在做重要的事情的时候关掉其他能够扰乱注意力的东西是一个很好的习惯,坚持一段时间做一件事情,以一种严谨高效的状态解决问题,这对大脑和工作效率都是有益的。
数据工作有很多值得一以贯之的好习惯,例如对文件做分类整理、不要修改原始数据、备份每个步骤的文件并做好记录、给表格、变量和字段规范的命名、注意时刻保存工作进度等。
这些都是比较基本的认知,通常有经验的数据工作者在做重要的事情时也都会有意识地遵守。
但我要说的是,面对并不十分复杂的小事,更要注意保持良好的工作习惯。
我在做一项陌生工作的时候,以前总喜欢把大量的中间操作用一些临时的、不标准的形式做完,以求快速得到结果。每一个步骤既没有分割,也没有记录,表格中充斥着大量的列1列2和临时计算,具体的细节则留在脑海中。
我倒不是不知道习惯的重要性,而是以为一个如此简单的一次性需求,似乎不需要那么严格的操作。
然而人总是会高估自己,这么做很糟糕的一种情况就是做到后面发现有问题,要到前面修改的时候却忘掉了之前每一步的具体操作,只能一边心态崩溃,一边尽力地想。
人的工作记忆只能保存4个临时对象,超过之后任何一个新增的任务都是对大脑的沉重负担。
而用规范的方法做事,则会让先前的步骤化为一个个标准的组块,可以被快速理解和调用
所以如果没有把握一气呵成,那我的建议是按部就班地完成步骤,很多时候慢就是快,一时的侥幸不如长期的坚持。
为了保证准确性,我们还需要做好验证。
我个人常用的验证方法有三种,这里简单介绍一下。
第一个是在每做完一步的时候简单看一下目前数据的特征,看是否与常识相违背,避免做到最后才发现一开始就犯了低级错误
第二个是交叉验证,就是如果不是很复杂的工作,可以考虑用两种方法分别计算,如果最终的结果一致,那大概率就不会有错
第三个是抽样验证,在结果中选取几个互不关联的点,从原始数据开始手工计算结果,如果全部正确则能在一定程度上说明结果的准确性
说了这么多,可能很多人会觉得我危言耸听而且絮絮叨叨,实际的危险性并没有那么夸张。
确实每个人心态不同,或许我这种概率主义者更容易看到糟糕的一面,但是数据分析工作直接关联到决策,背锅的事情非常常见,既然今天聊的是保护自己,那我首先讲的就是这种我最在意的危险。
关于数据分析师的成长有一个老生常谈的问题:天天都在当取数机器,感受不到自己的进步。
这里我给的建议是:不要需求方要你做什么你就做什么,而是要参与到整个分析流程中,了解需求从何而来,向何处去。
这不单单是个人成长的事情,同时也能帮助减少无效需求,并避免被人甩锅。
数据分析要结合业务,这应该是大家都明白的事情。
可是把数据和分析割裂开来,却是一件危险的事情。
一个普遍存在的问题是,远离数据的人对数据总是不够了解的,并且他们往往缺乏一些基本的数据素养,所以他们提出的需求有时并不完全贴合实际。可偏偏越是不懂数据的人,越是觉得自己可懂分析了。
所以数据人员在接触各类需求的时候,不要一味地埋头苦干,而是可以多问几个为什么,仔细思考其中的合理性,尝试从源头开始解决问题。
比如这个需求实际想要针对的是什么问题,或是想要验证一个什么想法?是基于何种现象得出的猜想?期望会看到一个什么样的结果?后续是否还有一些相关联的需求?
然后我们就会知道,一个需求从来不是孤立存在的,有时我们会发现一些需求的提出是基于对先前数据的错误解读,那我们可以反过来纠正他们的想法;有时我们可以发现现有思路的潜在问题,提出更合适的指标或是模型设计;还有些时候我们也可以在了解需求方想法的同时,为之后可能的深入分析提前做一些准备……
否则,如果做到一半发现问题再去修改,那其中的劳心伤神之处可就是另一个层次了。
说一个我亲身经历的工作中的例子。
我曾经负责过某个项目的数据支持,令我遗憾的是我并没有参与到决策中去,所以在一次项目会议之后,我才看到了一份让我血压升高的各区域考核方案。
方案是这么设计的:用五个指标对各区域分别排名,指标值在90%以上的并列第一,然后对五个排名加权平均,升序得到综合排名,用于决定各区域负责人的绩效。
各位读者可以先想一想,这份方案存在着什么问题?
数据工作从来都是有成本的,不过需求方往往意识不到这一点,如果每个人的个性化需求都要满足的话,那数据人员也不用下班了。
这里介绍几种在成本上下功夫的手段。
排期使数据分析师自身工作与需求的矛盾转为需求和需求间的矛盾。
这个很好理解,我们要做的是对需求完成的时间进行评估,然后按照优先级和时间做一下排序,合理分配时间。
我一般建议报的时间尽可能延长一些,侯世达定律告诉我们,做事所花费的时间总是比你预期的要长,即使你的预期中考虑了侯世达定律。
不过要求更多的时间不意味着拖延,我们做事还是要尽可能高效,这既是为整体的效率考虑,也是为了达到超出预期的效果。
3.5 做好数据基础建设
总有一些东西需要一点长期主义精神,数据的基础建设就是其中之一。
数据清洗时几个关键节点的打通、已有资源的整合利用、部门数据架构的优化、指标体系的梳理、流程标准的确立、数据技能的传播推广……这些都是短期内没有成效,但需要坚持去做的事情。它们就像是地基,每抬升一分,就会带动整体的效率提高一分。
数据基建的一个尴尬的时间点在于可能眼看再有一小段时间的努力,就能完成一项重要优化,从而使得原本非常复杂的需求大大简化,但就在这个时候突然出现了时间紧迫的“非常复杂的需求”。
我称这种状态为又要人在原地挖井,又要人去河边挑水。
这种情况就需要我们与需求方的综合协商,明确各方的成本。如果确实是火烧眉毛的紧急事项,那请以实际需求为重;但如果是可以稍作延期,或者说之后还有很多类似的需求也比较急迫的,可以考虑先完成优化,再解决需求,以达到整体效率的最优。
写这篇文章的一大风险在于,可能会让读者觉得我是一个精于世故的职场老油条,而不是一个风华正茂的热血青年。
如果是这样那就背离了我的本意,我确实说了一些保护自己的方式,但这些方式都是为了在提高整体效率的同时避免自己受伤害,并不是要让我们变得世故和计较。
如果把这些手段当作目的,以恶意揣测他人,执著于计较眼前的时间和利益,那就会忽视更长远与重要的东西。
持续进步的自身能力、和谐融洽的同事关系、承认自身错误的客观态度……这些才是帮助我们成为更好的人的因素。
保护自己的本质是预防和控制潜在的问题,把数据分析师当作整体的一部分来计算效率,而不是提倡偷懒和甩锅。
不懂得保护自己的人未必不能成功,但失去勇气和担当的人肯定不能成功。
与诸君共勉。