人员数据分析的CRISP-DM模型

如何证明人力资源实践的有效性是重要且有价值,传统上,研究人员通过使用调查,访谈或观察收集数据来产生此类证据。借助这些数据,他们获得了对劳动力的洞察力,并制定了切实可行的干预措施以改善结果。
技术进步导致许多人力资源管理流程数字化,技术进步产生了组织控制的大量数据,例如旷工,绩效数据等。这些数据为人力资源专业人员和学者带来了机遇和挑战。结果,人力资源管理正朝着“决策科学”方向发展,证明有关人力资本决策的质量是关键。如果做得好,这可以提高人力资本的战略价值。但是,在数字化人力资源管理领域,我们如何确保决策所依据的证据是高质量的?我们如何确保我们测量我们打算测量的东西?我们能够排除我们发现的其他解释吗?我们得出正确的结论吗?并且我们能够将此类知识推广到其他上下文或案例吗?
我们将首先介绍经常使用的跨行业数据挖掘标准流程(CRISP-DM)。CRISP-DM模型解释了进行数据驱动研究的(理想)过程。其次,我们将解释什么是有效性以及它如何影响基于证据的人力资源管理决策的质量。我们将解释三种不同类型的有效性–内部,外部和构造有效性。我们将以与人力资源分析相关的示例为例进行说明。然后,我们将针对每种有效性类型的证据提出建议。
CRISP-DM模型具有五个不同的阶段:
问题识别,数据理解,数据准备,数据建模、数据评估。
一、改善组织过程和结果从两个阶段开始。
首先,存在商业,学术,社会或环境问题(第一阶段)。确定问题是改进流程和结果的第一步。如果未正确识别问题,则改善的努力可能徒劳。第一阶段还包括提出与该问题有关的(研究)问题。提出明确而精确的问题很重要,如果你的问题不清楚和具体,则很难真正回答问题,从而通过学习来解决问题。
例如,一个问题可能太广泛了(例如:谁是工作场所最具创造力的雇员?)。或者它可能包含一个隐藏的假设和一个问题(例如,为什么真正的领导比道德领导更有效?)。还是包含假设假设(例如:如果组织在1990年代拥有不同的领导者,该组织是否会更有利可图?)。相反,一个好的研究问题是清晰,准确,具体的,并且需要一个迭代的过程。而且,最重要的是,可以通过学习来回答。如果我们看一下上面的例子,研究问题的更好版本是:与开放性得分低的人相比,对开放性得分高的员工会经历更多的创造力吗?”或“增强领导能力是否会增强员工在工作场所的创造力?”。
其次,对数据有清楚的了解(阶段2)。确定问题后,考虑可用数据非常重要。例如,数据是否代表你的研究问题中包含的变量?数据的质量是多少?数据是否代表你要研究的更广泛的人群?数据是否处于正确的分析级别(例如,员工级别或汇总的组或部门级别的数据)?严格评估数据是重要的一步,数据质量将对结果产生巨大影响,并根据你做出的决定。
二、有效性
有效性是指你的研究听起来如何。它涉及研究的设计和所使用的方法。那么我们什么时候可以说一项特定的研究是有效的呢?在有效的研究中,发现和结论真正代表了你声称要衡量的现象。有效声明是难以(即使不是不可能)提出争议的可靠声明。
有效性有助于我们思考重要的问题。我们测量了我们打算测量的东西吗?我们可以排除其他解释吗?我们对得出的结论充满信心吗?我们可以将结果推广到其他背景或案例吗?还是针对特定情况?在做出数据驱动的决策之前,这些问题需要答案。
有不同类型的有效性。以下三种类型与人员分析特别相关:
1、内部有效性:数据是否支持关于因果关系的主张?例如,我们训练分类基于员工社交媒体资料的更改来“预测”营业额。这是否意味着确定的特征是人员流失的原因?如下所示,建立因果关系是必要的,但这不足以建立因果关系。
2、外部有效性:你可以在研究范围之外应用结论吗?例如,在实施领导力干预后,位于阿姆斯特丹的员工队伍更加活跃。你能在东京或纽约获得同样的积极成果吗?
3、构造效度:你衡量你打算衡量的内容吗?例如,你测量员工敬业度,数据真的能捕获参与度吗?这个问题对任何决定的可解释性都有重要影响。
这再次说明了阶段2对有效性评估的重要性。数据理解是决策质量的基础。
下面我们解释三种有效性。我们将提供示例和建议,以改善数据驱动型决策中的示例。
1、内部有效性
迈克在一家大型跨国公司工作。该组织旨在提高员工的生产力。他们将检查其后台系统中的数据。目的是确定哪些行动会影响其员工的生产力。在对数据进行分析之后,他们得出结论,如果向迈克支付更高的薪水,他将变得更有生产力。在这里,数据表明薪水和生产率之间存在关系。但是得出结论认为应该提高工资以提高生产率还为时过早。
当然,薪水增加时,员工的生产率可能会提高。但这实际上要复杂得多。有生产力的人可能已经获得了更高的报酬,因为他们已经是勤奋的工作。他们可能会努力工作,因为他们喜欢自己的工作,而不管薪酬如何,或者他们的生产力可能会因为经验而不是薪酬而增加。
另外,薪酬与绩效之间的关系只是偶然的问题,下次可能无法复制。因此,仅依赖于相关分析可能会描绘出错误的画面。如果你不跟踪分析步骤,则可能会伤害而不是提高生产率。
那么,我们如何找出造成高生产率的真正原因呢?内部有效性是可以说你正在研究的变量以外的其他变量不会导致结果的程度。因此,我们希望能够说,除了薪水之外,没有其他原因会导致更高的生产率。不是个性,动机,经验或纯粹的机会。
要确定薪酬会导致绩效,我们必须满足三个条件。
首先,我们必须在薪酬和绩效之间建立联系。如果没有关系,就不能是因果关系。
接下来,我们应排除其他解释。这涉及表明当我们将其与其他可能的原因隔离时,该关系仍然存在。如果我们回顾一下我们的例子,那么如果一流的机器负责生产力呢?在这种情况下,机械是生产力的“真正”原因,而不是报酬。因此,当我们仅检查具有卓越机制的部门时,可以测试这种关系是否成立。然后我们可以排除上乘机械作为替代解释。
最后,我们必须证明原因先于结果。这通常是最难满足的条件。为了提高生产力,应该在生产力之前进行薪酬。在时间2的薪水增加不能解释员工在时间1的生产率。因此,我们需要对原因(工资)进行计划中的更改。然后,我们需要检查推定的效果(生产力)是否因此而改变。然后我们可以建立因果关系的“时间优先”。
一种可能性是利用所谓的“预测试/后测试”设计。在此设计中,你在提高员工薪水之前先测量生产率。在其他所有条件都相同的情况下,在他们加薪之后,你可以再次执行此操作。这使得有可能检查由于加薪而导致的生产率变化。
测量之间的其他变量(例如动机和设备)应保持稳定。这样,你可以隔离薪资对生产率的影响。当然,要排除所有其他解释并不容易。但是,我们越努力,决策就越有效和有价值。
2、外部有效性
公司想测试一种特定的领导风格是否会使员工更加敬业。他们发现变革型领导与员工敬业度之间存在积极关系。像上述情况一样,对于高参与度可能会有几种解释,想象一下,消除了其他解释他们还可以说参与是变革型领导干预的直接结果。因此,我们可以声称该研究在内部有效。
迈克和他的同事在阿姆斯特丹总部工作。这是否必然意味着对于纽约总部的员工而言,结果也是正确的?还是东京总部?换句话说,我们可以将结果推广到不同的环境吗?研究者称之为外部有效性的结果可以推广的程度。
假设我们要增加不同地点(或不同团队或单位)的员工敬业度。然后,我们应尝试排除环境边界条件。例如文化方面的内容,或劳动力的组成和背景。因此,如果我们想增加在纽约和东京的参与度,那么良好的外部有效性是关键。我们需要知道,变革型领导者在那里是否也受到赞赏。
3、构造效度
我们会衡量我们打算衡量的东西吗?
为了检查员工的工作投入,公司使用年度员工调查。在这项调查中,他们衡量了几种不同的员工态度和行为,包括敬业度。
度量你打算量度的程度是结构效度。对于构造的有效性,一个重要的问题是调查是否实际衡量“参与度”。如果员工调查不能准确衡量员工敬业度怎么办?那么不清楚参与度得分的含义,我们从数据中得出的结论也不准确。
在一些员工调查中,所有问题的分数(用于衡量满意度,敬业度等)都高度相关。因此,不清楚员工回答这些问题时的想法。分数代表满意吗?这意味着从中得出结论也是不可能的。
使用经过科学验证的措施是获得良好结构有效性的简便方法。这些措施都经过了广泛的构造验证过程。在此过程中,研究人员会丢弃与结构无关或无关的问题。通常,你可以免费在线找到这些措施,也可以购买许可证以使用这些措施。另一个发展是组织和学者在组织内部的HR分析项目中一起工作。
科技的进步为人力资源分析专业人士和学者创造了机会。企业拥有大量数据,可以帮助你进行基于证据的决策。最重要的是,数据的可用性有助于提高HR对企业的战略价值。但是,这些相同的技术进步也带来了挑战。人力资源专业人员通常没有受过分析数据的训练,更不用说评估数据的有效性了。尽管如此,基于数据做出高质量的决策仍然是人力资源的责任。
(0)

相关推荐

  • 清理数据的重要性

    介绍 在精神上和卫生上进行清洁的概念在任何健康的生活方式中都是非常有价值的. 数据集有些是相同的.如果没有在数据科学生命周期中进行清理或作为日常活动进行清理,那么出于任何目的的代码将根本无法工作. 在 ...

  • 《精要》第五十七讲:知识工作者的崛起

    阅读: 关于知识工作者的生产率的研究才刚刚起步.在研究知识工作者的生产率方面,我们在2000年取得的进度大概只相当于一个世纪以前,即1900年我们在研究体力劳动者的生产率方面所取得的成就.但是,在生产 ...

  • 数据挖掘与分析的六种经典方法论

    数据挖掘与分析的六种经典方法论 运营增长2021-03-07 14:33:18 最近梳理了一下数据挖掘与分析的常用方法论,这里简要介绍6种模型. 1.CRISP-DM 模型 CRISP-DM是Cros ...

  • 《德鲁克52周教练指南》第303天:重新定义员工

    阅读: 21世纪,管理需要做出的最重要的贡献与20世纪的贡献类似,它要提高知识工作和知识工作者的生产率.20世纪,企业最有价值的资产是生产设备,21世纪,组织最有价值的资产将是知识工作者及其生产率.( ...

  • 《管理:使命篇》第五十二讲:富有生产力的工作

    52 工作的人,不论是技术或非技术工作者.体力劳动者.办事员或知识工作者要如何才能承担责任呢?他们需要什么工具?什么诱因?什么保障?经理人和企业必须做些什么,才能要求工作者承担起责任? 通过上述的三个 ...

  • R数据分析:潜增长模型LGM的做法和解释,及其与混合模型对比

    今天收到了北京大学老师打来的电话,问我如果没有被数据科学方向的导师录取,愿不愿意去读生物统计的博士. 我婉拒了,些许遗憾,但不后悔,原因全是个人选择,读博挺好的,但是我决定换一种环境,去工作了. 从去 ...

  • R数据分析:交叉滞后模型非专业解释

    今天继续写交叉滞后模型,本文大部分内容参考自文献:Kearney, Michael. (2017). Cross-Lagged Panel Analysis. 所以不论自己写的怎么样都建议大家去瞅瞅原 ...

  • R数据分析:混合效应模型的可视化解释,再不懂就真没办法

    好多同学咨询我混合效应模型,有些问题自己需要讲很多遍,想想就再开一贴,争取这一篇文章给大家写清楚. 混合效应模型名字很多,Hierarchical Modeling, also known as Mi ...

  • R数据分析:交叉滞后模型基础与实例解析

    最近问纵向数据分析的同学贼多,像潜增长,GEE,多水平,之前好像都有写,今天偷空出个简易的交叉滞后教程哈,希望对大家有用.大家只要遇到像causal models,cross- lagged pane ...

  • R数据分析:竞争风险模型的做法和解释二

    找了好久,中文的竞争风险模型的学习资料好少哦,再加上帮粉丝做了一个竞争模型的分析,今天顺带就给大家写一个竞争风险回归的例子.也是接着上一篇文章的续R数据分析:竞争风险模型的做法和解释 实例描述 我们有 ...

  • R数据分析:竞争风险模型的做法和解释

    今天有粉丝找我做一个竞争风险模型,顺便给大家写一个简易的教程,有问题大家直接私信,根据您的需求,一直做到您满意. 竞争风险模型这个东西还是临床医生用的多: 很直观的情景就是:研究治疗方案A和白血病复发 ...

  • R数据分析:混合效应模型实例

    上篇文章有写多水平模型,这篇文章接着写,肯定好多人没搞懂,因为我自己也迷迷糊糊的,哈哈,很尴尬. 传统的回归需要满足的假设之一就是测量之间是相互独立的,然而有一种实验设计叫做重复测量设计,或者叫做被试 ...

  • R数据分析:多水平模型详细说明

    经常我们会听见随机效应模型,固定效应模型,混合效应模型呀,其实这些个东西都是多水平模型: Multilevel models (also known as hierarchical linear mo ...

  • 想用数据分析竞争对手,这个模型你不得不会

    竞争分析是企业市场战略分析当中非常重要的一部分,而战略钟模型则是竞争分析当中最常用的分析模型之一.战略钟模型是什么?战略钟模型是分析企业竞争战略选择的一种工具,它涉及两个主要概念:一是价格, 二是附加 ...