北京物流信息联盟

机器学习可以用来预测和解释员工流失

2022-01-22 06:36:48


 | Matt Dancho     | 崔岚

员工流失(减员)是一个组织机构的主要成本所在。我们最近采用了两种新技术来预测和解释员工流失:使用H2O的自动ML技术和使用LIME的可变重要性分析技术。

 


员工流失 (减员) 是组织机构的一项主要成本, 在许多组织机构中,预测人事变动是人力资源 (HR) 的核心需求。目前,主流方法是使用逻辑回归或者生存曲线来模拟员工减员。然而随着机器学习(ML)的进步, 现在,我们可以获得更好的预测性能,并能够更好的解释哪些重要因素与员工流失有关。在这篇文章中,我们将解释如何使用H2O的自动机器学习功能来开发一个预测模型,这个预测模型在机器学习准确度方面和商业产品相当。我们还将解释如何应用新的LIME包将复杂的黑盒机器学习模型分解成可变重要性图表。


问题:员工流失


组织机构面临着因员工流失所带来的巨大成本。有些成本是有形的,例如培训费用和员工能够开始产出效益所需的时间成本。然而,最重要的成本是无形的。想想一个有生产力的员工离职时所失去的东西: 新产品创意,良好的项目管理,或客户关系。随着机器学习和数据科学的进步,不仅可以预测员工的流失,而且可以了解影响员工流失的关键因素。


我们使用来自【IBM Watson 网站】(https://www.ibm.com/communities/analytics/watson-analytics-blog/hr-employee-attrition/)的HR员工流失数据集来测试几个高级ML技术。这个数据集包括1470名员工(行)和35个属性(列),一部分已经离职(Attrition = “Yes”)。根据IBM声明,“这是由IBM数据科学家创建的虚构数据集”。



解决方案:H2O和LIME


我们的解决方案是使用H2O进行自动机器学习,和使用LIME来理解和分解复杂的黑盒模型。我们将对分析结果中的重点部分进行介绍,感兴趣的读者可以在这里看到[完整解决方案,包括代码](http://www.business-science.io/business/2017/09/18/hr_employee_attrition.html)。


使用“h2o”包中的“h2o.automl()”进行机器学习:该函数通过测试一些高级算法,如随机森林、集合方法和深度学习,以及传统的逻辑回归算法,将自动化机器学习带到了一个新的高度。它的主要贡献是,我们现在可以很容易地实现和商业算法以及ML/AI 软件一样好(在某些情况下甚至更好)的预测性能。


领导者模型 (在验证集上产生的最精确模型) 在看不到测试集的建模过程中,有着惊人的88%的准确性。此外,二进制分类分析有着62%的召回率(当损耗实际上是yes时,算法预测Attrition = "yes" 的次数),即HR专业人员可以准确地定位被认为有风险的100名员工中的62人。对HR来说,召回是非常重要的,因为我们不想错过高风险的员工,62% 的表现相当不错。


使用‘lime’包的特征 (变量) 重要性: 高级机器学习算法(例如深度学习)的问题是由于其复杂性,我们几乎不可能理解算法。而这一切都因为‘lime’包改变了。"lime" 的主要贡献是,通过在本地对模型进行递归分析,可以提取全局重复的特征重要性。这对于我们来说意味着 "lime" 打开了理解 ML 模型的大门,而不用考虑其复杂性。现在,最好的 (通常非常复杂) 模型也可以被研究,并可能被理解:是什么变量或特征使模型起作用。


我们使用LIME所得到的是这个特征重要性图表。它显示了前十个案例(观察)中的前四个特征。绿色条意味着该特征支持模型结论,红色条意味着相矛盾。LIME发现加班,工作职位和培训时间这些特征与模型预测相关。


然后,我们分析了关键特征,了解这些特征是否与减员有关。对于像加班工作职位这样的特征,它们的差异似乎是有关联的。我们可以看到Attrition = “No”的员工加班时间比例较低。此外,与其他工作职位相比,销售代表,实验室技术员和人力资源等职位具有较高的离职率。



结论


新的机器学习技术可以应用于商业应用和特定的预测分析。在这种情况下,我们使用 H2O 和LIME来开发和解释能够非常准确地发现有流失风险的员工的精密模型。H2O 的"h2o.autoML" 函数在不可见/未建模数据上对减员进行分类时效果很好,精确度约为88%。LIME可以把从H2O返回的复杂集成模型分解成与减员相关的关键特征。


作者简介:Matt Dancho是 [商业科学] (www.business-science.io) 的创始人,它是一家协助组织机构将数据科学应用于商业应用的咨询公司。他是 R 语言应用 idyquant 和 timetk 的创始人,并在应用数据科学的商业和金融分析领域工作了六年。Matt拥有商业和工程硕士学位,在商业智能、数据挖掘、时间序列分析、统计学和机器学习方面拥有丰富的经验。


-END-


译者 | 崔岚


软件测试开发工程师,在职经济管理研究生。感恩&且行且珍惜。


后台回复 “志愿者”

了解如何加入我们




友情链接

Copyright © 2023 All Rights Reserved 版权所有 北京物流信息联盟