r语言员工离职_基于随机森林的优秀员工离职因素实证分析及预测

1. 引言

21世纪是一个信息经济和知识经济高度发展的时代，随着国际市场的不断开放以及国内市场自由化程度的提高，市场对人才资源的竞争愈发激烈，因此导致优秀人才的流动意愿也越来越强烈，离职的行为也变得越来越频繁。优秀人才的流失将会严重抑制公司的发展，也将使公司付出巨大的人力物力去重新培养可用人才，因此通过对公司优秀员工的离职因素的研究，有效的降低离职率、减少离职行为变得必不可少。国内外对员工离职的影响因素的研究已有很多，著名学者Viteles [1] 得出在组织中智力测验成绩高于平均分以上的员工留职的时间更长。Abelson [2] 认为离职员工的离职大多是因为工作压力大，对工作存在意见。我国学者刘智强、廖建桥和李震 [3] 在对国企员工离职倾向影响因素的研究中发现，升职制度对于国企员工离职倾向的影响要高于薪酬。颜西平 [4] 通过对生产一线的生产员工离职情况研究发现，影响其离职的主要因素是个人因素、组织因素及薪酬待遇。车雯 [5] 从中国银行咸阳分行的员工离职现状着手，发现影响员工离职的最主要原因是薪酬体系设计的不合理、晋升渠道太窄以及相关培训的缺乏。马跃如，余航海，夏冰 [6] 在研究中证明，组织中的破坏性领导会加大和强化员工的负面情绪，导致更强烈的离职意愿。

综上所述，国内外大部分关于员工离职影响因素的分析大多建立在定性分析的基础上，定量分析涉及的比较少。本文尝试使用随机森林机器学习 [7] [8] 方法对某公司优秀员工离职因素进行实证分析，找出影响其离职的最关键因素，把多余的无用的特征去掉，降低了维度计算，避免了过拟合，同时用挑选出来的关键变量来形成一个新的指标帮助公司改善管理模式，并对在职的优秀员工进行预测，判断其离职的概率以供公司管理人员采取相应的挽留人才措施。最后，提出有效可行的建议。

2. 样本数据的获取及模型构建

2.1. 样本数据获取

本文采用的数据集来源kaggle竞赛项目：HR-Analytics。这个数据集是关于一家大公司的人力资源数据集，共有14,999条数据，包含9个自变量以及一个因变量。详细说明见表1。熊梦鸿 [9] 谈到，在现代的人力资源管理中，薪酬管理和绩效管理是导致优秀人才严重流失、抑制企业发展的最为关键和重要的内容。在本文中，将基于熊梦鸿 [9] 的论述，对于优秀员工的选择指标分别为：工作年限大于等于4年；绩效评估大于等于0.72；薪资水平为high。

Table 1. Explanation of variables

表1. 变量的解释说明

2.2. 基本的描述性统计分析

从表2可以看到，1) 该公司的离职率将近20.8%。2) 该公司的优秀员工对公司的满意度在62%左右。3) 该公司的优秀员工的绩效评估大概在79.7%。4) 该公司的优秀员工平均每人参加过4个项目左右。5) 该公司的优秀员工每月平均工作时长大约在210个小时。

Table 2. Description statistics for each variable

表2. 各个变量的描述统计量

从图1(a)中可以看到，该公司的优秀员工工作未发生差错的占比为84.77%，远高于发生差错的；图1(b)中可以看出，该公司优秀员工的薪资大多分布于低等–中等水平，高等水平占比比较少；图1(c)中可以看出该公司优秀员工没有得到晋升的占比为97.52%，远大于得到晋升的。图1(d)中可以看出该公司优秀员工参加4个项目的人数居多，参加7个项目的人数较少，占比为2.53%。

Figure 1. Percentage pie chart for each variable

图1. 各变量的百分比饼图

接下来通过R软件对选择出的优秀员工数据进行分析，将进一步探索各个变量分别与因变量(是否已经离职)之间的关系，结果如下图2。

从图2中可以看出，优秀员工离职的特征：

1) 对公司满意度较低的员工离职率高，对公司满意度较高的员工离职率也不低；

2) 绩效评估较高的优秀员工离职率也高；

3) 平均每月工作时间多的(高于230个小时)优秀员工相对于每月工作时间短的员工离职率较高；

相对应的可能原因进一步分析如下：

Figure 2. Whether to quit or not to be satisfied with the company (top), performance evaluation (middle), average working hours per month (bottom)

图2. 是否离职与对公司满意程度(上)、绩效评估(中)、平均每月工作时长(下)

从图2(上)可以看出，对公司满意程度低于0.1的优秀员工基本上离职了，满意度在0.75~0.9之间，优秀员工的离职率又达到了一个峰值，这些都是对公司满意程度比较高的员工，说明其离职并不是对公司不满意，可能是他们寻找到了一个更好地工作机会。图2(中)可以看出，绩效评估在0.6~0.8之间，优秀员工有一个比较好的留职情况，但是绩效评估比较优秀的离职密度较大，说明对于绩效评估比较高的优秀员工，公司没有相应的转化到升职和加薪上面。图2(下)中可以很明显的看出，平均每月工作时间多的(大约高于230小时)优秀员工离职率最高，说明一般离开公司的优秀员工大部分属于过度工作的。

从图3中可以看出：优秀员工离职的特征：

Figure 3. The percentage stacking bar chart of whether a good employee leaves or not and other independent variables

图3. 优秀员工是否离职分别与其他自变量的百分比堆积条形图

1) 参与项目个数较少的员工选择离职，但参与项目数在4~7个之间的员工离职率越来越高；

2) 在公司工作时间较短的优秀员工离职率更高，年数在4~6年比较集中；

3) 各个部门的离职率都差不多；

4) 薪资在低等–中等水平的优秀员工离职率高；

5) 5年内没有得到晋升的员工离职率高；

进一步对其产生的可能的原因进行分析如下：

(1)中有的优秀员工在只有两个项目的时候就选择了离开公司，同样地，有4~7个项目的优秀员工离职率愈来愈高，我们可以猜测到：项目数目比较少的优秀员工可能会因为没有受到公司的重视或者自己的才华得不到施展从而离开公司，6个项目数以上的优秀员工可能是因为工作太劳累从而选择离开公司；(2)中大部分离职的优秀员工都是在公司已经工作了4~6年，而在公司待了7~10年的优秀员工反而没有人离职。其可能的原因在于年轻的优秀员工更倾向于多尝试挑选适合的公司或岗位，高离职率也意味着员工在短期内难以形成对企业价值观的长期认同。(3)中可以看出，各个部门的离职率情况差不多，但是人力资源(hr)和技术(technical)部门的离职率稍微比较高，可以针对这两个部门的优秀人员深入了解一下情况，多关注。(4)中薪资较低、没有得到晋升的离职率高，很明显，这符合人之常情。说明不定期的加薪和晋升也是必不可少的。

3. 模型构建

随机森林是通过组合多棵决策树分类器进行预测的，因此形成了“森林”，这也就是其名称的由来。从直观上讲，每棵决策树都是一个分类器(针对于分类问题)，那么对于输入一个样本，N棵树就会有N个分类结果。而随机森林将对多个决策树产生的预测结果采取投票的方式，将投票次数最多的类别指定为最终的输出。在本文中，我们将根据因变量进行7:3的分层抽样，其中70%作为训练集，剩余30%作为测试集进行预测。

对于分类模型，通常采用混淆矩阵来评价其预测能力。混淆矩阵的核心在于预测值与真实值的互联表。显然，在混淆矩阵中，预测值和实际值相符的观测个数是评价模型好坏的一个重要指标，如下表3所示。

Table 3. Confusion matrix

表3. 混淆矩阵

其中，强调预测精准程度和查准率的指标为：

Accuracy

N ，

Precision

模型的精度，即模型预测正确的个数/样本的总个数。一般情况下，模型的精度越高，说明模型的效果越好；查准率，在模型预测为正类的样本中，真正为正类的样本所占的比例。一般情况下，查准率越高，说明模型的效果越好。

建立模型的实验结果

如表4。

Table 4. Confusion matrix of test set

表4. 测试集的混淆矩阵

由表4可以看出，Accuraccy = (2316 + 594)/(2316 + 3 + 33 + 594) = 98.8%

Precision = 2316/(2316 + 33) = 98.6%，模型的精度和查准率都很高，说明该模型的预测效果非常好。

4. 优秀员工离职影响因素的重要性分析

绘制出影响优秀员工离职的各因素重要性分析如下图4所示。由于其他文献多使用Mean Decrease Accuracy指标，本文我们也重点在于对其的阐述。图4即为Mean Decrease Accuracy指标，是指平均精确度的降低。如果变量重要，则预测的误差增大，即误差的增大相当于精确度的减少，精确度越小也就反映这个变量越重要。从图中可以看出这些变量的重要性排序，其中比较重要的几个变量依次为对公司的满意程度、工作年限、绩效评估、平均每月工作时长。通过前面的分析也得到了类似的发现。

Figure 4. Ranking chart of the importance of factors influencing the turnover of excellent employees

图4. 各因素对优秀员工离职影响重要性排序图

对在职优秀员工进行预测

目前为止，没有任何数据能够很精准的预测员工的去留，在这里，我们可以利用模型来预测优秀员工在不久的将来是否会离职。接下来我们就用剩余的30%数据，采用上述方法进行预测，判断优秀员工是否会离职。

由表5可以得出，在这剩余30%的样本数据中，有597个优秀员工可能会选择离职。该公司可以选择对这些优秀员工进行重点关注，尝试在优秀员工要离职的时候，采取适当措施以留住优秀人才或者提前招聘、培训新员工，减少公司造成的损失。

Table 5. Forecast excellent employee turnover probability table

表5. 预测优秀员工离职概率表

5. 结论及建议

5.1. 结论

1) 随机森林算法可获得影响因素的重要性排序，可快速有效地从大量影响因素中辨别出对模型预测影响较大的、较关键的影响因素，降低了模型的维度，并减小了模型过拟合的可能性，在管理领域中可以进行广泛应用。

2) 选择离开该公司的优秀员工平均每月工作时长大多在230个小时、4~7个项目以上且离职的优秀员工的薪资大多在低等–中等水平，说明选择离职的优秀员工存在着过度劳累、薪酬低，付出和回报不对等的情况；

3) 从优秀员工的不同因素的数据比较中可以看出，该公司的优秀的离职员工大多对公司满意程度比较高、绩效评估比较优秀，说明可能该公司没有这些相应的转化到升职和加薪上面，导致该公司优秀员工选择寻求另一个更好的机会；这也说明了结论1，即使对公司有着很高的满意度，但是还是有其他的因素影响优秀员工的离职。

4) 各个部门的离职率大致都差不多，但是人力资源(hr)和技术(technical)部门的离职率比较高，那么该公司应该对其部门的工作方式和工作量进行关注；

5.2. 建议

1) 该公司应该更加注重优秀员工的工作和生活的平衡，采取人性化的管理方式，提高工作效率，避免加班情况的出现；

2) 该公司应该要合理进行薪酬设计，并且要确保能够及时的根据员工的工作表现和业绩以及市场变化作出相应的客观的变化，这样能够更好地激发优秀员工的工作热情，调动其积极性、创造性。优秀员工看中的是良好的待遇，和更好的职业发展，这些因素都直接影响员工的主观感受，公司给予了员工高的评价，但没有相应转化到薪资和升职，即使一部分离职的优秀员工对公司有很高的满意度，但依然不能阻挡他们会追寻更好的工作机会。

3) 完善绩效评估的方式，绩效评估的真正意义是为了提高优秀员工的工作业绩水平，但是现在大部分公司的绩效评估缺乏科学的方式和依据，导致评估结果失去公正性以至于造成了人员的流动。该公司可以根据相关管理人员和专业人员工作岗位的性质、职责以及所要承担风险的大小程度来指定考核标准，脱离原本的死板的条条框框。

基金项目

国家自然科学基金项目(61763008，71762008)；广西自然科学基金项目(2016GXNSFAA380194)。

NOTES

*通讯作者。

r语言员工离职_基于随机森林的优秀员工离职因素实证分析及预测相关推荐

R语言使用caret包构建随机森林模型（random forest）构建回归模型、通过method参数指定算法名称、通过ntree参数指定随机森林中树的个数
R语言使用caret包构建随机森林模型(random forest)构建回归模型.通过method参数指定算法名称.通过ntree参数指定随机森林中树的个数目录
R语言决策树、bagging、随机森林模型在训练集以及测试集的预测结果（accuray、F1、偏差Deviance）对比分析、计算训练集和测试集的预测结果的差值来分析模型的过拟合（overfit）情况
R语言决策树.bagging.随机森林模型在训练集以及测试集的预测结果(accuray.F1.偏差Deviance)对比分析.计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况 ...
随机森林c语言编程,一种基于随机森林的C语言源代码静态评分方法与流程
本发明涉及评分领域及机器学习领域,它特别涉及一种基于随机森林的c语言源代码静态评分的构建方法. 背景技术: c语言源代码静态评分是指对根据一定的题目描述做出解答的c语言源代码进行评分.目前,主要流行的 ...
随机森林回归预测r语言_R包 randomForest 进行随机森林分析
randomForest 包提供了利用随机森林算法解决分类和回归问题的功能:我们这里只关注随机森林算法在分类问题中的应用首先安装这个R包 install.packages("randomF ...
R语言使用randomForest包构建随机森林模型（Random forests）、使用importance函数查看特征重要度、使用table函数计算混淆矩阵评估分类模型性能、包外错误估计OOB
R语言使用randomForest包中的randomForest函数构建随机森林模型(Random forests).使用importance函数查看特征重要度.使用table函数计算混淆矩阵评估分类 ...
R语言使用randomForest包构建随机森林模型的步骤和流程、随机森林算法包括抽样样本（观察）和变量来创建大量的决策树（多个树，构成了森林，而且通过样本抽样和变量抽样，让多个树尽量不同）
R语言使用randomForest包中的randomForest函数构建随机森林模型的步骤和流程(Random forests).随机森林算法包括抽样样本(观察)和变量来创建大量的决策树(多个树,构成 ...
r语言线性回归相关系数_基于R语言的lmer混合线性回归模型
原文基于R语言的lmer混合线性回归模型tecdat.cn 混合模型适合需求吗? 混合模型在很多方面与线性模型相似.它估计一个或多个解释变量对响应变量的影响.混合模型的输出将给出一个解释值列表,其 ...
r语言pls分析_基于R语言的PLS算法的实现解读.pptx
基于R语言的PLS算法的实现及研究目录使用的开发工具偏最小二乘的设计思想基于R语言.MATLAB的偏最小二乘的实现通径分析测定系数实验分析使用的开发工具 R 语言(R是用于统计分析.绘 ...
R语言数据缺失值处理（随机森林，多重插补）
缺失值是指数据由于种种因素导致的数据不完整,可以分为机械原因和人为原因.对于缺失值我们通常采用以下几种方法来进行插补. 1.读取数据通过read.csv函数导入文档,也可以用其他函数读入,如open ...
R语言实现可理解的随机森林模型（Random Forest）——iml包
Random Forest 解释模型 1. 介绍 2. 理解随机森林运行机理 2.1导入需要的包 2.2 构建随机森林模型 2.3 RF特征重要性: 2.4 特征对预测结果的影响 2.5 交互作用 2 ...

r语言员工离职_基于随机森林的优秀员工离职因素实证分析及预测

r语言员工离职_基于随机森林的优秀员工离职因素实证分析及预测相关推荐

最新文章

热门文章