Logistic Regression - IBM 员工离职预测

公司从招聘到培训一名员工，每个环节都需花费不少的资源，而一个员工的离职多多少少会给公司带来损失，为了了解员工离职的原因并预测潜在的离职对象，IBM 公布了他们真实的员工信息并提出以下问题陈述：
“预测员工的流失，即员工是否会减员，考虑到员工的详细信息，即导致员工流失的原因”

本文将利用 logistic regression 来探索这一问题。

1. 前期准备

import matplotlib.pyplot as plt
import pylab as pl
import pandas as pd
import seaborn as sns
import numpy as np
from IPython.core.display import display
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report,roc_curve, auc
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler'exec(%matplotlib inline)'
sns.set()

2. 数据读取

#loading the dataset using Pandas
data = pd.read_csv('/.../logistic_regression_data.csv',sep=",")
data.head()# Output shown below

在此只显示了部分信息

3. 数据处理

填充缺省值：

# Data preprocessing
data.fillna(0, inplace=True)

观察得到， Age 这一列数据跨度太大，因此我们需要对这个特征进行分组操作：

# function to create group of ages, this helps because we have 78 different values here
def Age(dataframe):dataframe.loc[dataframe['Age'] <= 30, 'Age'] = 1dataframe.loc[(dataframe['Age'] > 30) & (dataframe['Age'] <= 40), 'Age'] = 2dataframe.loc[(dataframe['Age'] > 40) & (dataframe['Age'] <= 50), 'Age'] = 3dataframe.loc[(dataframe['Age'] > 50) & (dataframe['Age'] <= 60), 'Age'] = 4return dataframeAge(data)

在此样本数据中存在一些分类值，如 Attrition 可分为No和Yes, Gender 分为Female 和 Male。在机器学习任务中，对于这样的特征，通常我们需要对其进行特征数字化，本文中我们将利用LabelEncoder() 函数：

# Encode labels with value between 0 and n_classes-1.
# Digitizing texts
labelEncoder_X = LabelEncoder()
data['BusinessTravel'] = labelEncoder_X.fit_transform(data['BusinessTravel'])
data['Department'] = labelEncoder_X.fit_transform(data['Department'])
data['EducationField'] = labelEncoder_X.fit_transform(data['EducationField'])
data['Gender'] = labelEncoder_X.fit_transform(data['Gender'])
data['JobRole'] = labelEncoder_X.fit_transform(data['JobRole'])
data['MaritalStatus'] = labelEncoder_X.fit_transform(data['MaritalStatus'])
data['Over18'] = labelEncoder_X.fit_transform(data['Over18'])label_encoder_y = LabelEncoder()
data['Attrition'] = label_encoder_y.fit_transform(data['Attrition'])data

至此，我们所有的特征值都转化为了数字

4. 数据可视化分析

我选择用 heatmap 来观察多对象多特征之间的关系：

corr_cols = data[['Age', 'Attrition', 'BusinessTravel', 'Department','DistanceFromHome', 'Education', 'EducationField', 'EmployeeCount','EmployeeID','Gender', 'JobLevel','JobRole','MaritalStatus', 'MonthlyIncome', 'NumCompaniesWorked','Over18','PercentSalaryHike', 'StandardHours','StockOptionLevel', 'TotalWorkingYears','TrainingTimesLastYear', 'YearsAtCompany', 'YearsSinceLastPromotion','YearsWithCurrManager']]corr = corr_cols.corr()
plt.figure(figsize=(18, 10))
sns.heatmap(corr, annot=True,cmap="RdBu_r")

咦，为什么中间有些空没有画上去呢？仔细观察后发现，对于所有对象，特征EmployeeCount,Over18,StandardHours的值相等，因此这三个特征对我们的模型训练帮助不大，可以选择删除

data.drop(['EmployeeCount', 'StandardHours','Over18'], axis=1, inplace=True)corr_cols = data[['Age', 'Attrition', 'BusinessTravel', 'Department','DistanceFromHome', 'Education', 'EducationField', 'Gender', 'JobLevel','JobRole','MaritalStatus', 'MonthlyIncome', 'NumCompaniesWorked','PercentSalaryHike', 'StockOptionLevel', 'TotalWorkingYears','TrainingTimesLastYear', 'YearsAtCompany', 'YearsSinceLastPromotion','YearsWithCurrManager']]corr = corr_cols.corr()
plt.figure(figsize=(18, 10))
sns.heatmap(corr, annot=True,cmap="RdBu_r")

改进后的热力图如下：

接下来我们就可以开始训练模型啦

5. 逻辑回归

这里选择直接调用 sklearn 下的 LogisticRegression模型

# Split data into training and Testing set:
# Choose dependent and independent var:¶
# here dependent var is Attrition and rest of the var are independent var.
y = data['Attrition']
x = data.drop('Attrition', axis=1)X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.20, random_state=42)
# Standardization of a dataset
Scaler_X = StandardScaler()
X_train = Scaler_X.fit_transform(X_train)
X_test = Scaler_X.transform(X_test)lr = LogisticRegression(solver='saga')
lr_trained=lr.fit(X_train, y_train)
y_pred = lr.predict(X_test)

让我们看看模型的准确率：

display(accuracy_score(y_test, y_pred))

0.8378684807256236

感觉效果还不错，再来看看它的 ROC 曲线吧：

# Plotting the ROC Curve
y_roc = np.array(y_test)
fpr, tpr, thresholds = roc_curve(y_roc, lr_trained.decision_function(X_test))
roc_auc = auc(fpr, tpr)
pl.clf()
pl.plot(fpr, tpr, label='ROC curve (area = %0.2f)' % roc_auc)
pl.plot([0, 1], [0, 1], 'k--')
pl.xlim([0.0, 1.0])
pl.ylim([0.0, 1.0])
pl.xlabel('False Positive Rate')
pl.ylabel('True Positive Rate')
pl.legend(loc="lower right")
pl.show() # Output shown below

若 ROC 曲线越靠近左上角说明分类效果越好, 与之对应的 auc 的值就越大.

6. 小结

通过性能分析可以得出，机器学习预测模型成功地对83.79%的未知(验证集)样本进行了正确有效的分类，并对不同的性能指标给出了较低的统计数据。

因此，通过这种方式，可以使用数据分析和机器学习建立员工流失预测模型。

参考资料
[1] 使用机器学习方法预测员工流失数据模型
[2] 公司人员离职情况分析及预测（工具：python）
[3] 机器学习实战（一）：逻辑回归预测
[3] Seaborn5分钟入门(六)——heatmap热力图