人才流失预测模型(机器学习）

1. 项目描述

企业的快速发展离不开人才的支撑，可是现在我国的企业的人才流失严重，人才流失问题现在已经成为了关系企业发展的一个重大的问题。这些企业要想在目前激烈的竞争中快速发展，就需要依靠自身的人力资源的来竞争。只有拥有比对方更强，更优秀，更具有创造力的人才，才能在竞争中取得优势。所以如何有效解决我国企业人才流失问题是一个很迫切的任务。人才流失已经成了很多企业正在面临的困境，关键人才的流程对企业的影响尤为明显。无论在IT互联网领域还是传统领域、事业单位，均面临关键人才的流失，作为公司的核心的人力资源部门，我们需要把控员工的基本情况，对员工的情况进行实时监控和预测，人才流失模型从公司的角度和员工自身角度分别入手，阐释了在那些重要维度能够保持流失率的下降，常规的做法比如增强企业文化，提高薪资，提高年终奖等，通过模型给出人力资源部门一定的建议。

2. 技术说明

项目通过公司内部人资资源系统数据，通过数据的基本ETL(数据清洗过滤和汇总)对数据进行基本的预处理，通过python的numpy、pandas、matplotlib和seaborn进行各维度数据分析，经过数据分析得到分类特征较好的特征数据，对数值型数据、类别型数据、有序性数据分别进行处理和分析，使用label encoder和one encoder分别对类别数据进行特征编码，处理组合后的数据特征后形成特征向量，通过Python的Scikit-learn机器学习库的机器学习算法寻找数据之间存在的关系，从而为公司人力资源及决策层提供信息建议及决策建议

3. 需求分析

1 分析各个维度的数据对人才流失的影响2 通过训练数据建立的模型以及所给的测试数据，构建人才流失模型，最终预测测试数据相应的员工是否已经离职（0未离职，1离职）。

4. 数据集描述

数据主要包括影响员工离职的各种因素（工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等）以及员工是否已经离职的对应记录。数据分为训练数据和测试数据，分别保存在train.csv和test.csv两个文件中。训练数据主要包括1100条记录，31个字段。* Attrition：员工是否已经离职，1表示已经离职，0表示未离职，这是目标预测值；
* Age：员工年龄
* BusinessTravel：商务差旅频率，Non-Travel表示不出差，Travel_Rarely表示不经常出差，							  Travel_Frequently表示经常出差；
* Department：员工所在部门，Sales表示销售部，Research & Development表示研发部，Human Resources表示人力资源部；
* DistanceFromHome：公司跟家庭住址的距离，从1到29，1表示最近，29表示最远；
* Education：员工的教育程度，从1到5，5表示教育程度最高；
* EducationField：员工所学习的专业领域，Life Sciences表示生命科学，Medical表示医疗，Marketing表示市场营销，Technical Degree表示技术学位，Human Resources表示人力资源，Other表示其他；
* EmployeeNumber：员工号码；
* EnvironmentSatisfaction：员工对于工作环境的满意程度，从1到4，1的满意程度最低，4的满意程度最高；
* Gender：员工性别，Male表示男性，Female表示女性；
* JobInvolvement：员工工作投入度，从1到4，1为投入度最低，4为投入度最高；
* JobLevel：职业级别，从1到5，1为最低级别，5为最高级别；
* JobRole：工作角色：Sales Executive是销售主管，Research Scientist是科学研究员，Laboratory Technician实验室技术员，Manufacturing Director是制造总监，Healthcare Representative是医疗代表，Manager是经理，Sales Representative是销售代表，Research Director是研究总监，Human Resources是人力资源；
* JobSatisfaction：工作满意度，从1到4，1代表满意程度最低，4代表满意程度最高；
* MaritalStatus：员工婚姻状况，Single代表单身，Married代表已婚，Divorced代表离婚；
* MonthlyIncome：员工月收入，范围在1009到19999之间；
* NumCompaniesWorked：员工曾经工作过的公司数；
* Over18：年龄是否超过18岁；
* OverTime：是否加班，Yes表示加班，No表示不加班；
* PercentSalaryHike：工资提高的百分比；
* PerformanceRating：绩效评估；
* RelationshipSatisfaction：关系满意度，从1到4，1表示满意度最低，4表示满意度最高；
* StandardHours：标准工时；
* StockOptionLevel：股票期权水平；
* TotalWorkingYears：总工龄；
* TrainingTimesLastYear：上一年的培训时长，从0到6，0表示没有培训，6表示培训时间最长；
* WorkLifeBalance：工作与生活平衡程度，从1到4，1表示平衡程度最低，4表示平衡程度最高；
* YearsAtCompany：在目前公司工作年数；
* YearsInCurrentRole：在目前工作职责的工作年数
* YearsSinceLastPromotion：距离上次升职时长
* YearsWithCurrManager：跟目前的管理者共事年数；

5. 开发流程详细描述:

5.1 人员组成和分工:

整体流程:王晓通柯于辉数据探索分析,特征处理: 张潇予,常春倩初始模型: 刘冰冰,郑舒文,马毅景优化模型:柯于辉,刘冰冰,郑舒文,马毅景 toad跑整个流程: 王晓通,计宇东汇报: 柯于辉

5.1 数据获取(来源于公司内部的人力资源数据，通常没有缺失值的)

5.1.1 git项目描述

每个组一个总分支: group06: 用于最后合并汇报

组内每个人一个分支: group06_keyuhui, 用于自己个人开发.pull拉取group06分支结构

5.1.2 git项目结构:

# 1. 加载数据,shape,info,desc查看基本信息
data = pd.read_csv('../../data/raw/train.csv')

5.2 数据探索性分析

5.2.1 data.shape()结果

5.2.2 data.info()结果: 无空值情况,有object 需要转数值

5.2.3 data.describe()结果: 暂时看不出异常,需要处理的地方

5.2.4 数据探索性分析结果:

通过以上shape,info,describe 查看结果: 无空值需要处理, 有object类型需要转数值类型,

其他暂时看不出需要处理之处.

5.3 数据预处理

接下来对object类型数据转数值, 通过分析这些object特征列

商务差旅频率,	员工所在部门,	员工所学习的专业领域,	Gender,
工作角色,员工婚姻状况,年龄是否超过18岁,是否加班,

适合采用label encoder,标签编码

5.4 特征处理

5.4.1 对8个object特征进行 label encoder

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
data['BusinessTravel'] = le.fit_transform(data['BusinessTravel'])
data['Department'] = le.fit_transform(data['Department'])
data['EducationField'] = le.fit_transform(data['EducationField'])
data['Gender'] = le.fit_transform(data['Gender'])
data['JobRole'] = le.fit_transform(data['JobRole'])
data['MaritalStatus'] = le.fit_transform(data['MaritalStatus'])
data['Over18'] = le.fit_transform(data['Over18'])
data['OverTime'] = le.fit_transform(data['OverTime'])data.head()

5.4.2 转换后结果:

5.5 数据集的划分：使用20%部分作为测试集，80%作为训练集

x_train, x_test, y_train, y_test = train_test_split(data.drop('Attrition',axis=1), data['Attrition'], test_size=0.2, random_state=21)

5.6 模型训练：逻辑回归、决策树、随机森林等

5.6.1 逻辑回归: baseline 初始模型训练

# 6. baseline 初始模型训练: 逻辑回归
lr = LogisticRegression()
lr.fit(x_train, y_train)
# 7. 初始模型的AUC值
y_pred_lr = lr.predict_proba(x_test)[:,1]
print('初始模型的AUC值:',roc_auc_score(y_test, y_pred_lr))

5.6.2 决策树

# 6.2 决策树
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier()
dt.fit(x_train, y_train)
# 7. 初始模型决策树AUC值
y_pred_dt = dt.predict_proba(x_test)[:,1]
print('初始模型决策树AUC值:',roc_auc_score(y_test, y_pred_dt))

5.6.3 随机森林

# 6.3 随机森林
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier()
rf.fit(x_train, y_train)
# 7. 初始模型决策树AUC值
y_pred_rf = rf.predict_proba(x_test)[:,1]
print('初始模型随机森林AUC值:',roc_auc_score(y_test, y_pred_rf))

5.6.4 adaBoost

# 6.4 AdaBoost
from sklearn.ensemble import AdaBoostClassifier
mytree = DecisionTreeClassifier(criterion='entropy', max_depth=1, random_state=0)
myada = AdaBoostClassifier(estimator=mytree, n_estimators=500, learning_rate=0.1, random_state=0)
myada.fit(x_train, y_train)
# 7. 初始模型决策树AUC值
y_pred_myada = myada.predict_proba(x_test)[:,1]
print('初始模型AdaBoostAUC值:',roc_auc_score(y_test, y_pred_myada))

5.6.5 GBDT

# 6.5 DBDT 
from sklearn.ensemble import GradientBoostingClassifier
gbdt = GradientBoostingClassifier()
gbdt.fit(x_train, y_train)
# 7. 初始模型决策树AUC值
y_pred_gbdt = gbdt.predict_proba(x_test)[:,1]
print('初始模型DBDTAUC值:',roc_auc_score(y_test, y_pred_gbdt))

5.6.6 xgboost

5.6.7 lightGBM

# 6.6 lightGBM
from lightgbm import LGBMClassifier
# 创建lgb对象
lgbm =LGBMClassifier(boosting_type = 'gbdt',objective = 'binary',metric = 'auc',learning_rate = 0.3,n_estimators = 100,max_depth = 3,num_leaves = 20,max_bin = 45,min_data_in_leaf = 6,bagging_fraction = 0.6,bagging_freq = 0,feature_fraction = 0.8)
# 使用这个对象训练lgb模型
lgbm.fit(x_train,y_train,eval_set = [(x_train,y_train),(x_test,y_test)],eval_metric = 'auc')
# 7. 初始模型xgb的AUC值
y_pred_lgbm = lgbm.predict_proba(x_test)[:,1]
print('初始模型lgbm的AUC值:',roc_auc_score(y_test, y_pred_lgbm))

结果:初始模型lgbm的AUC值: 0.8018461538461539

5.6.8 对比以上几个模型结果:

模型逻辑回归AUC值: 0.7341538461538462
决策树AUC值: 0.6282051282051282
随机森林AUC值: 0.7871794871794872
AdaBoostAUC值: 0.7749743589743588
GBDTAUC值: 0.7928205128205129
xgb的AUC值: 0.7688205128205129
lgbm的AUC值: 0.8018461538461539

从上面挑选AUC值最高的几个模型做进一步优化: 随机森林,GBDT,xgboost,lightGBM

5.6.9 尝试对随机森林模型进行交叉网络搜索优化

# 6.7.1 随机森林 交叉验证网格搜索 进行模型训练和评估
from sklearn.model_selection import GridSearchCV
estimator = RandomForestClassifier()
param = {"n_estimators": [10, 20, 30, 40, 50, 60, 70], "max_depth": [2, 4, 6, 8, 10], "random_state": [9]}
grid_search = GridSearchCV(estimator, param_grid=param, cv=2)
grid_search.fit(x_train, y_train)
accuracy = grid_search.score(x_test, y_test)
print("随机森林网格搜索accuracy:", accuracy)
# 输出: RandomForestClassifier(max_depth=6, n_estimators=10, random_state=9)
# 就可以根据最优超参组合用模型
print(grid_search.best_estimator_)

# 上面得到最佳模型输出: RandomForestClassifier(max_depth=6, n_estimators=10, random_state=9)
# 6.7.2 根据交叉验证网格搜索 得到的超参组合,得到的模型来测试
rf_best = RandomForestClassifier(max_depth=6, n_estimators=10, random_state=9)
rf_best.fit(x_train, y_train)
y_pred_rf_best = rf_best.predict_proba(x_test)[:,1]
print('RandomForest 交叉验证网格搜索的AUC值:',roc_auc_score(y_test, y_pred_rf_best))

结果:RandomForest 交叉验证网格搜索的AUC值: 0.7132307692307693..

效果还更差,,可见是在训练集上更好,但测试集更差,,过拟合了. 不采用

5.7 模型校验：

模型准确率、召回率、精确率、F1值、ROC曲线(横轴：真正率TRP，纵轴：假正率FPR)-----通过曲线和x轴围城的面积衡量分类性能的好坏，曲线面积叫做AUC值---面积大小代表准确率大小---Roc-Auc曲线

5.7.1 使用验证数据集:

# 先随机森林
# 利用数据集test2.csv 来验证3个模型: 随机森林,GBDT,lightGBM
from sklearn.metrics import accuracy_score, precision_score,recall_score,f1_score,roc_auc_score
y_pred_rf = rf.predict_proba(x_val)[:,1]
# 模型准确率, 、ROC曲线
print('模型准确率',rf.score(x_val,y_val))
print('验证集随机森林AUC值:',roc_auc_score(y_val, y_pred_rf))
y_predict=rf.predict(x_val)
# 计算 召回率、精确率、F1值
print("随机森林的精确率:",precision_score(y_val,y_predict))
print("随机森林的召回率:",recall_score(y_val,y_predict))
print("随机森林的f1-score:",f1_score(y_val,y_predict))# 结果:
模型准确率 0.8714285714285714
验证集随机森林AUC值: 0.808461978273299
随机森林的精确率: 0.75
随机森林的召回率: 0.22641509433962265
随机森林的f1-score: 0.3478260869565218# 直接报告api输出:
from sklearn.metrics import classification_report
print("随机森林验证报告:",classification_report(y_val,y_predict))
随机森林验证报告:  precision    recall  f1-score   support0       0.88      0.99      0.93       2971       0.75      0.23      0.35        53accuracy                           0.87       350macro avg       0.81      0.61      0.64       350
weighted avg       0.86      0.87      0.84       350

# GBDT
y_pred_gdbt = gbdt.predict_proba(x_val)[:,1]
# 模型准确率, 、ROC曲线
print('GBDT模型准确率',gbdt.score(x_val,y_val))
print('验证集GBDT的AUC值:',roc_auc_score(y_val, y_pred_gdbt))
# 结果:
GBDT模型准确率 0.8742857142857143
验证集GBDT的AUC值: 0.7949939648052855
# 报告: 
y_predict=gbdt.predict(x_val)
print("随机森林验证报告:",classification_report(y_val,y_predict))
# 结果 
gbdt验证报告:    precision    recall  f1-score   support0       0.89      0.97      0.93       2971       0.66      0.36      0.46        53accuracy                           0.87       350macro avg       0.77      0.66      0.70       350
weighted avg       0.86      0.87      0.86       350

# xgboost
y_pred_xgb = xgb.predict_proba(x_val)[:,1]
# 模型准确率, 、ROC曲线
print('xgb模型准确率',xgb.score(x_val,y_val))
print('验证集xgb的AUC值:',roc_auc_score(y_val, y_pred_xgb))
# 结果:
xgb模型准确率 0.8514285714285714
验证集xgb的AUC值: 0.787497617686297
# 报告
y_predict=xgb.predict(x_val)
print("xgb验证报告:",classification_report(y_val,y_predict))
xgb验证报告:    precision    recall  f1-score   support0       0.88      0.96      0.92       2971       0.52      0.26      0.35        53accuracy                           0.85       350macro avg       0.70      0.61      0.63       350
weighted avg       0.82      0.85      0.83       350

# lightGBM
y_pred_lgbm = lgbm.predict_proba(x_val)[:,1]
# 模型准确率, 、ROC曲线
print('lgbm模型准确率',lgbm.score(x_val,y_val))
print('验证集lgbm的AUC值:',roc_auc_score(y_val, y_pred_lgbm))
# 结果:
lgbm模型准确率 0.86
验证集lgbm的AUC值: 0.7875611460517121
# 报告:
y_predict=lgbm.predict(x_val)
print("lgbm验证报告:",classification_report(y_val,y_predict))
lgbm验证报告:     precision    recall  f1-score   support0       0.89      0.95      0.92       2971       0.56      0.38      0.45        53accuracy                           0.86       350macro avg       0.73      0.66      0.68       350
weighted avg       0.84      0.86      0.85       350

5.7.2 验证集验证了4个模型:随机森林,GBDT,xgBoost,lightGBM

相差不明显,下一步处理样本.

5.8 处理过采样

5.8.1 用代价敏感class_weight = 'balanced' 调整样本系数重新训练随机森林,

# 训练集: x_train,y_train 1100 条,
# 测试集: x_val,y_val 350条
rf = RandomForestClassifier(class_weight = 'balanced')
rf.fit(x_train, y_train)
# 模型决策树AUC值
y_pred_rf = rf.predict_proba(x_val)[:,1]
print('模型随机森林AUC值:',roc_auc_score(y_val, y_pred_rf))
# 结果:有较大提升(原AUC值:0.808461978273299)
# 输出结果:模型随机森林AUC值: 0.8227558604917096

下一步计算特征重要性,减少不重要特征.再训练验证

5.9 过采样后再次训练

5.9.1 用lightGBM 拟合计算特征重要性

def lgb_test(train_x,train_y,test_x,test_y):# 创建lgb对象lgbm =LGBMClassifier(boosting_type = 'gbdt',objective = 'binary',metric = 'auc',learning_rate = 0.3,n_estimators = 100,max_depth = 3,num_leaves = 20,max_bin = 45,min_data_in_leaf = 6,bagging_fraction = 0.6,bagging_freq = 0,feature_fraction = 0.8)# 使用这个对象训练lgb模型lgbm.fit(train_x,train_y,eval_set = [(train_x,train_y),(test_x,test_y)],eval_metric = 'auc')# 返回训练好的lgb模型, 返回最佳的分数return lgbm,lgbm.best_score_['valid_1']['auc']# 训练集: x_train,y_train 1100 条,
# 测试集: x_val,y_val 350条
model, auc = lgb_test(x_train,y_train,x_val,y_val)
# 计算特征重要性
feature_importance_df = pd.DataFrame({'name':model.booster_.feature_name(),'importance':model.feature_importances_}).set_index('name').sort_values(by='importance',ascending=False) # 为了方便后面结果的拼接, 这里把name 特征的名字作为行索引
feature_importance_df# 根据特征重要些结果: 先删除7个重要性很低的特征(值<10):
drop_columns=['Education','Gender','Department','JobLevel','Gender','Over18','StandardHours']
x_train= x_train.drop(columns=drop_columns,axis=1)
x_val=x_val.drop(columns=drop_columns,axis=1)
x_train

# 删除7个不重要特征重新训练验证模型
# 随机森林
# 代价敏感跑 逻辑回归
lr = LogisticRegression(C=0.1,class_weight = 'balanced')
lr.fit(x_train, y_train)
# 7. 初始模型决策树AUC值
y_pred_lr = lr.predict_proba(x_val)[:,1]
print('删除不重要特征后,模型逻辑回归AUC值:',roc_auc_score(y_val, y_pred_lr))# 结果: 模型逻辑回归AUC值: 0.7220634013086844
# 更低,不采用

# lightGBM
# lightGBM
lgbm =LGBMClassifier(boosting_type = 'gbdt',objective = 'binary',metric = 'auc',learning_rate = 0.3,n_estimators = 100,max_depth = 3,num_leaves = 20,max_bin = 45,min_data_in_leaf = 6,bagging_fraction = 0.6,bagging_freq = 0,feature_fraction = 0.8)
lgbm.fit(x_train, y_train)
# 模型决策树AUC值
y_pred_lgbm = lgbm.predict_proba(x_val)[:,1]
print('删除不重要特征后,模型lightGBM的AUC值:',roc_auc_score(y_val, y_pred_lgbm))# 结果:删除不重要特征后,模型lightGBM的AUC值: 0.8073184676958262
# 相对于前值:0.7875611460517121  有提升

# GBDT
# 训练集: x_train,y_train 1100 条,
# 测试集: x_val,y_val 350条
gbdt = GradientBoostingClassifier()
gbdt.fit(x_train, y_train)
# 7. 初始模型决策树AUC值
y_pred_gbdt = gbdt.predict_proba(x_val)[:,1]
print('删除不重要特征后,模型DBDTAUC值:',roc_auc_score(y_val, y_pred_gbdt))# 结果:删除不重要特征后,模型DBDTAUC值: 0.8296169239565465
# 对比前值:0.7949939648052855  有较大提升

# GBDT
# 训练集: x_train,y_train 1100 条,
# 测试集: x_val,y_val 350条
gbdt = GradientBoostingClassifier()
gbdt.fit(x_train, y_train)
# 7. 初始模型决策树AUC值
y_pred_gbdt = gbdt.predict_proba(x_val)[:,1]
print('删除不重要特征后,模型DBDTAUC值:',roc_auc_score(y_val, y_pred_gbdt))# 结果:删除不重要特征后,模型DBDTAUC值: 0.8296169239565465
# 对比前值:0.7949939648052855  有较大提升

# xgBoost
xgb = XGBClassifier(n_estimators=100,eta=0.1,random_state=21)
xgb.fit(x_train, y_train)
# 7. 初始模型xgb的AUC值
y_pred_xgb = xgb.predict_proba(x_val)[:,1]
print('删除不重要特征后,xgb的AUC值:',roc_auc_score(y_val, y_pred_xgb))# 结果: 删除不重要特征后,xgb的AUC值: 0.8103678292357538
# 对比前值:0.787497617686297 有较大提升

下一步,查看样本平衡性..采用smote 平衡样本再训练验证

5.10 过采样后模型验证

5.10.1 查看样本的平衡情况

# 训练集: x_train,y_train 1100 条,
# 测试集: x_val,y_val 350条
y_train.value_counts()
# 结果:
0,922
1,178
y_val.value_counts()
# 结果:
0,297
1,53# 可见需要做样本平衡处理.

# 10.3 用lightGBM 预测每个样本概率,倒序排序
#调用函数，进行训练
lgb_model,lgb_auc  = lgb_test(x_train,y_train,x_val,y_val) 
#模型预测
sample = x_train.copy()
sample['bad_ind'] = y_train 
sample['pred'] = lgb_model.predict_proba(x_train)[:,1]  
#对预测结果进行降序排序，这样，排序后的结果中，预测为正样本（坏人）概率越大的越靠前
sample = sample.sort_values(by=['pred'],ascending=True).reset_index()  
sample['rank'] = sample.index.values/len(sample)  
sample

# 再对过滤后数据,smote 少量样本 k近邻插入终结者,,增加少量样本数..达到平衡
# 定义函数去掉预测值与实际值不符的部分
#x：真实的结果
#y：预测的结果
#过滤预测和真实的情况严重不相符的样本
#由于上述表格中，我们是按照pred降序排序，因此越往前，是正样本（坏人）的概率越大，但是实际上是负样本（好人），所以这部分的数据要排除，同理，越往后，是负样本（好人）的概率越大，但是实际上是正样本（坏人），这部分的数据也要排除。
def weight(x, y):# 真实标签为0，违约概率为所有样本中最高的10%if x == 0 and y < 0.1:return 0.1# 真实标签为1  违约概率为所有样本中最低的30%elif x == 1 and y > 0.7:return 0.1else:return 1sample['weight'] = sample.apply(lambda row:weight(row['bad_ind'],row['rank']),axis = 1)
sample

#把预测相对比较准的取出来进行过采样
# 结果里: 没有结果为0,weight == 1的情况,所以无需过滤,直接在原数据上smote
# smote_sample = sample[sample.weight == 1]
smote_sample = sample
smote_sample.shape# 输出结果: (1100, 29)

# 只保留需要训练的特征字段
train_x_smote = smote_sample.drop(columns=['bad_ind','pred','rank','weight'])
train_y_smote = smote_sample['bad_ind']
train_x_smote

# 创建smote过采样函数，进行过采样
from imblearn.over_sampling import SMOTE
def smote(train_x_smote,train_y_smote,K=15,random_state=0):smote = SMOTE(k_neighbors=K, n_jobs=1,random_state=random_state)#fit_resample，找K个邻居，然后进行过采样rex,rey = smote.fit_resample(train_x_smote,train_y_smote)return rex,rey
rex,rey =smote(train_x_smote,train_y_smote)#查看数据smote 前
train_y_smote.value_counts()# smote前结果:
# 0,922
# 1,178
rey.value_counts()
# smote 后结果
# 0,922
# 1,922

# 再次用smote后的训练数据集训练
# 利用smote后的数据集rex,rey 训练模型
x_train=rex.drop('index',axis=1)
y_train=rey
# 决策树
dt = DecisionTreeClassifier(class_weight = 'balanced')
dt.fit(x_train, y_train)
# 模型决策树AUC值
y_pred_dt = dt.predict_proba(x_val)[:,1]
print('模型决策树AUC值:',roc_auc_score(y_val, y_pred_dt))# 结果输出: 模型决策树AUC值: 0.5897020519662028 
# 更低,不采用

# 再用smote后的数据集训练
#随机森林
rf = RandomForestClassifier(class_weight = 'balanced')
rf.fit(x_train, y_train)
# 模型决策树AUC值
y_pred_rf = rf.predict_proba(x_val)[:,1]
print('模型随机森林AUC值:',roc_auc_score(y_val, y_pred_rf))# 结果: 模型随机森林AUC值: 0.7608474683946382
# 更低,不采用

# gbdt
gbdt = GradientBoostingClassifier()
gbdt.fit(x_train, y_train)
# 模型决策树AUC值
y_pred_gbdt = gbdt.predict_proba(x_val)[:,1]
print('模型DBDT的AUC值:',roc_auc_score(y_val, y_pred_gbdt))# 结果: 模型DBDT的AUC值: 0.7919446032653581
# 更低,不采用

# xgboost
xgb = XGBClassifier(n_estimators=100,eta=0.1,random_state=21)
xgb.fit(x_train, y_train)
# 模型xgb的AUC值
y_pred_xgb = xgb.predict_proba(x_val)[:,1]
print('模型xgb的AUC值:',roc_auc_score(y_val, y_pred_xgb))# 结果: 模型xgb的AUC值: 0.7953751349977765
# 更低,不采用

# lightGBM
lgbm =LGBMClassifier(boosting_type = 'gbdt',objective = 'binary',metric = 'auc',learning_rate = 0.3,n_estimators = 100,max_depth = 3,num_leaves = 20,max_bin = 45,min_data_in_leaf = 6,bagging_fraction = 0.6,bagging_freq = 0,feature_fraction = 0.8)
lgbm.fit(x_train, y_train)
# 模型决策树AUC值
y_pred_lgbm = lgbm.predict_proba(x_val)[:,1]
print('smote特征后,模型lightGBM的AUC值:',roc_auc_score(y_val, y_pred_lgbm))# 输出结果: smote特征后,模型lightGBM的AUC值: 0.795629248459437
# 更低, 不采用

5.11 结论: 综上: 最高AUC出现在:

删除不重要特征后,模型DBDT的AUC值: 0.8296169239565465

6. toad 跑整体流程

6.1 先toad把train.csv和test2.csv 合并,select筛选,再2:8分训练集测试集跑GBDT看看效果

# 2. 加载数据
data1 = pd.read_csv('../../data/raw/train.csv')
# object 类型数据转数值类型
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
data1['BusinessTravel'] = le.fit_transform(data1['BusinessTravel'])
data1['Department'] = le.fit_transform(data1['Department'])
data1['EducationField'] = le.fit_transform(data1['EducationField'])
data1['Gender'] = le.fit_transform(data1['Gender'])
data1['JobRole'] = le.fit_transform(data1['JobRole'])
data1['MaritalStatus'] = le.fit_transform(data1['MaritalStatus'])
data1['Over18'] = le.fit_transform(data1['Over18'])
data1['OverTime'] = le.fit_transform(data1['OverTime'])data1.head()

data2 = pd.read_csv('../../data/raw/test2.csv')
# object 类型数据转数值类型
le = LabelEncoder()
data2['BusinessTravel'] = le.fit_transform(data2['BusinessTravel'])
data2['Department'] = le.fit_transform(data2['Department'])
data2['EducationField'] = le.fit_transform(data2['EducationField'])
data2['Gender'] = le.fit_transform(data2['Gender'])
data2['JobRole'] = le.fit_transform(data2['JobRole'])
data2['MaritalStatus'] = le.fit_transform(data2['MaritalStatus'])
data2['Over18'] = le.fit_transform(data2['Over18'])
data2['OverTime'] = le.fit_transform(data2['OverTime'])data2.head()

# 合并2份数据试试
data_all=pd.concat([data1,data2])
data_all.head()

# 3. toad特征筛选
# 先来个简单的
ex_lis=['Attrition','EmployeeNumber']   # 排除列: 结果y列,,员工号
dev_slct1, drop_lst= toad.selection.select(data_all, data_all['Attrition'], empty=0.7, iv=0.03, corr=0.7, return_drop=True, exclude=ex_lis) 
print("keep:", dev_slct1.shape[1],  "drop empty:", len(drop_lst['empty']), "drop iv:", len(drop_lst['iv']),  "drop corr:", len(drop_lst['corr']))

# 直接用筛选后的跑下:
# 5. 数据集的划分: 2:8
x_train, x_test, y_train, y_test = train_test_split(dev_slct1.drop('Attrition',axis=1), dev_slct1['Attrition'], test_size=0.2, random_state=21)
x_train.head()

# 验证集过滤需要的特征列
x_val=data2[dev_slct1.columns] #.drop('Attrition', axis=1),
x_val=x_val.drop('Attrition', axis=1)
y_val = data2['Attrition']
x_val.head()

from sklearn.ensemble import GradientBoostingClassifier# gbdt
gbdt = GradientBoostingClassifier()
gbdt.fit(x_train, y_train)
# 模型gbdt的AUC值
y_pred_gbdt = gbdt.predict_proba(x_val)[:,1]
print('模型DBDT的AUC值:',roc_auc_score(y_val, y_pred_gbdt))# 结果输出: 模型DBDT的AUC值: 0.958134807191411
# 有较大提升

# 决策树
dt = DecisionTreeClassifier(class_weight = 'balanced')
dt.fit(x_train, y_train)
# 模型决策树AUC值
y_pred_dt = dt.predict_proba(x_val)[:,1]
print('模型决策树AUC值:',roc_auc_score(y_val, y_pred_dt))# 结果输出: 模型决策树AUC值: 0.9383457213645894
# 有较大提升

# 随机森林
rf = RandomForestClassifier(class_weight = 'balanced')
rf.fit(x_train, y_train)
# 模型随机森林AUC值
y_pred_rf = rf.predict_proba(x_val)[:,1]
print('模型随机森林AUC值:',roc_auc_score(y_val, y_pred_rf))# 结果输出: 模型随机森林AUC值: 0.9880566673019503

# xgboost
xgb = XGBClassifier(n_estimators=100,eta=0.1,random_state=21)
xgb.fit(x_train, y_train)
# 模型xgboost的AUC值
y_pred_xgb = xgb.predict_proba(x_val)[:,1]
print('模型xgboost的AUC值:',roc_auc_score(y_val, y_pred_xgb))# 结果输出: 模型xgboost的AUC值: 0.9758592211422401

# lightGBM
lgbm =LGBMClassifier(boosting_type = 'gbdt',objective = 'binary',metric = 'auc',learning_rate = 0.3,n_estimators = 100,max_depth = 3,num_leaves = 20,max_bin = 45,min_data_in_leaf = 6,bagging_fraction = 0.6,bagging_freq = 0,feature_fraction = 0.8)
lgbm.fit(x_train, y_train)
# 模型lightGBM的AUC值
y_pred_lgbm = lgbm.predict_proba(x_val)[:,1]
print('模型lightGBM的AUC值:',roc_auc_score(y_val, y_pred_lgbm))# 结果输出: 模型lightGBM的AUC值: 0.961755924020075

6.2 不合并,tain.csv为训练集,test2做测试集

# 不合并2个数据集试试
# 3. toad特征筛选
# data1 为 tain.csv 只做了label encoder
ex_lis=['Attrition','EmployeeNumber']   # 排除列: 结果y列,,员工号
dev_slct2, drop_lst2= toad.selection.select(data1, data1['Attrition'], empty=0.7, iv=0.03, corr=0.7, return_drop=True, exclude=ex_lis) 
print("keep:", dev_slct2.shape[1],  "drop empty:", len(drop_lst2['empty']), "drop iv:", len(drop_lst2['iv']),  "drop corr:", len(drop_lst2['corr']))

# 训练集
x_train, y_train= dev_slct2.drop('Attrition',axis=1), dev_slct2['Attrition']
x_train.head()

# 测试集
x_val=data2[dev_slct2.columns] 
x_val=x_val.drop('Attrition', axis=1)
y_val = data2['Attrition']
x_val.head()

# gbdt
gbdt = GradientBoostingClassifier()
gbdt.fit(x_train, y_train)
# 模型gbdt的AUC值
y_pred_gbdt = gbdt.predict_proba(x_val)[:,1]
print('模型DBDT的AUC值:',roc_auc_score(y_val, y_pred_gbdt))# 结果输出: 模型DBDT的AUC值: 0.8524236071405884

# 决策树
dt = DecisionTreeClassifier(class_weight = 'balanced')
dt.fit(x_train, y_train)
# 模型决策树AUC值
y_pred_dt = dt.predict_proba(x_val)[:,1]
print('模型决策树AUC值:',roc_auc_score(y_val, y_pred_dt))# 结果输出: 模型决策树AUC值: 0.6247061813099549

# 随机森林
rf = RandomForestClassifier(class_weight = 'balanced')
rf.fit(x_train, y_train)
# 模型随机森林AUC值
y_pred_rf = rf.predict_proba(x_val)[:,1]
print('模型随机森林AUC值:',roc_auc_score(y_val, y_pred_rf))# 结果输出: 模型随机森林AUC值: 0.8129407280350678

# xgboost
xgb = XGBClassifier(n_estimators=100,eta=0.1,random_state=21)
xgb.fit(x_train, y_train)
# 模型xgboost的AUC值
y_pred_xgb = xgb.predict_proba(x_val)[:,1]
print('模型xgboost的AUC值:',roc_auc_score(y_val, y_pred_xgb))# 结果输出: 模型xgboost的AUC值: 0.8126548503906994

# lightGBM
lgbm =LGBMClassifier(boosting_type = 'gbdt',objective = 'binary',metric = 'auc',learning_rate = 0.3,n_estimators = 100,max_depth = 3,num_leaves = 20,max_bin = 45,min_data_in_leaf = 6,bagging_fraction = 0.6,bagging_freq = 0,feature_fraction = 0.8)
lgbm.fit(x_train, y_train)
# 模型lightGBM的AUC值
y_pred_lgbm = lgbm.predict_proba(x_val)[:,1]
print('模型lightGBM的AUC值:',roc_auc_score(y_val, y_pred_lgbm))# 结果输出:模型lightGBM的AUC值: 0.8293628104948859

# 综上toad 的select 对tain.csv数据集筛选,训练
# 最高auc: 模型DBDT的AUC值: 0.8524236071405884