原文链接：http://tecdat.cn/?p=26184

原文出处：拓端数据部落公众号

在此数据集中，我们必须预测信贷的违约支付，并找出哪些变量是违约支付的最强预测因子？以及不同人口统计学变量的类别，拖欠还款的概率如何变化？

有25个变量：

1. ID： 每个客户的ID
2. LIMIT_BAL： 金额
3. SEX： 性别（1 =男，2 =女）
4.教育程度：（1 =研究生，2 =本科，3 =高中，4 =其他，5 =未知）
5.婚姻： 婚姻状况（1 =已婚，2 =单身，3 =其他）
6.年龄：
7. PAY_0： 2005年9月的还款状态（-1 =正常付款，1 =延迟一个月的付款，2 =延迟两个月的付款，8 =延迟八个月的付款，9 =延迟9个月以上的付款）
8. PAY_2： 2005年8月的还款状态（与上述相同）
9. PAY_3： 2005年7月的还款状态（与上述相同）
10. PAY_4： 2005年6月的还款状态（与上述相同）
11. PAY_5： 2005年5月的还款状态（与上述相同）
12. PAY_6： 还款状态2005年4月的账单（与上述相同）
13. BILL_AMT1： 2005年9月的账单金额
14. BILL_AMT2： 2005年8月的账单金额
15. BILL_AMT3： 账单金额2005年7月的账单金额
16. BILL_AMT4： 2005年6月的账单金额
17. BILL_AMT5： 2005年5月的账单金额
18. BILL_AMT6： 2005年4月
19. PAY_AMT1 2005年9月，先前支付金额
20. PAY_AMT2 2005年8月，以前支付的金额
21. PAY_AMT3： 2005年7月的先前付款
22. PAY_AMT4： 2005年6月的先前付款
23. PAY_AMT5： 2005年5月的先前付款
24. PAY_AMT6： 先前的付款额在2005年4月
25. default.payment.next.month： 默认付款（1 =是，0 =否）

现在，我们知道了数据集的整体结构。因此，让我们应用在应用机器学习模型时通常应该执行的一些步骤。

步骤6：规范化数据：特征标准化

对于许多机器学习算法而言，通过标准化（或Z分数标准化）进行特征标准化可能是重要的预处理步骤。

许多算法（例如SVM，K近邻算法和逻辑回归）都需要对特征进行规范化，

min_test = X_test.min()
range_test = (X_test - min_test).max()
X_test_scaled = (X_test - min_test)/range_test

步骤7：应用机器学习模型

from sklearn.ensemble  import AdaBoostClassifier
adaboost =AdaBoostClassifier()

xgb_classifier.fit(X_train_scaled, y_train,verbose=True)
end=time()
train_time_xgb=end-start

应用具有100棵树和标准熵的随机森林

classifier = RandomForestClassifier(random_state = 47, criterion = 'entropy',n_estimators=100)


svc_model = SVC(kernel='rbf', gamma=0.1,C=100)

knn = KNeighborsClassifier(n_neighbors = 7)

步骤8：分析和比较机器学习模型的训练时间


Train_Time = [train_time_ada,train_time_xgb,train_time_sgd,train_time_svc,train_time_g,train_time_r100,train_time_knn
]

从上图可以明显看出，与其他模型相比，Adaboost和XGboost花费的时间少得多，而其他模型由于SVC花费了最多的时间，原因可能是我们已经将一些关键参数传递给了SVC。

步骤9.模型优化

在每个迭代次数上，随机搜索的性能均优于网格搜索。同样，随机搜索似乎比网格搜索更快地收敛到最佳状态，这意味着迭代次数更少的随机搜索与迭代次数更多的网格搜索相当。

在高维参数空间中，由于点变得更稀疏，因此在相同的迭代中，网格搜索的性能会下降。同样常见的是，超参数之一对于找到最佳超参数并不重要，在这种情况下，网格搜索浪费了很多迭代，而随机搜索却没有浪费任何迭代。

现在，我们将使用Randomsearch cv优化模型准确性。如上表所示，Adaboost在该数据集中表现最佳。因此，我们将尝试通过微调adaboost和SVC的超参数来进一步优化它们。

参数调整

现在，让我们看看adaboost的最佳参数是什么

random_search.best_params_

{'random_state': 47, 'n_estimators': 50, 'learning_rate': 0.01}

random_search.best_params_

{'n_estimators': 50, 'min_child_weight': 4, 'max_depth': 3}

random_search.best_params_

{'penalty': 'l2', 'n_jobs': -1, 'n_iter': 1000, 'loss': 'log', 'alpha': 0.0001}

出色的所有指标参数准确性，F1分数精度，ROC，三个模型adaboost，XGBoost和SGD的召回率现已优化。此外，我们还可以尝试使用其他参数组合来查看是否会有进一步的改进。

ROC曲线图

auc = metrics.roc_auc_score(y_test,model.predict(X_test_scaled))plt.plot([0, 1], [0, 1],'r--')


# 计算测试集分数的平均值和标准差
test_mean = np.mean# 绘制训练集和测试集的平均准确度得分
plt.plot
# 绘制训练集和测试集的准确度。
plt.fill_between

验证曲线的解释

如果树的数量在10左右，则该模型存在高偏差。两个分数非常接近，但是两个分数都离可接受的水平太远，因此我认为这是一个高度偏见的问题。换句话说，该模型不适合。

在最大树数为250的情况下，由于训练得分为0.82但验证得分约为0.81，因此模型存在高方差。换句话说，模型过度拟合。同样，数据点显示出一种优美的曲线。但是，我们的模型使用非常复杂的曲线来尽可能接近每个数据点。因此，具有高方差的模型具有非常低的偏差，因为它几乎没有假设数据。实际上，它对数据的适应性太大。

从曲线中可以看出，大约30到40的最大树可以最好地概括看不见的数据。随着最大树的增加，偏差变小，方差变大。我们应该保持两者之间的平衡。在30到40棵树的数量之后，训练得分就开始上升，而验证得分开始下降，因此我开始遭受过度拟合的困扰。因此，这是为什么30至40之间的任何数量的树都是一个不错的选择的原因。

结论

因此，我们已经看到，调整后的Adaboost的准确性约为82.95％，并且在所有其他性能指标（例如F1分数，Precision，ROC和Recall）中也取得了不错的成绩。

此外，我们还可以通过使用Randomsearch或Gridsearch进行模型优化，以找到合适的参数以提高模型的准确性。

我认为，如果对这三个模型进行了适当的调整，它们的性能都会更好。

最受欢迎的见解

1.从决策树模型看员工为什么离职

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失

拓端tecdat|Python信贷风控模型：梯度提升Adaboost,XGBoost,SGD, GBOOST, SVC,随机森林, KNN预测金融信贷违约支付和模型优化相关推荐

Python信贷风控模型：Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付
全文链接:http://tecdat.cn/?p=26184 在此数据集中,我们必须预测信贷的违约支付,并找出哪些变量是违约支付的最强预测因子?以及不同人口统计学变量的类别,拖欠还款的概率如何变化?( ...
拓端tecdat荣获掘金社区入驻新人奖
2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...
拓端tecdat荣获2022年度51CTO博主之星
相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...
PYTHON链家租房数据分析：岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化...
全文下载链接:http://tecdat.cn/?p=29480 作者:Xingsheng Yang 1 利用 python 爬取链家网公开的租房数据: 2 对租房信息进行分析,主要对房租相关特征进行 ...
机器学习项目实战：基于随机森林进行心脏病分类（含多种模型解释方法）
本项目是Kaggle上面的一个经典竞赛题,心脏病分类问题,题目链接在这里. 主要基于随机森林的bagging集成学习框架,通过13个生理特征数据,实现对心脏病分类的预测. 由于自己想要在这个项 ...
Python 利用SVM,KNN,随机森林进行预测
Python 利用SVM,KNN,随机森林进行预测工具:Pycharm,Win10,Python3.6.4 上图是我们的数据文件,最后一列是附近有无超市的标签,1代表有,-1代表没有.可以发现数据维 ...
拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
拓端tecdat|bilibili视频流量数据潜望镜
最近我们被客户要求撰写关于bilibili视频流量的研究报告,包括一些图形和统计输出. 最新研究表明,中国有超过7亿人在观看在线视频内容.Bilibili,被称为哔哩哔哩或简称为B站,是中国大陆第二个 ...
拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子人口众多独生子女政策: ...
基于Python的随机森林（RF）回归与多种模型超参数自动优化方法
本文详细介绍基于Python的随机森林(Random Forest)回归算法代码与模型超参数(包括决策树个数与最大深度.最小分离样本数.最小叶子节点样本数.最大分离特征数等等)自动优化代码. ...

拓端tecdat|Python信贷风控模型：梯度提升Adaboost,XGBoost,SGD, GBOOST, SVC,随机森林, KNN预测金融信贷违约支付和模型优化

原文链接：http://tecdat.cn/?p=26184

原文出处：拓端数据部落公众号

相关视频：Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例

第1步：导入

第2步：数据预处理和清理

步骤3.数据可视化和探索性数据分析

男女按年龄分布

步骤4.找到相关性

步骤5：将数据分割为训练和测试集