DataMiningCase

点击跳转GitHub地址

流失预警模型(二分类),代码原型为本人在某银行做的流失模型,AUC:83%、召回率:19.4%,精确率:85%(数据是外部数据/代码已脱敏)

你将习得:数据的处理、LightGBM、sklearn包(里面含有:GridSearchCV寻找最优参、StratifiedKFold分层5折切分、train_test_split单次数据切分等)、画AUC图、画混淆矩阵图,并输出预测名单。

注释覆盖率为80%左右,旨在帮助快速入门,新手级

该项目涉及的如下:

  • 业务理解

    • 业务需求分析(实战)
  • 数据理解
    • 数据质量探查
    • 重要特征探查
  • 数据处理
    • preprocessing函(数据切分成训练用数据X,和校对数据y)
    • dropna(处理异常值字段)
    • pd.value_counts(正负样本情况)
    • fillna(null值填充)
    • smote(过采样)
  • 特征工程
    • corr(特征相关系数图)
    • 正负样本特征柱状图
    • 正负样本特征线性图
    • rfecv(特征五折递归消除)
    • importance(基于模型的特征重要性)
  • 模型训练
    • GridSearchCV(寻找最优参)
    • LightGBM参数详解
    • StratifiedKFold(分层5折模型训练)
    • train_test_split(单次切分模型训练)
    • 输出名单
    • ks值及优threshold
  • 画图
    • plot/auc_plot(画AUC图)
    • confusion_matrix/plot_confusion_matrix(画混淆矩阵图)
  • 模型评估及实验
    • 模板

数据来源

仅用于测试代码的逻辑,非银行敏感数据。来源:ATEC蚂蚁开发者大赛-支付风险识别数据,赛题的目的是根据历史交易数据识别当前交易是否为欺诈交易。

作者为了快速完成代码测试,将训练集按1:10切分,用1/10作为代码测试的数据集。并且将多分类(0,1,-1),中的-1(未知)通过预测,将高分的一起归到1(风险交易)里。具体可参考:【风控实践】ATEC蚂蚁开发者大赛-支付风险识别_littlemichelle-CSDN博客

当然这也是猜测,因为作者已经忘记了

银行客户流失预警模型——业务分析及代码(实战)相关推荐

  1. 金融风控-- >客户流失预警模型-- >金融数据分析

    从这篇博文开始,我将介绍机器学习,深度学习在金融风控这个行业上的应用.其实机器学习,深度学习在一些相关场景上的应用,其解决方法都是大同小异,差不多都是固定的解决套路,但是需要结合这个场景这个行业领域的 ...

  2. 客户流失预警模型怎么做?

    客户流失预警模型怎么做? 贷中策略除了跟调额.营销相关外,与客户流失相关及营销相关的还有一个客户流失预测模型,是我们全流程中必不可少的一个客群分析. 目前,银行都面临着极大的优质客户流失的危险.这将对 ...

  3. 数学建模学习(2)—— 客户流失预警模型案例评估 ROC曲线与KS曲线(2022.7.19)

    昨天晚上做了个梦,梦到被老师臭骂了一顿,可以说当时把我直接吓醒了,醒过来后,惊叹一声,还好是个梦.在上个笔记中学习了逻辑回归的运用,这节课再来看一看对模型评估的方法. 文章目录 目录 文章目录 一.R ...

  4. python数据分析实例:客户流失预警模型

    python数据分析实例:客户流失预警模型 客户流失是电信行业最重要的服务方面之一.客户流失的广义说法是因为客户自己或运营商违反服务协议而终止客户服务的行为. 流失预测流程一共分为四个步骤,分别为(1 ...

  5. 客户流失预警模型-GBDT模型

    GBDT模型参数问题,这里我们以sklearn里面的GBDT为例来说,打开网址sklearn.ensemble.GradientBoostingClassifier.这里我们不关注GBDT里面的所有参 ...

  6. sklearn基于make_scorer函数为Logistic模型构建自定义损失函数+代码实战(二元交叉熵损失 binary cross-entropy loss)

    sklearn基于make_scorer函数为Logistic模型构建自定义损失函数+代码实战(二元交叉熵损失 binary cross-entropy loss) # 广义线性模型中的各种连接函数: ...

  7. 深度学习多变量时间序列预测:LSTM算法构建时间序列多变量模型预测交通流量+代码实战

    深度学习多变量时间序列预测:LSTM算法构建时间序列多变量模型预测交通流量+代码实战 LSTM(Long Short Term Memory Network)长短时记忆网络,是一种改进之后的循环神经网 ...

  8. 深度学习多变量时间序列预测:Bi-LSTM算法构建时间序列多变量模型预测交通流量+代码实战

    深度学习多变量时间序列预测:Bi-LSTM算法构建时间序列多变量模型预测交通流量+代码实战 人类并不是每时每刻都从一片空白的大脑开始他们的思考.在你阅读这篇文章时候,你都是基于自己已经拥有的对先前所见 ...

  9. 深度学习多变量时间序列预测:Encoder-Decoder LSTM算法构建时间序列多变量模型预测交通流量+代码实战

    深度学习多变量时间序列预测:Encoder-Decoder LSTM算法构建时间序列多变量模型预测交通流量+代码实战 LSTM是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要 ...

最新文章

  1. Nginx从基本原理到开发实践
  2. 【新书】用Python3六步掌握机器学习第二版,469页pdf,Mastering Machine Learning
  3. Linux 命令行敲命令 光标移动快捷键
  4. BRCM5.02编译十:cmake: command not found
  5. 牛客 - 牛半仙的妹子Tree(按询问分块+RMQ求LCA)
  6. 语音识别(1)---语音识别(ASR)评估指标-WER(字错误率)和SER(句错误率)
  7. vmware快速搭建OpenStack云计算平台
  8. 语音分析应用场景——来电原因分析与运营效率提升
  9. 【图像压缩】基于matlab GUI哈达玛变换图像压缩【含Matlab源码 845期】
  10. 简单利用字典破解zip文件口令
  11. Cplex教程(C++)
  12. 00003__位图简介
  13. Android 截屏监听分享
  14. subs php,nginx subs_filter对输出内容进行替换
  15. AFX_MSG是什么意思
  16. MATLAB房价,MATLAB实现波士顿房价预测使用BP神经网络
  17. Qt之界面实现技巧——包括任务栏不显示,自定义窗体,最大化最小化按钮等等全面总结
  18. Linux下Oracle 11g安装(2)—— 系统准备篇
  19. 基础算法(三) --- 轮询
  20. OUC2021软件工程OUC拼车程序小组Gamma阶段博客目录

热门文章

  1. kubernetes pod infra container网络原理
  2. 构建module遇到pom报错Parent 'Unkown:Unkown:Unkown' has problems
  3. 一飞院飞机总体协同设计系统
  4. (转)it界的大师手笔
  5. unknown mutation type:
  6. 苹果7 plus手机显示无服务器,天了噜!iPhone 7 Plus 居然有这些功能!非买不可!...
  7. LinuxCNC与EtherCAT学习笔记(2)——安装LinuxCNC
  8. 对定向天线的浅薄理解
  9. ZLG_USBCAN-Ⅱ+ 设置滤波问题
  10. 视频教程-20150604.C语言-C/C++