机器学习:从源数据清洗到特征工程建立谈金融反欺诈模型训练

本文旨在通过一个完整的实战例子,演示从源数据清洗到特征工程建立,再到模型训练,以及模型验证和评估的一个机器学习的完整流程。由于初识机器学习,会比较多的困惑,希望通过借助这个实战的例子,可以帮助大家对机器学习了一个初步的认识。
本文旨在通过一个完整的实战例子,演示从源数据清洗到特征工程建立,再到模型训练,以及模型验证和评估的一个机器学习的完整流程。由于初识机器学习,会比较多的困惑,希望通过借助这个实战的例子,可以帮助大家对机器学习了一个初步的认识。

【数据来源】

本文的数据来源于Lending Club网站的公开数据,数据集为自LendingClub平台发放的2016年Q3的总计99122条贷款记录。

Lending Club是美国最大的P2P网贷交易平台,利用网络技术直接连接了个人投资者和个人借贷者,缩短资金流通的细节,绕过传统的大银行等金融机构,使得投资者和借贷者都能得到更多实惠。对于投资者来说,可以获得更好的回报;对于借贷者来说,则可以获得相对较低的贷款利率。

在借贷行业中,投资者向借贷者提供贷款以获取利息。如果借贷者顺利偿还贷款,投资者则获得利息收益。如果借贷者无法偿还贷款,投资者则损失贷款本金。因此,对于投资者来说,需要预测借贷者无法偿还贷款的风险,最大程度地避免投资损失,最大程度地实现投资回报。

【实施步骤】

一、 总体流程说明

数据分析的开始是从了解你要分析的数据以及了解你本次机器学习的目标开始的。需要分清是分类问题,还是回归问题,同时需要了解数据的构造,哪些是自变量(特征),哪个是因变量(目标变量)。就本次目标来看,因为目标变量是loan_statas(还款状态),它是一个标称值,因此本次是一个分类问题。

进入数据清洗阶段,主要是去除一些缺失严重的样式或者特征,同时去除一些跟业务无关的特征,以及方差比较小的特征。建立特征工程时,主要是对里面字符特征进行处理,将其转成数值型,以及对一些数据值特征进行归一化等处理;模型训练时,主要是选择合适的算法以及选择合适的超参数;模型评估就是将在训练集上运行好的模型,在测试集上进行验证评估。

二、了解数据集

使用pandas读取数据集,然后查看数据信息

可以看出一共包含了99122条记录,一共有121个特征和一个目标变量,这些列的类型分布:float64有97个,字符型有25个。

三、 数据清洗

▲取出特征X以及目标变量y

其中load_data是自己封装的一个函数,用于根据targetCol来分割原来的df。

▲根据业务去掉不需要的列

目前主要包含:无关的标识字段以及贷后字段

▲调用自定义函数进行清理

主要包含的以下操作:

▪ 去除所有行以及所有的列均为nan的数据
▪ 去除缺失率高的特征,这里超过0.9则不考虑
▪ 去除特征中包含实例类别太多的特征,默认包含1000个实例则不考虑
▪ 对于数值型,如果标准差太小的,则不考虑该特征

可以从打印出的日志上看出,经过上一步的清洗步骤,已经从原来的121个特征变量,降成75个特征变量。

再看一下清洗完后,目前的特征中样本缺失度情况:

由图可以目前缺失最高的mths_since_last_record在80%左右,在预设范围内,整体情况还相对理想。

▲查看特征的相关程度

如果特征之间相关度比较高的话,那就会影响分析结果,这里对这些特征的相关度进行排序:

从上述的相关系数的关联情况可以看出:funded_amnt,loan_amnt,funded_amnt_inv这几个特征的关联比较强,仅保留funded_amnt,去除其它两个特征,经过清洗后只剩下了73个特征。

四、特征工程

▲对目标变量的处理

查看目标变量y的值的分布情况

根据业务来理解,Current和Fully Paid用户是属于信用良好的样本,用1表示,Late (31-120 days)和Late (16-30 days)逾期的用户就归于信用不好的样本,用0表示,其它的几类就暂时用np.nan来代替,本次暂时不分析,先删除这些空的3912个样本。

处理完后,目标变量的分布如下:

▲对字符型特征的处理

查看当前特征中字符型的特征主要包含:

通过数据的分布可以看出特征pymnt_plan,application_type分布很不均衡,暂时不考虑这两个特征。

同时将init_rate转成float类型,将emp_length处理成int类型,对剩下的三个home_ownership,verification_status,initial_list_status类型变量做独热编码,使用pd.get_dummies函数,同时去除原始的那三个字段。

经过如上的处理,将其全部字符型的特征转成了数值型。

▲对整体数值型特征的处理

这里主要对缺失值处理,使用每个特征的中位数进行缺失值填充。

到此已全部完成了特征工程的建立,最终特征工程包含95210个样本以及 77特征,建好的特征工程进入下一阶段的模型训练。

五、 模型训练

因为考虑到样本的不均衡性,交叉验证的方法使用StratifiedShuffleSplit方式来划分样本,同时学习器使用GBRT算法,同时RandomizedSearchCV进行最优参数选择。目前只是设置了基本的参数:

通过训练集的充分训练后,得到目前GBRT最优的参数如下:

然后使用这个最优的模型来对测试集进行预测:

这样我们就得到了测试集在这个模型中跑出来的结果y_predicted数组,然后将它与y_test进行比对就可以对该模型进行评估,具体的可以查看2.6小结的结果。

六、模型评估

▲查看分类报告

可以看出整体平均的精确度和召回率和F1值还是可以的,不过对于样本0的召回率和F1值为0,可能需要进一步优化。

▲查看学习曲线

学习曲线是一条关于样本个数和经验损失函数之间的曲线,通过学习曲线可以看到关于偏差、方差用于改善机器学习算法的决策提供依据;从目前的曲线可以看出,训练得分和测试得分基本稳定在0.972这个点,相对来说比较理想。

【结论与展望】

本文只是简单的演示了一个完整的机器学习的流程,重点在于突出机器学习的各个实施步骤,对于整体的模型可能还有以下几点可以优化与完善:

▪ 如何更好的处理样本的不平衡性
▪ 是否考虑其它的算法进行比对效果,比如xgboost
▪ 算法的超参数调优可以增加几个变量调优
▪ 特征工程的建立还是稍微粗糙了些,还是可以再细化(比如特征的组合,特征的重要性排序,数值型特征的归一化处理等)

转载于:https://www.cnblogs.com/ldt-/p/10236889.html

金融反欺诈模型----项目实战--机器学习相关推荐

  1. 原理+代码|手把手教你使用Python实战反欺诈模型

    三本点击上方"早起Python",关注并"星标" 每日接收Python干货! 本文含 6192 字,15 图表截屏 建议阅读 20分钟 本文将基于不平衡数据,使 ...

  2. python 靶心_手把手教你使用Python实战反欺诈模型|原理+代码

    原标题:手把手教你使用Python实战反欺诈模型|原理+代码 作者 | 萝卜 来源 | 早起Python(ID: zaoqi-python) 本文将基于不平衡数据,使用Python进行 反欺诈模型数据 ...

  3. 项目:金融行业反欺诈模型

    当今以互联网.移动终端等为代表的技术力量正深刻地影响着金融支付市场,信息化.网络化.无线终端等技术的应用,使金融机构特别是银行业的经营发生了天翻地覆的变化,传统的银行柜台和网点业务,正渐渐被电子化交易 ...

  4. AI:人工智能实践六大场景(金融信用违约、反欺诈模型、客户偏好洞察、智能推荐、精准营销、客户流失管理)及其对应常用机器学习算法经验总结(不断更新)

    AI:人工智能实践六大场景(金融信用违约.反欺诈模型.客户偏好洞察.智能推荐.精准营销.客户流失管理)及其对应常用机器学习算法经验总结(不断更新) 目录

  5. 宜人贷何林海:社交图谱在金融反欺诈产品的应用

    在今年的「QingCloud Insight 2017」上,麦思博(msup)组织了主题为"AI落地实践"的专场论坛.宜人贷数据产品经理 何林海 在本场带来了题为<构建基于社 ...

  6. 金融反欺诈和金融构建信用评分或者金融预测特征抽取案例

    金融反欺诈和金融构建信用评分或者金融预测特征抽取案例 之前在微信朋友圈读到过这样一篇文章,施一公:"我国的最大危机,是所有精英都想干金融!",当然,笔者是非常赞同的,因为和钱距离越 ...

  7. 顶象深度画像亮相GMIC,用AI提升金融反欺诈

    顶象深度画像亮相GMIC,用AI提升金融反欺诈 凤凰新闻04-2819:30 原标题:顶象深度画像亮相GMIC,用AI提升金融反欺诈 "最近Facebook信息泄露问题,再次让隐私保护成为焦 ...

  8. 金融反欺诈-交易基础介绍 - 阿里巴巴云誉【转载】

    转载{http://www.vuln.cn/7136} 0×00 前言 一.简介 如今,互联网金融比较火热,金融欺诈也变得非常普遍,金融反欺诈也应运而生.本文将主要介绍下金融交易中的一些基本内容,并简 ...

  9. 【采用】互联网金融反欺诈体系构建及典型应用案例

    一.互联网反欺诈体系的构建存在着以下三个原则: (准)实时性:考虑到用户体验,互联网反欺诈体系必须能够在非常短的时间内对欺诈行为进行认定,并给出判断.对于注册.登陆.支付等一些场景,必须能够在用户无感 ...

最新文章

  1. 嵩天python笔记_第一篇python笔记
  2. HTML5 之前的视频播放格式
  3. 图解Java 开发教程
  4. signal.h 中的宏定义 SIG_DFL 及 SIG_IGN
  5. 使用 plot 绘制折线图,关于如何让坐标轴纵向显示和显示图例的一点技巧
  6. [JS] 修改Navigator对象
  7. c++中 int, long long, double 等数据类型的长度及范围整理
  8. 前端学习(2646):vue3.0初识
  9. 【会议】2008-10-27
  10. c语言编译如何去掉warning,16种C语言编译警告(Warning)类型的解决方法
  11. 2018年EMUI系统能力分论坛来啦
  12. 用angular中的ng-repeat和ng-show来实现tab选项卡
  13. Java商店管理系统
  14. UBUNTU完美运行TM,RTX,MSOffice,迅雷
  15. 项目采集自动刷新 php,PHP168 CMS自动采集-PHP168 CMS自动更新-齐博CMS站群管理系统...
  16. MAC 虚拟机配置静态IP
  17. ​九月简报 | Coinversation先行版DEX——Kaco上线碎片化,TVL最高突破1000w美金
  18. 根据月份,计算当月周数(非自然周)
  19. eventhandler java_事件驱动模型的简单Java实现
  20. 【IoT】从马斯克造火箭到产品开发,快速失败很重要

热门文章

  1. navicat for mysql 8.0激活码
  2. 如何删除clearcase里残存的view?
  3. 《单片机原理与应用》期末试卷参考2020年
  4. 推荐几个学习嵌入式及Linux比较好的网站或博客
  5. jquery ajax 事件执行顺序
  6. 华为云CDN为什么这么受用户的信赖?
  7. 地铁供电系统原理图_地铁供电系统智能化发展原稿(图文高清版)
  8. 网线和水晶头的分类(这是真的不知道还有这样的区别)
  9. Mysql中TCL语言
  10. 升级笔记本硬件并安装Debian的过程